国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于預(yù)訓(xùn)練語言模型的行業(yè)搜索的應(yīng)用和研究

深度學(xué)習(xí)自然語言處理 ? 來源:DataFunTalk ? 2023-02-01 11:23 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

01

行業(yè)搜索的背景

1. 達(dá)摩院自然語言智能大圖

872707fc-a1d0-11ed-bfe3-dac502259ad0.png

上圖是達(dá)摩院自然語言處理智能的技術(shù)框圖,從下到上包含:

NLP 數(shù)據(jù)、NLP 基礎(chǔ)的詞法、句法語義,分析的技術(shù),以及上層 NLP 技術(shù)

行業(yè)應(yīng)用:達(dá)摩院除了做基礎(chǔ)研究之外,還賦能阿里集團(tuán),以及結(jié)合阿里云去賦能行業(yè)產(chǎn)業(yè)。賦能的很多行業(yè)場景都是搜索。

2. 行業(yè)搜索本質(zhì)

87504b8a-a1d0-11ed-bfe3-dac502259ad0.png

面向產(chǎn)業(yè)和消費互聯(lián)網(wǎng)的搜索本質(zhì)都是一樣的:用戶有信息獲取需求,同時有信息資源庫,通過搜索引擎把兩者橋接起來。

以電商場景來舉例說明。比如用戶在電商里面搜索 aj1 北卡藍(lán)新款球鞋。

為了更好地理解這樣一個用戶的 query,需要進(jìn)行一系列任務(wù):

查詢理解的分析:NLP 糾錯、分詞類目預(yù)測、實體識別詞權(quán)重、 query 改寫等技術(shù)

(離線)文檔分析:NLP分析,質(zhì)量效率的分析

檢索排序:通過對 query 的分析以及文檔的分析,來結(jié)合搜索引擎本身一些檢索排序的機(jī)制,就能實現(xiàn)把兩者橋接的目標(biāo)。

3. 行業(yè)搜索鏈路

87829bee-a1d0-11ed-bfe3-dac502259ad0.png

如果按搜索的范式來分,一般分為 sparse retrieval 及 dense retrieval。

sparse retrieval:傳統(tǒng)的基于字或基于詞去建立倒排索引,同時基于此去構(gòu)建很多查詢理解的一系列的能力,包括一些文本相關(guān)性排序等;

dense retrieval:隨著預(yù)訓(xùn)練語言模型的興起,基于預(yù)訓(xùn)練底座來實現(xiàn)單塔、雙塔模型,再結(jié)合向量引擎建立搜索機(jī)制。

878ff028-a1d0-11ed-bfe3-dac502259ad0.png ? 一般將搜索做這樣一個鏈路性的劃分:召回、排序(粗排、精排、重排)。

87a95db0-a1d0-11ed-bfe3-dac502259ad0.png

召回階段:

傳統(tǒng) sparse retrieval 的關(guān)鍵詞召回

dense retrieval 向量召回,個性化召回

粗排階段:使用文本相關(guān)性(靜態(tài))分?jǐn)?shù)來做過濾

精排階段:相對復(fù)雜,會有相關(guān)性的模型,可能結(jié)合業(yè)務(wù)的效率模型(LTR)

87b50d86-a1d0-11ed-bfe3-dac502259ad0.png ?

從左到右,模型復(fù)雜度、效果精度變高。從右到左,處理 Doc 數(shù)變多。以淘寶電商為例,比如召回(幾十億),初排(幾十萬),到精排(幾百、上千),到重排(幾十)量級。

搜索生產(chǎn)鏈路是檢索效果跟工程效率 trade-off 的系統(tǒng)。隨著算力的增長,復(fù)雜模型開始往前置換。比如說精排的模型,現(xiàn)在慢慢會下沉到粗排、甚至召回這個階段。

87e14f54-a1d0-11ed-bfe3-dac502259ad0.png

搜索效果評估:

召回:recall 或無結(jié)果率

排序:相關(guān)性、轉(zhuǎn)化效率(貼近業(yè)務(wù))

相關(guān)性:NDCG、MRR

轉(zhuǎn)化效率:點擊率、轉(zhuǎn)化率

4. 消費互聯(lián)網(wǎng)和產(chǎn)業(yè)互聯(lián)網(wǎng)的搜索

88091372-a1d0-11ed-bfe3-dac502259ad0.png

搜索在不同行業(yè)場景里區(qū)別是很大的,在此把它分為消費互聯(lián)網(wǎng)搜索與產(chǎn)業(yè)互聯(lián)網(wǎng)搜索

用戶群體和 UV:消費互聯(lián)網(wǎng)搜索 UV 非常大,產(chǎn)業(yè)互聯(lián)網(wǎng)面向政企內(nèi)部的員工;

搜索追求指標(biāo):消費互聯(lián)網(wǎng),除了追求搜得到、搜得準(zhǔn)之外,還追求轉(zhuǎn)化率高。在產(chǎn)業(yè)互聯(lián)網(wǎng),它更多是信息匹配的需求,所以關(guān)注召回跟相關(guān)性;

工程系統(tǒng)要求:消費互聯(lián)網(wǎng) QPS 的要求會很高,沉淀大量的用戶行為,需要有實時日志分析、實時模型訓(xùn)練。產(chǎn)業(yè)互聯(lián)網(wǎng)的要求會低一些;

算法方向:消費互聯(lián)網(wǎng)會從 offline、nearline、online 的海量用戶行為分析建模獲得更大收益。產(chǎn)業(yè)互聯(lián)網(wǎng)的用戶行為稀疏,所以會更注重內(nèi)容理解,比如 NLP 或者視覺的理解,研究方向包括 low resource、transfer learning。

02

相關(guān)技術(shù)研究

882ca7a6-a1d0-11ed-bfe3-dac502259ad0.png

搜索是跟系統(tǒng)框架緊密耦合的:包括離線數(shù)據(jù),搜索服務(wù)框架(綠色部分),搜索技術(shù)算法體系(藍(lán)色部分),其底座是 Alicemind 預(yù)訓(xùn)練語言模型體系,同樣會匯聚做文檔分析、query 理解、相關(guān)性等。

1. AliceMind 體系

889a724a-a1d0-11ed-bfe3-dac502259ad0.png

AliceMind 是達(dá)摩院構(gòu)建的層次化預(yù)訓(xùn)練語言模型體系。包含了通用預(yù)訓(xùn)練模型,多語言、多模態(tài)、對話等,是 NLP 所有任務(wù)的底座。

2. 分詞

88ffea94-a1d0-11ed-bfe3-dac502259ad0.png

搜索的分詞(原子能力),決定了檢索索引粒度,同時也與后續(xù)相關(guān)性、BM25 粒度有關(guān)。針對 task specific 任務(wù),如果去定制一些預(yù)訓(xùn)練,能比通用的預(yù)訓(xùn)練效果更好。

比如最近研究希望在原生 BERT 預(yù)訓(xùn)練任務(wù)上增加無監(jiān)督的統(tǒng)計信息的任務(wù),比如統(tǒng)計字詞、Gram 粒度、或者邊界熵,然后以 mse-loss 增加到預(yù)訓(xùn)練。在 CWS/POS、NER上(右圖),的諸多任務(wù)都達(dá)到 SOTA。

895a3e9a-a1d0-11ed-bfe3-dac502259ad0.png

另一個研究是跨領(lǐng)域。每次需要標(biāo)數(shù)據(jù)、構(gòu)建監(jiān)督任務(wù)的成本很高,所以需構(gòu)建跨領(lǐng)域無監(jiān)督分詞的機(jī)制。右下角的表格為例,電商分詞相比開源的分詞質(zhì)量有明顯改善,這套方法也發(fā)布到 ACL2020。

3. 命名實體識別

899ff7d2-a1d0-11ed-bfe3-dac502259ad0.png

搜索命名實體識別主要是對 query 、Doc 進(jìn)行結(jié)構(gòu)化的理解,識別出關(guān)鍵短語及類型。同時搜索知識圖譜的構(gòu)建也依賴 NER 功能。 搜索 NER 也面臨一些挑戰(zhàn)。主要是比如 query 常常是比較短的,上下文不足。

比如說電商里面 query 實體的歧義性很高,知識性很強(qiáng)。所以這幾年在 NER 核心的優(yōu)化思路,就是通過上下文或者引入知識的方式來增強(qiáng) NER 的表征。

89c91428-a1d0-11ed-bfe3-dac502259ad0.png

在 2020年、2021年做了隱式增強(qiáng)的工作 combo embedding。把已有 word extractor 或者 GLUE 的表征動態(tài)融合,能搭載在很多業(yè)務(wù)任務(wù)上面達(dá)到 SOTA。

2021年,研發(fā)基于顯式的檢索增強(qiáng),對一條文本會通過搜索引擎得到增強(qiáng)的上下文,融合到 transformer結(jié)構(gòu)。這個工作發(fā)表在 ACL 2021 上了。

基于這個工作,我們參加了 SemEval 2022 多語言 NER評測拿了 10 項冠軍,以及 best system paper 。

89e88d30-a1d0-11ed-bfe3-dac502259ad0.png

檢索增強(qiáng):輸入句子本身之外,檢索得到額外 context 并 concat 到輸入,結(jié)合 KL 的 loss 來幫助學(xué)習(xí)。在很多開源數(shù)據(jù)集拿到 SOTA。

4. 自適應(yīng)多任務(wù)訓(xùn)練

8a0da2a0-a1d0-11ed-bfe3-dac502259ad0.png

BERT 本身效果是很好的,但實際生產(chǎn)很少有 GPU 集群,每個任務(wù)都要去做 inference性能代價很大。我們思考能否只做一次 inference,在 encoder 之后每個任務(wù)自己再做適配,就能得到比較好的效果。

8a407374-a1d0-11ed-bfe3-dac502259ad0.png

一個直觀的方法就是通過 meta-task 的框架納入 NLP query 分析任務(wù)。但傳統(tǒng)的 meta-task 是均勻采樣的分布。我們提出了 MOMETAS,一個自適應(yīng)基于元學(xué)習(xí)的方法,來自適應(yīng)不同任務(wù)的采樣。

在多個任務(wù)去學(xué)習(xí)的過程中,我們會階段性用 validation data 做測試看不同任務(wù)學(xué)習(xí)的效果。reward 反過來指導(dǎo)前面訓(xùn)練的采樣。(下方表格)在很多任務(wù)上結(jié)合這個機(jī)制,相比 UB(均勻分布)有不少提升。

8a4f7612-a1d0-11ed-bfe3-dac502259ad0.png

把上述機(jī)制應(yīng)用在搜索很多行業(yè)的場景里去,帶來的收益是僅通過一次 BERT 的編碼并存儲,在很多的下游任務(wù)直接復(fù)用,能大幅提升性能。

5. 搜索召回預(yù)訓(xùn)練語言模型

8a7470de-a1d0-11ed-bfe3-dac502259ad0.png

深度檢索,無外乎是雙塔或單塔,通用的訓(xùn)練范式是有監(jiān)督信號以及預(yù)訓(xùn)練模型,進(jìn)行 finetune 獲得 embedding,對 query 和 doc 進(jìn)行表征。

近期的優(yōu)化路線主要是數(shù)據(jù)增強(qiáng)或難樣本挖掘,另外是優(yōu)化預(yù)訓(xùn)練語言模型。原生 BERT 不是特別適合搜索的文本表示,所以有針對搜索文本表示的預(yù)訓(xùn)練語言模型。其他優(yōu)化是在于做 multi-view 文本表示,以及特別的 loss 設(shè)計。

8a9031f2-a1d0-11ed-bfe3-dac502259ad0.png

相比原生 BERT 的隨機(jī)采樣,我們結(jié)合搜索詞權(quán)重提升詞權(quán)重比較高的詞來提升采樣概率,學(xué)習(xí)到的表征更適合搜索召回。

除此之外,增加 sentence level 對比學(xué)習(xí)。結(jié)合這兩個機(jī)制,提出了 ROM 的預(yù)訓(xùn)練語言模型。

8ac618da-a1d0-11ed-bfe3-dac502259ad0.png

在 MS MARCO 做實驗,對比先前做法能夠達(dá)到最好的效果。在實際的場景搜索任務(wù)中,也能帶來較大的提升。同時該模型也參與了 MS 刷榜。

6. HLATR 重排模型

8aedb674-a1d0-11ed-bfe3-dac502259ad0.png

除了 ROM 這個召回階段之外,在精排、重排階段,提出了一套 list aware 的 Transformer reranking,即將精排很多分類器的結(jié)果通過 Transformer 有機(jī)的融合在一起,有比較大的提升。

8b167ab4-a1d0-11ed-bfe3-dac502259ad0.png

結(jié)合 ROM 和 HLATR 兩個方案,3 月份至今(7 月份)仍舊是 SOTA 結(jié)果。

03

行業(yè)搜索應(yīng)用

1. 地址分析產(chǎn)品

8b2567b8-a1d0-11ed-bfe3-dac502259ad0.png

達(dá)摩院研發(fā)的地址分析產(chǎn)品,背景是各行各業(yè)有很多通訊地址。中文的通訊地址有很多特點,比如口語化表達(dá)有很多缺省。

同時地址本身是人事實物,是客觀世界很多實體橋接的一個重要實體單位。所以基于此建立了一套地址知識圖譜,提供解析、補(bǔ)齊、搜索、地址分析。

8b4a4538-a1d0-11ed-bfe3-dac502259ad0.png

這是產(chǎn)品的技術(shù)框圖。從下到上包含了地址知識圖譜的構(gòu)建,以及地址預(yù)訓(xùn)練語言模型,包括基于搜索引擎的框架串接整個鏈路。上述提到的基準(zhǔn)能力,以 API 的方式提供出來包裝成行業(yè)方案。

8b6db4dc-a1d0-11ed-bfe3-dac502259ad0.png

這套技術(shù)里面比較重要的一個點是地理語義的預(yù)訓(xùn)練語言模型。一個地址在文本表示會是字符串,其實在空間里面它往往是表征成經(jīng)緯度,在地圖中還有對應(yīng)的圖片。所以這三種模態(tài)的信息是把它有機(jī)融合成一個多模態(tài)的地理語義的語言模型,以此來支持在定址里的任務(wù)。

8b8e98c8-a1d0-11ed-bfe3-dac502259ad0.png

上述提到需要做地址相關(guān)的很多基礎(chǔ)能力,比如分詞、糾錯、結(jié)構(gòu)化等分析。

8bc7b216-a1d0-11ed-bfe3-dac502259ad0.png

最核心的鏈路是將地理預(yù)訓(xùn)練語言模型、地址基礎(chǔ)任務(wù)、引發(fā)搜索引擎的方式將它們橋接起來。

比如說搜索浙一醫(yī)院,可能會對它去做結(jié)構(gòu)化、同義詞糾錯、term weighting 做向量化、Geohash 的預(yù)測。基于分析結(jié)果做召回。這個鏈路是標(biāo)準(zhǔn)的搜索鏈路,進(jìn)行文本召回、拼音召回、向量召回,還增加地理召回。召回之后是多階段的排序,包括多粒度的 feature 融合。

8bf3920a-a1d0-11ed-bfe3-dac502259ad0.png

地址搜索體系直觀的應(yīng)用,就是填地址后 suggestion 場景,或者高德地圖里面去做搜索,需要把它映射到空間一個點位上。

8c024aac-a1d0-11ed-bfe3-dac502259ad0.png

接下來介紹兩個比較行業(yè)化的應(yīng)用方案。第一個是新零售 Family ID,核心訴求是維護(hù)一套客戶的管理系統(tǒng),然而各個系統(tǒng)用戶信息沒有打通,無法實現(xiàn)有效的整合。

8c2d1804-a1d0-11ed-bfe3-dac502259ad0.png

比如品牌廠商賣了一個空調(diào),家人由于購買、安裝、維修而登記了各種地址、手機(jī)號,但對應(yīng)的實際上是同一個地址。建立的地址搜索歸一技術(shù),把不同表示的地址進(jìn)行歸一,生成指紋,將不同用戶 ID 聚合到 Family 概念中。

8c5330d4-a1d0-11ed-bfe3-dac502259ad0.png

8c602d98-a1d0-11ed-bfe3-dac502259ad0.png

通過家庭聚合的概念,可以做到更好的滲透分析、廣告投放觸達(dá)等新零售下的營銷活動。

8c80c0e4-a1d0-11ed-bfe3-dac502259ad0.png

另外一種應(yīng)用場景,是 119、129、應(yīng)急等智能接警應(yīng)用。因為涉及到老百姓的人身財產(chǎn)安全,所以分秒必爭。希望結(jié)合語音識別、文本語義理解技術(shù)把這個效率提升。

8cb666fe-a1d0-11ed-bfe3-dac502259ad0.png

(左邊例子)場景有很多特點,比如 ASR 轉(zhuǎn)寫的錯別字、不流暢、口語化等問題。目標(biāo)是希望基于自動語音轉(zhuǎn)寫分析推斷報警地點。

8cd5dd9a-a1d0-11ed-bfe3-dac502259ad0.png

8cf5f2f6-a1d0-11ed-bfe3-dac502259ad0.png

8d1815fc-a1d0-11ed-bfe3-dac502259ad0.png

我們提出了一整套系統(tǒng)方案,包括對話理解的口語順滑糾錯、意圖識別,以及結(jié)合一套搜索從召回粗排精排的機(jī)制來最終實現(xiàn)地址推薦。鏈路已經(jīng)比較成熟,在中國上百個城市的消防系統(tǒng)落地;消防從報警對話識別出具體的地點,結(jié)合推薦、匹配、地址圍欄判斷具體地點,對應(yīng)出警。

2. 教育拍照搜題

8d267f2a-a1d0-11ed-bfe3-dac502259ad0.png

接下來介紹教育行業(yè)的拍照收集業(yè)務(wù),在 To C、面向老師端也有不少需求。

8d460444-a1d0-11ed-bfe3-dac502259ad0.png

拍照搜題有幾個特點,本身有增量更新的題庫,用戶群體較大。另外,不同學(xué)科、年齡段對應(yīng)的領(lǐng)域知識性很強(qiáng)。同時是一個多模態(tài)的算法,從 OCR 到后續(xù)語義理解、搜索等一套鏈路。

8d68cd8a-a1d0-11ed-bfe3-dac502259ad0.png

近幾年針對拍照收集構(gòu)建了一整套從算法到系統(tǒng)的鏈路。

8d97803a-a1d0-11ed-bfe3-dac502259ad0.png

比如,在手機(jī)拍照以及 OCR 識別后,會進(jìn)行拼寫糾錯、學(xué)科預(yù)測、分詞、詞權(quán)重等一系列工作,幫助做到檢索。

8dc3c08c-a1d0-11ed-bfe3-dac502259ad0.png

由于 OCR 對英文識別沒有空格,訓(xùn)練了一套 K12 英文的預(yù)訓(xùn)練算法模型,進(jìn)行英文的切分。

8dfc420e-a1d0-11ed-bfe3-dac502259ad0.png

同時,學(xué)科、題目類型都是未知的,需要做一個提前預(yù)測。使用多模態(tài),結(jié)合圖片和文本進(jìn)行意圖理解。

8e52a2f2-a1d0-11ed-bfe3-dac502259ad0.png

拍照搜題跟普通的用戶搜索不太一樣,用戶搜索往往 query 是比較短,拍照搜題往往是一道完整的題目。題目里面很多詞是不重要的,需要做詞權(quán)重分析,丟棄不重要的詞或者排序予以降權(quán)。

8e75df88-a1d0-11ed-bfe3-dac502259ad0.png

在拍照搜題場景中優(yōu)化效果最明顯的是向量召回。性能上的要求不太能用 OR 的召回機(jī)制,需要用 AND 邏輯,對應(yīng)特點是召回比較少。

去提升 recall 的話,需要做 term weighting、糾錯等較冗余的模塊。(右圖)通過文本加向量的多路召回效果,超過純 or 邏輯,在 latency 降低 10 倍。

8e9de9c4-a1d0-11ed-bfe3-dac502259ad0.png

拍照搜索的鏈路包括了圖像向量召回、公式召回、個性化召回。

8ebb4f32-a1d0-11ed-bfe3-dac502259ad0.png

提供兩個例子。第一個是純文本的 OCR 結(jié)果,(左列)舊結(jié)果是基于 ES,簡單的 OR 召回,加上 BM25 的結(jié)果,(右列)經(jīng)過多路召回以及相關(guān)性召回的鏈路有較大提升。 第二個是拍照含有圖形,多路中是必須結(jié)合圖片召回。

3. 電力知識庫統(tǒng)一搜索

8ec85560-a1d0-11ed-bfe3-dac502259ad0.png

8eff121c-a1d0-11ed-bfe3-dac502259ad0.png


在企業(yè)搜索中有很多半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),提供統(tǒng)一搜索,幫助企業(yè)整合數(shù)據(jù)資源。不僅在電力,其他行業(yè)也有類似需求。這里的搜索不再是狹義的搜索,還包含了對文檔的預(yù)處理文檔的AI和知識圖譜的構(gòu)建,還包括后續(xù)橋接問答的能力。以上是在電力知識庫里,去做一套制度標(biāo)準(zhǔn)文本,從結(jié)構(gòu)化到檢索,到應(yīng)用端的示意圖。







審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • QPS
    QPS
    +關(guān)注

    關(guān)注

    0

    文章

    24

    瀏覽量

    9085
  • SCWS
    +關(guān)注

    關(guān)注

    0

    文章

    2

    瀏覽量

    5927
  • LMR
    LMR
    +關(guān)注

    關(guān)注

    0

    文章

    5

    瀏覽量

    6368
  • nlp
    nlp
    +關(guān)注

    關(guān)注

    1

    文章

    491

    瀏覽量

    23280

原文標(biāo)題:阿里達(dá)摩院:基于預(yù)訓(xùn)練語言模型的行業(yè)搜索的應(yīng)用和研究

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    訓(xùn)練到推理:大模型算力需求的新拐點已至

    在大模型產(chǎn)業(yè)發(fā)展的早期階段,行業(yè)焦點主要集中在大模型訓(xùn)練所需的算力投入。一個萬億參數(shù)大模型訓(xùn)練
    的頭像 發(fā)表于 02-05 16:07 ?799次閱讀
    從<b class='flag-5'>訓(xùn)練</b>到推理:大<b class='flag-5'>模型</b>算力需求的新拐點已至

    什么是大模型,智能體...?大模型100問,快速全面了解!

    ,LLM)是大模型中最主要的一類,專門用于處理和生成人類語言。大語言模型通過“閱讀”海量的文本數(shù)據(jù)(如書籍、網(wǎng)頁、文章等)進(jìn)行預(yù)
    的頭像 發(fā)表于 02-02 16:36 ?892次閱讀
    什么是大<b class='flag-5'>模型</b>,智能體...?大<b class='flag-5'>模型</b>100問,快速全面了解!

    摩爾線程新一代大語言模型對齊框架URPO入選AAAI 2026

    近日,摩爾線程在人工智能前沿領(lǐng)域取得重要突破,其提出的新一代大語言模型對齊框架——URPO統(tǒng)一獎勵與策略優(yōu)化,相關(guān)研究論文已被人工智能領(lǐng)域的國際頂級學(xué)術(shù)會議AAAI 2026收錄。這一成果標(biāo)志著摩爾線程在大
    的頭像 發(fā)表于 11-17 16:03 ?493次閱讀
    摩爾線程新一代大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>對齊框架URPO入選AAAI 2026

    在Ubuntu20.04系統(tǒng)中訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型的一些經(jīng)驗

    本帖欲分享在Ubuntu20.04系統(tǒng)中訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型的一些經(jīng)驗。我們采用jupyter notebook作為開發(fā)IDE,以TensorFlow2為訓(xùn)練框架,目標(biāo)是訓(xùn)練一個手寫數(shù)字識
    發(fā)表于 10-22 07:03

    基于大規(guī)模人類操作數(shù)據(jù)預(yù)訓(xùn)練的VLA模型H-RDT

    近年來,機(jī)器人操作領(lǐng)域的VLA模型普遍基于跨本體機(jī)器人數(shù)據(jù)集預(yù)訓(xùn)練,這類方法存在兩大局限:不同機(jī)器人本體和動作空間的差異導(dǎo)致統(tǒng)一訓(xùn)練困難;現(xiàn)有大規(guī)模機(jī)器人演示數(shù)據(jù)稀缺且質(zhì)量參差不齊。得
    的頭像 發(fā)表于 08-21 09:56 ?1101次閱讀
    基于大規(guī)模人類操作數(shù)據(jù)<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>的VLA<b class='flag-5'>模型</b>H-RDT

    Text2SQL準(zhǔn)確率暴漲22.6%!3大維度全拆

    摘要 技術(shù)背景:Text2SQL 是將自然語言查詢轉(zhuǎn)為 SQL 的任務(wù),經(jīng)歷了基于規(guī)則、神經(jīng)網(wǎng)絡(luò)、預(yù)訓(xùn)練語言模型、大
    的頭像 發(fā)表于 08-14 11:17 ?704次閱讀
    Text2SQL準(zhǔn)確率暴漲22.6%!3大維度全拆

    利用自壓縮實現(xiàn)大型語言模型高效縮減

    隨著語言模型規(guī)模日益龐大,設(shè)備端推理變得越來越緩慢且耗能巨大。一個直接且效果出人意料的解決方案是剪除那些對任務(wù)貢獻(xiàn)甚微的完整通道(channel)。我們早期的研究提出了一種訓(xùn)練階段的方
    的頭像 發(fā)表于 07-28 09:36 ?555次閱讀
    利用自壓縮實現(xiàn)大型<b class='flag-5'>語言</b><b class='flag-5'>模型</b>高效縮減

    龍芯中科與文心系列模型開展深度技術(shù)合作

    ”解決方案。 強(qiáng)強(qiáng)聯(lián)合!自主架構(gòu)賦能大模型訓(xùn)練 文心大模型 文心4.5系列模型均使用飛槳深度學(xué)習(xí)框架進(jìn)行高效訓(xùn)練、推理和部署。在大
    的頭像 發(fā)表于 07-02 16:53 ?1350次閱讀

    兆芯率先展開文心系列模型深度技術(shù)合作

    對文心系列大模型的快速適配、無縫銜接。 ? 文心大模型 ? 文心4.5系列開源模型共10款,均使用飛漿深度學(xué)習(xí)框架進(jìn)行高效訓(xùn)練、推理和部署。在大語言
    的頭像 發(fā)表于 07-01 10:49 ?971次閱讀

    make sence成的XML文件能上傳到自助訓(xùn)練模型上嗎?

    make sence成的XML文件能上傳到自助訓(xùn)練模型上嗎
    發(fā)表于 06-23 07:38

    中科曙光助力中科院高能物理研究所打造溪悟大模型

    近年來,以大規(guī)模預(yù)訓(xùn)練模型為代表的人工智能技術(shù)迅猛發(fā)展,為科研創(chuàng)新提供了全新范式。中科院高能物理研究所依托正負(fù)電子對撞機(jī)等大科學(xué)裝置,積累了海量高價值實驗數(shù)據(jù),如何高效利用數(shù)據(jù)、加速成
    的頭像 發(fā)表于 05-06 15:19 ?875次閱讀

    模型時代的深度學(xué)習(xí)框架

    量是約為 25.63M,在ImageNet1K數(shù)據(jù)集上,使用單張消費類顯卡 RTX-4090只需大約35~40個小時 ,即可完成ResNet50模型預(yù)訓(xùn)練。在 大模型時代 ,由于大
    的頭像 發(fā)表于 04-25 11:43 ?841次閱讀
    大<b class='flag-5'>模型</b>時代的深度學(xué)習(xí)框架

    請問如何在imx8mplus上部署和運行YOLOv5訓(xùn)練模型

    我正在從事 imx8mplus yocto 項目。我已經(jīng)在自定義數(shù)據(jù)集上的 YOLOv5 上訓(xùn)練了對象檢測模型。它在 ubuntu 電腦上運行良好。現(xiàn)在我想在我的 imx8mplus 板上運行該模型
    發(fā)表于 03-25 07:23

    用PaddleNLP為GPT-2模型制作FineWeb二進(jìn)制預(yù)訓(xùn)練數(shù)據(jù)集

    作者:算力魔方創(chuàng)始人/英特爾創(chuàng)新大使劉力 《用PaddleNLP在4060單卡上實踐大模型預(yù)訓(xùn)練技術(shù)》發(fā)布后收到讀者熱烈反響,很多讀者要求進(jìn)一步講解更多的技術(shù)細(xì)節(jié)。本文主要針對大語言
    的頭像 發(fā)表于 03-21 18:24 ?4307次閱讀
    用PaddleNLP為GPT-2<b class='flag-5'>模型</b>制作FineWeb二進(jìn)制<b class='flag-5'>預(yù)</b><b class='flag-5'>訓(xùn)練</b>數(shù)據(jù)集

    訓(xùn)練好的ai模型導(dǎo)入cubemx不成功怎么處理?

    訓(xùn)練好的ai模型導(dǎo)入cubemx不成功咋辦,試了好幾個模型壓縮了也不行,ram占用過大,有無解決方案?
    發(fā)表于 03-11 07:18