從大規(guī)模數(shù)據(jù)中檢索通常比較耗時(shí),僅從訓(xùn)練數(shù)據(jù)中也能有巨大收益。具體做法是檢索與輸入文本最相似的訓(xùn)練樣例,拼接后作為輸入喂入模型,然后生成結(jié)果。結(jié)果在摘要、翻譯、語言模型和QA上都取得了不錯(cuò)的效果。
論文:Training Data is More Valuable than You Think: A Simple and Effective Method by Retrieving from Training Data[1]
Code:microsoft/REINA[2]
一句話概述:在檢索任務(wù)中訓(xùn)練數(shù)據(jù)在推理時(shí)也大有用處。
文章上來就給我們呈現(xiàn)了整體的結(jié)構(gòu):

有點(diǎn)類似 Prompt 學(xué)習(xí),但本文主要關(guān)注有監(jiān)督學(xué)習(xí)的設(shè)置。結(jié)果不僅效果很好,而且很容易擴(kuò)展(只要增加有標(biāo)注訓(xùn)練數(shù)據(jù)就行),計(jì)算代價(jià)也小。我覺得本文相對(duì)最有意思的一個(gè)發(fā)現(xiàn)是文中所寫:即便有成噸的參數(shù),一個(gè)模型也不能記住訓(xùn)練數(shù)據(jù)中的所有模式。所以,重新捕獲相關(guān)的訓(xùn)練數(shù)據(jù)作為一個(gè)手拉手提示器,就可以提供明確的信息來提高模型(推理)的性能。
整體架構(gòu)如下圖所示(REINA):

一張圖其實(shí)已經(jīng)很清楚地表達(dá)出意思了:對(duì)不同的任務(wù)構(gòu)造不同的輸入,但都會(huì)將訓(xùn)練數(shù)據(jù)拼接上后再喂入模型,得到最后的答案,這里的答案是通過語言模型生成的。檢索算法使用 BM25。
形式化模型為:
其中,M 表示生成模型,x 是輸入,大括號(hào)里的就是 top K 個(gè)檢索到的最相似的訓(xùn)練數(shù)據(jù)。
對(duì) QA 任務(wù),將輸入文本和每個(gè)選項(xiàng)拼接后作為 query,然后獲取相關(guān)的訓(xùn)練數(shù)據(jù)。如果需要加入外部知識(shí),則調(diào)整為:
其中,C 表示選項(xiàng)。拼接實(shí)體字典定義和關(guān)系 R,用來為一個(gè) Q 構(gòu)造知識(shí) K。
Ex 表示與 Q 相關(guān)的實(shí)體,Ec 表示與 A 相關(guān)的實(shí)體。本文的相關(guān)指:在句子中出現(xiàn)。
用人話簡單描述一下就是:給定 Q,在訓(xùn)練數(shù)據(jù)中找到相似的 QA 對(duì),對(duì)每個(gè) QA 對(duì),找到其中所涉及的實(shí)體和關(guān)系,然后將實(shí)體的定義和關(guān)系也拼接進(jìn)去,最后組成一長串文本作為模型輸入。
相似檢索使用 Lucene Index,模型訓(xùn)練使用 Transformers。實(shí)驗(yàn)結(jié)果(以文本摘要為例)如下:

結(jié)果顯示,REINA 可以顯著提升(幾乎所有數(shù)據(jù)集)使用不同預(yù)訓(xùn)練模型初始化的基線。在 case 分析時(shí),作者發(fā)現(xiàn) REINA 的數(shù)據(jù)和真實(shí)標(biāo)簽之間有很強(qiáng)的相關(guān)性。
總之,本文的思路非常簡單,但效果卻不錯(cuò),在工業(yè)上可以一試,尤其是生成式文本摘要和 QA 任務(wù)。不過,感覺這好像也算是一種 prompt 吧,使用訓(xùn)練數(shù)據(jù)來「拉近」輸入和真實(shí)標(biāo)簽之間的距離。
本文參考資料
[1]
Training Data is More Valuable than You Think: A Simple and Effective Method by Retrieving from Training Data: https://arxiv.org/abs/2203.08773
[2]
microsoft/REINA: https://github.com/microsoft/REINA
審核編輯 :李倩
-
數(shù)據(jù)
+關(guān)注
關(guān)注
8文章
7335瀏覽量
94778 -
檢索
+關(guān)注
關(guān)注
0文章
27瀏覽量
13415
原文標(biāo)題:ACL2022 | 微軟:永遠(yuǎn)不要低估你的訓(xùn)練數(shù)據(jù)!
文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
從訓(xùn)練到推理:大模型算力需求的新拐點(diǎn)已至
AI推理芯片需求爆發(fā),OpenAI欲尋求新合作伙伴
數(shù)據(jù)傳輸拖慢訓(xùn)練?三維一體調(diào)度讓AI任務(wù)提速40%
在Ubuntu20.04系統(tǒng)中訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型的一些經(jīng)驗(yàn)
一文看懂AI訓(xùn)練、推理與訓(xùn)推一體的底層關(guān)系
【「DeepSeek 核心技術(shù)揭秘」閱讀體驗(yàn)】書籍介紹+第一章讀后心得
信而泰×DeepSeek:AI推理引擎驅(qū)動(dòng)網(wǎng)絡(luò)智能診斷邁向 “自愈”時(shí)代
Aux-Think打破視覺語言導(dǎo)航任務(wù)的常規(guī)推理范式
CPU密集型任務(wù)開發(fā)指導(dǎo)
使用MicroPython部署中的ocrrec_image.py推理得到的輸出結(jié)果很差,如何解決呢?
華為AI WAN在智算邊緣推理網(wǎng)絡(luò)中的關(guān)鍵優(yōu)勢(shì)
陣列云從訓(xùn)練到推理
數(shù)據(jù)標(biāo)注服務(wù)—奠定大模型訓(xùn)練的數(shù)據(jù)基石
標(biāo)貝數(shù)據(jù)標(biāo)注服務(wù):奠定大模型訓(xùn)練的數(shù)據(jù)基石
在檢索任務(wù)中訓(xùn)練數(shù)據(jù)在推理時(shí)也大有用處
評(píng)論