国产欧美日韩在线观看一区二区,玖玖性爱,五月久久精品国产亚洲

從大規(guī)模數(shù)據(jù)中檢索通常比較耗時(shí)，僅從訓(xùn)練數(shù)據(jù)中也能有巨大收益。具體做法是檢索與輸入文本最相似的訓(xùn)練樣例，拼接后作為輸入喂入模型，然后生成結(jié)果。結(jié)果在摘要、翻譯、語言模型和QA上都取得了不錯(cuò)的效果。

論文：Training Data is More Valuable than You Think: A Simple and Effective Method by Retrieving from Training Data[1]

Code：microsoft/REINA[2]

一句話概述：在檢索任務(wù)中訓(xùn)練數(shù)據(jù)在推理時(shí)也大有用處。

文章上來就給我們呈現(xiàn)了整體的結(jié)構(gòu)：

有點(diǎn)類似 Prompt 學(xué)習(xí)，但本文主要關(guān)注有監(jiān)督學(xué)習(xí)的設(shè)置。結(jié)果不僅效果很好，而且很容易擴(kuò)展（只要增加有標(biāo)注訓(xùn)練數(shù)據(jù)就行），計(jì)算代價(jià)也小。我覺得本文相對(duì)最有意思的一個(gè)發(fā)現(xiàn)是文中所寫：即便有成噸的參數(shù)，一個(gè)模型也不能記住訓(xùn)練數(shù)據(jù)中的所有模式。所以，重新捕獲相關(guān)的訓(xùn)練數(shù)據(jù)作為一個(gè)手拉手提示器，就可以提供明確的信息來提高模型（推理）的性能。

整體架構(gòu)如下圖所示（REINA）：

一張圖其實(shí)已經(jīng)很清楚地表達(dá)出意思了：對(duì)不同的任務(wù)構(gòu)造不同的輸入，但都會(huì)將訓(xùn)練數(shù)據(jù)拼接上后再喂入模型，得到最后的答案，這里的答案是通過語言模型生成的。檢索算法使用 BM25。

形式化模型為：

其中，M 表示生成模型，x 是輸入，大括號(hào)里的就是 top K 個(gè)檢索到的最相似的訓(xùn)練數(shù)據(jù)。

對(duì) QA 任務(wù)，將輸入文本和每個(gè)選項(xiàng)拼接后作為 query，然后獲取相關(guān)的訓(xùn)練數(shù)據(jù)。如果需要加入外部知識(shí)，則調(diào)整為：

其中，C 表示選項(xiàng)。拼接實(shí)體字典定義和關(guān)系 R，用來為一個(gè) Q 構(gòu)造知識(shí) K。

Ex 表示與 Q 相關(guān)的實(shí)體，Ec 表示與 A 相關(guān)的實(shí)體。本文的相關(guān)指：在句子中出現(xiàn)。

用人話簡單描述一下就是：給定 Q，在訓(xùn)練數(shù)據(jù)中找到相似的 QA 對(duì)，對(duì)每個(gè) QA 對(duì)，找到其中所涉及的實(shí)體和關(guān)系，然后將實(shí)體的定義和關(guān)系也拼接進(jìn)去，最后組成一長串文本作為模型輸入。

相似檢索使用 Lucene Index，模型訓(xùn)練使用 Transformers。實(shí)驗(yàn)結(jié)果（以文本摘要為例）如下：

結(jié)果顯示，REINA 可以顯著提升（幾乎所有數(shù)據(jù)集）使用不同預(yù)訓(xùn)練模型初始化的基線。在 case 分析時(shí)，作者發(fā)現(xiàn) REINA 的數(shù)據(jù)和真實(shí)標(biāo)簽之間有很強(qiáng)的相關(guān)性。

總之，本文的思路非常簡單，但效果卻不錯(cuò)，在工業(yè)上可以一試，尤其是生成式文本摘要和 QA 任務(wù)。不過，感覺這好像也算是一種 prompt 吧，使用訓(xùn)練數(shù)據(jù)來「拉近」輸入和真實(shí)標(biāo)簽之間的距離。

本文參考資料

[1]

Training Data is More Valuable than You Think: A Simple and Effective Method by Retrieving from Training Data: https://arxiv.org/abs/2203.08773

[2]

microsoft/REINA: https://github.com/microsoft/REINA

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

數(shù)據(jù)

數(shù)據(jù)

+關(guān)注

關(guān)注
8

文章
7335

瀏覽量
94778
檢索

檢索

+關(guān)注

關(guān)注
0

文章
27

瀏覽量
13415

原文標(biāo)題：ACL2022 | 微軟：永遠(yuǎn)不要低估你的訓(xùn)練數(shù)據(jù)！

文章出處：【微信號(hào)：zenRRan，微信公眾號(hào)：深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

搜索歷史

在檢索任務(wù)中訓(xùn)練數(shù)據(jù)在推理時(shí)也大有用處

評(píng)論