久久青草国产免费观,天天干在线色视频,91国自产精品一区二区三区

今天給大家?guī)?lái)一篇IJCAI2022浙大和阿里聯(lián)合出品的采用對(duì)比學(xué)習(xí)的字典描述知識(shí)增強(qiáng)的預(yù)訓(xùn)練語(yǔ)言模型-DictBERT，全名為《Dictionary Description Knowledge Enhanced Language Model Pre-training via Contrastive Learning》

又鴿了許久，其實(shí)最近看到一些有趣的論文，大多以知乎想法的形式發(fā)了，感興趣可以去看看，其實(shí)碼字還是很不易的~

介紹

預(yù)訓(xùn)練語(yǔ)言模型（PLMs）目前在各種自然語(yǔ)言處理任務(wù)中均取得了優(yōu)異的效果，并且部分研究學(xué)者將外部知識(shí)（知識(shí)圖譜）融入預(yù)訓(xùn)練語(yǔ)言模型中后獲取了更加優(yōu)異的效果，但具體場(chǎng)景下的知識(shí)圖譜信息往往是不容易獲取的，因此，我們提出一種新方法DictBert，將字典描述信息作為外部知識(shí)增強(qiáng)預(yù)訓(xùn)練語(yǔ)言模型，相較于知識(shí)圖譜的信息增強(qiáng)，字典描述更容易獲取。

在預(yù)訓(xùn)練階段，提出來(lái)兩種新的預(yù)訓(xùn)練任務(wù)來(lái)訓(xùn)練DictBert模型，通過(guò)掩碼語(yǔ)言模型任務(wù)和對(duì)比學(xué)習(xí)任務(wù)將字典知識(shí)注入到DictBert模型中，其中，掩碼語(yǔ)言模型任務(wù)為字典中詞條預(yù)測(cè)任務(wù)（Dictionary Entry Prediction）；對(duì)比學(xué)習(xí)任務(wù)為字典中詞條描述判斷任務(wù)（Entry Description Discrimination）。

在微調(diào)階段，我們將DictBert模型作為可插拔的外部知識(shí)庫(kù)，對(duì)輸入序列中所包含字典中的詞條信息作為外部隱含知識(shí)內(nèi)容，注入到輸入中，并通過(guò)注意機(jī)制來(lái)增強(qiáng)輸入的表示，最終提升模型表征效果。

模型

字典描述知識(shí)

字典是一種常見(jiàn)的資源，它列出了某一種語(yǔ)言所包含的字/詞，并通過(guò)解釋性描述對(duì)其進(jìn)行含義的闡述，常常也會(huì)指定它們的發(fā)音、來(lái)源、用法、同義詞、反義詞等，如下表所示，我們主要利用四種信息進(jìn)行模型的預(yù)訓(xùn)練，包括：詞條、描述、同義詞和反義詞。在詞條預(yù)測(cè)任務(wù)中，利用字典的詞條及其描述進(jìn)行知識(shí)學(xué)習(xí)；在詞條描述判斷任務(wù)中，利用同義詞和反義詞來(lái)進(jìn)行對(duì)比學(xué)習(xí)，從而學(xué)習(xí)到知識(shí)表征。

預(yù)訓(xùn)練任務(wù)

預(yù)訓(xùn)練任務(wù)主要包含字典中詞條預(yù)測(cè)任務(wù)和字典中詞條描述判斷任務(wù)，如下圖所示。詞條預(yù)測(cè)任務(wù)，實(shí)際上是一個(gè)掩碼語(yǔ)言模型任務(wù)，給定詞條和它對(duì)于的描述，然后將詞條的內(nèi)容使用特殊字符[MASK]進(jìn)行替換，最終將其[MASK]內(nèi)容進(jìn)行還原。注意，當(dāng)詞條包含多個(gè)token時(shí)，需要將其全部掩掉。

詞條描述判斷任務(wù)，實(shí)際上是一個(gè)對(duì)比學(xué)習(xí)任務(wù)，而對(duì)比學(xué)習(xí)就是以拉近相似數(shù)據(jù)，推開(kāi)不相似數(shù)據(jù)為目標(biāo)，有效地學(xué)習(xí)數(shù)據(jù)表征。如下表所示，對(duì)于詞條“forest”，正例樣本為同義詞“woodland”，負(fù)例樣本為反義詞“desert”。對(duì)比學(xué)習(xí)中，分別對(duì)原始詞條+描述、正例樣本+描述和負(fù)例樣本+描述進(jìn)行模型編碼，獲取、和，獲取對(duì)比學(xué)習(xí)損失，

最終，模型預(yù)訓(xùn)練的損失為

其中，為0.4，為0.6。

微調(diào)任務(wù)

在微調(diào)過(guò)程中，將DictBert模型作為可插拔的外部知識(shí)庫(kù)，如下圖所示，首先識(shí)別出輸入序列中所包含字典中的詞條信息，然后通過(guò)DictBert模型獲取外部信息表征，再通過(guò)三種不同的方式進(jìn)行外部知識(shí)的注入，最終將其綜合表征進(jìn)行下游具體的任務(wù)。并且由于可以事先離線對(duì)一個(gè)字典中所有詞條進(jìn)行外部信息表征獲取，因此，在真實(shí)落地場(chǎng)景時(shí)并不會(huì)增加太多的額外耗時(shí)。知識(shí)注入的方式包含三種：

Pooled Output Concatenation，即將所有詞條的信息表征進(jìn)行求和，然后與原始模型的進(jìn)行拼接，最終進(jìn)行下游任務(wù)；

Extra-hop Attention，即將所有詞條的信息表征對(duì)進(jìn)行attition操作，獲取分布注意力后加權(quán)求和的外部信息表征，然后與原始模型的進(jìn)行拼接，最終進(jìn)行下游任務(wù)；

Layer-wise Extra-hop Attention，即將所有詞條的信息表征對(duì)每一層的進(jìn)行attition操作，獲取每一層分布注意力后加權(quán)求和的外部信息表征，然后對(duì)其所有層進(jìn)行mean-pooling操作，然后與原始模型的進(jìn)行拼接，最終進(jìn)行下游任務(wù)；

結(jié)果

如下表所示，采用劍橋字典進(jìn)行預(yù)訓(xùn)練后的DictBert模型，在CoNLL2003、TACRED、CommonsenseQA、OpenBookQA和GLUE上均有提高。其中，Concat表示Pooled Output Concatenation方式，EHA表示Extra-hop Attention，LWA表示Layer-wise Extra-hop Attention，K表示僅采用詞條進(jìn)行信息表征，K+V表示采用詞條和描述進(jìn)行信息表征。

總結(jié)

挺有意思的一篇論文吧，相較于知識(shí)圖譜來(lái)說(shuō)，字典確實(shí)較容易獲取，并在不同領(lǐng)域中，也比較好通過(guò)爬蟲(chóng)的形式進(jìn)行詞條和描述的獲取；并且由于字典的表征可以進(jìn)行離線生成，所以對(duì)線上模型的耗時(shí)并不明顯，主要在attention上。

審核編輯：彭靜

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

編碼

編碼

+關(guān)注

關(guān)注
6

文章
1040

瀏覽量
57090
字典

字典

+關(guān)注

關(guān)注
0

文章
13

瀏覽量
7886
語(yǔ)言模型

語(yǔ)言模型

+關(guān)注

關(guān)注
0

文章
572

瀏覽量
11336

原文標(biāo)題：IJCAI2022 | DictBert：采用對(duì)比學(xué)習(xí)的字典描述知識(shí)增強(qiáng)的預(yù)訓(xùn)練語(yǔ)言模型

文章出處：【微信號(hào)：zenRRan，微信公眾號(hào)：深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

伦伦影院久久影视,天天操天天干天天射,ririsao久久精品一区 ,一本大道香蕉大久在红桃,999久久久免费精品国产色夜,色悠悠久久综合88,亚洲国产精品久久无套麻豆,亚洲香蕉毛片久久网站,一本一道久久综合狠狠老

搜索歷史

預(yù)訓(xùn)練語(yǔ)言模型的字典描述

評(píng)論