論文標(biāo)題:
Decomposed Meta-Learning for Few-Shot Named Entity Recognition
論文鏈接:
https://arxiv.org/abs/2204.05751
代碼鏈接:
https://github.com/microsoft/vert-papers/tree/master/papers/DecomposedMetaNER
Abstract
少樣本 NER 的系統(tǒng)目的在于通過(guò)很少的標(biāo)注樣本來(lái)識(shí)別新的命名實(shí)體類(lèi)。本文提出了一個(gè)分解的元學(xué)習(xí)方法來(lái)解決小樣本 NER,通過(guò)將原問(wèn)題分解為小樣本跨度預(yù)測(cè)和小樣本實(shí)體分類(lèi)兩個(gè)過(guò)程。具體來(lái)說(shuō),我們將跨度預(yù)測(cè)當(dāng)作序列標(biāo)注問(wèn)題并且使用 MAML 算法訓(xùn)練跨度預(yù)測(cè)器來(lái)找到更好的模型初始化參數(shù)并且使模型能夠快速適配新實(shí)體。對(duì)于實(shí)體分類(lèi),我們提出 MAML-ProtoNet,一個(gè) MAML 增強(qiáng)的原型網(wǎng)絡(luò),能夠找到好的嵌入空間來(lái)更好的分辨不同實(shí)體類(lèi)的跨度。在多個(gè) benchmark 上的實(shí)驗(yàn)表明,我們的方法取得了比之前的方法更好的效果。
Intro
NER 目的在于定位和識(shí)別文本跨度中的預(yù)定義實(shí)體類(lèi)諸如 location、organization。在標(biāo)準(zhǔn)的監(jiān)督學(xué)習(xí) NER 中深度學(xué)習(xí)的架構(gòu)取得了很大的成功。然而,在實(shí)際應(yīng)用中,NER 的模型通常需要迅速適配一些新的未見(jiàn)過(guò)的實(shí)體類(lèi),且通常標(biāo)注大量的新樣本開(kāi)銷(xiāo)很大。因此,小樣本 NER 近年來(lái)得到了廣泛的研究。 之前關(guān)于小樣本 NER 的研究都是基于 token 級(jí)的度量學(xué)習(xí),將每個(gè)查詢(xún) token 和原型進(jìn)行度量上的比較,然后為每個(gè) token 分配標(biāo)簽。最近的很多研究都轉(zhuǎn)為跨度級(jí)的度量學(xué)習(xí),能夠繞過(guò) token 對(duì)標(biāo)簽的以來(lái)并且明確利用短語(yǔ)的表征。 然而這些方法在遇到較大領(lǐng)域偏差時(shí)可能沒(méi)那么有效,因?yàn)樗麄冎苯邮褂脤W(xué)習(xí)的度量而沒(méi)有對(duì)目標(biāo)域進(jìn)行適配。換句話說(shuō),這些方法沒(méi)有完全挖掘支持集數(shù)據(jù)的信息?,F(xiàn)在的方法還存在以下限制: 1. 解碼過(guò)程需要對(duì)重疊的跨度仔細(xì)處理; 2. 非實(shí)體類(lèi)型“O”通常時(shí)噪聲,因?yàn)檫@些詞之間幾乎沒(méi)有共同點(diǎn)。 此外,當(dāng)針對(duì)一個(gè)不同的領(lǐng)域時(shí),唯一可用的信息僅僅是很少的支持樣本,不幸的是,這些樣本在之前的方法中僅僅被應(yīng)用在推理階段計(jì)算相似度的過(guò)程中。 為了解決這些局限性,本文提出了一種分解的元學(xué)習(xí)方法,將原問(wèn)題分解為跨度預(yù)測(cè)和實(shí)體分類(lèi)兩個(gè)過(guò)程。具體來(lái)講: 1. 對(duì)于小樣本跨度預(yù)測(cè)來(lái)說(shuō),我們將其看作序列標(biāo)注問(wèn)題來(lái)解決重疊跨度的問(wèn)題。這個(gè)過(guò)程目的在于定位命名實(shí)體并且是與類(lèi)別無(wú)關(guān)的。然后我們僅僅對(duì)被標(biāo)注出的跨度進(jìn)行實(shí)體分類(lèi),這樣也可以消除“O”類(lèi)噪聲的影響。當(dāng)訓(xùn)練跨度檢測(cè)模塊時(shí),我們采用的 MAML 算法來(lái)找到好的模型初始化參數(shù),在使用少量目標(biāo)域支持集樣本更新后,能夠快速適配新實(shí)體類(lèi)。在模型更新時(shí),特定領(lǐng)域的跨度邊界信息能夠被模型有效的利用,使模型能夠更好的遷移到目標(biāo)領(lǐng)域; 2. 對(duì)于實(shí)體分類(lèi),采用了 MAML-ProtoNet 來(lái)縮小源域和目標(biāo)域的差距。 我們?cè)谝恍?benchmark 上進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)表明我們提出的框架比之前的 SOTA 模型表現(xiàn)更好,我們還進(jìn)行了定性和定量的分析,不同的元學(xué)習(xí)策略對(duì)于模型表現(xiàn)的影響。
Method
本文遵循傳統(tǒng)的 N-way-K-shot 的小樣本設(shè)置,示例如下表(2-way-1-shot):

下圖為模型的總體結(jié)構(gòu):

2.1 Entity Span Detection
跨度檢測(cè)階段不需要分類(lèi)具體的實(shí)體類(lèi),因此模型的參數(shù)可以在不同的領(lǐng)域之間共享?;诖耍覀儾捎?MAML 來(lái)促進(jìn)領(lǐng)域不變的內(nèi)部表征學(xué)習(xí)而不是針對(duì)特定領(lǐng)域特征的學(xué)習(xí)。這種方式訓(xùn)練的元學(xué)習(xí)模型對(duì)于目標(biāo)域的樣本更加敏感,因此只需要少量樣本進(jìn)行微調(diào)就能取得很好的效果而不會(huì)過(guò)擬合。 2.1.1 Basic Detector 基檢測(cè)器是一個(gè)標(biāo)準(zhǔn)的序列標(biāo)注任務(wù),采用 BIOES 的標(biāo)注策略,對(duì)于一個(gè)句子序列 {xi},使用一個(gè)編碼器得到其上下文表征 h,然后通過(guò) softmax 生成概率分布。

▲ fθ:編碼器

▲概率分布 模型的訓(xùn)練誤差在交叉熵?fù)p失基礎(chǔ)上添加了最大值項(xiàng)來(lái)緩解對(duì)于損失較高的 token 學(xué)習(xí)不足的問(wèn)題:

▲交叉熵?fù)p失 推理階段采用了維特比解碼,這里我們沒(méi)有訓(xùn)練轉(zhuǎn)移矩陣,簡(jiǎn)單的添加了一些限制保證預(yù)測(cè)的標(biāo)簽不違反 BIOES 的標(biāo)注規(guī)則。 2.1.2 Meta-Learning Procedure 元訓(xùn)練過(guò)程具體來(lái)說(shuō),首先隨機(jī)采樣一組訓(xùn)練 episode:

使用支持集進(jìn)行 inner-update 過(guò)程:

其中 Un 代表 n 步梯度更新,損失采用上文所述的損失函數(shù)。然后使用更新后的參數(shù) Θ' 在查詢(xún)集上進(jìn)行評(píng)估,將一個(gè) batch 內(nèi)的所有 episode 的損失求和,訓(xùn)練目標(biāo)是最小化該損失:

用上述損失來(lái)更新模型的原參數(shù) Θ,這里使用一階導(dǎo)數(shù)來(lái)近似計(jì)算:

MAML 數(shù)學(xué)推導(dǎo)參考:MAML
https://zhuanlan.zhihu.com/p/181709693
在推理階段先使用基模型中提到的交叉熵?fù)p失在支持集上微調(diào),然后在查詢(xún)集上使用微調(diào)后的模型進(jìn)行測(cè)試。
2.2 Entity Typing
實(shí)體分類(lèi)模塊采用原型網(wǎng)絡(luò)作為基礎(chǔ)模型,使用 MAML 算法對(duì)模型進(jìn)行增強(qiáng),使模型得到一個(gè)更具代表性的嵌入空間來(lái)更好的區(qū)分不同的實(shí)體類(lèi)。 2.2.1 Basic Model 這里使用了另一個(gè)編碼器來(lái)對(duì)輸入 token 進(jìn)行編碼,然后使用跨度檢測(cè)模塊輸出的跨度 x[i,j],將跨度中所有的 token 表征取平均來(lái)代表此跨度的表征:


遵循原型網(wǎng)絡(luò)的設(shè)置,使用支持集中屬于同一實(shí)體類(lèi)的跨度的求和平均作為類(lèi)原型的表示:

模型的訓(xùn)練過(guò)程先采用支持集計(jì)算每個(gè)類(lèi)原型的表示,然后對(duì)于查詢(xún)集中的每個(gè)跨度,通過(guò)計(jì)算其到某一類(lèi)原型的距離來(lái)計(jì)算其屬于該類(lèi)的概率:

模型的訓(xùn)練目標(biāo)是一個(gè)交叉熵?fù)p失:

推理階段就是簡(jiǎn)單的計(jì)算與哪一類(lèi)原型距離最近即可:

2.2.2 MAML Enhanced ProtoNet 這一過(guò)程的設(shè)置與跨度檢測(cè)中應(yīng)用的 MAML 一致,同樣是使用 MAML 算法來(lái)找到一個(gè)更好的初始化參數(shù),詳細(xì)過(guò)程參考上文:


推理階段也與上文一致,這里不詳細(xì)說(shuō)明了。
實(shí)驗(yàn)
3.1 數(shù)據(jù)集和設(shè)置
本文采用 Few-NERD,一個(gè)專(zhuān)門(mén)為 few-shot NER 推出的數(shù)據(jù)集以及 cross-dataset,四種不同領(lǐng)域的數(shù)據(jù)集的整合。對(duì)于 Few-NERD 使用 P、R、micro-F1 作為評(píng)價(jià)指標(biāo),cross-dataset 采用 P、R、F1 作為評(píng)價(jià)指標(biāo)。文中兩個(gè)編碼器采用兩個(gè)獨(dú)立的 BERT,優(yōu)化器使用 AdamW。
3.2 主實(shí)驗(yàn)

▲ Few-NERD

▲Cross-Dataset
3.3 消融實(shí)驗(yàn)

3.4 分析
對(duì)于跨度檢測(cè),作者用一個(gè)全監(jiān)督的跨度檢測(cè)器進(jìn)行實(shí)驗(yàn):

作者分析,未精調(diào)的模型預(yù)測(cè)的 Broadway 對(duì)于新實(shí)體類(lèi)來(lái)說(shuō)是一個(gè)錯(cuò)誤的預(yù)測(cè)(Broadway 出現(xiàn)在了訓(xùn)練數(shù)據(jù)中),然后通過(guò)對(duì)該模型采用新實(shí)體類(lèi)樣本進(jìn)行精調(diào),可以看出模型能夠預(yù)測(cè)出正確的跨度,但是 Broadway 這一跨度仍然被預(yù)測(cè)了。這表明傳統(tǒng)的精調(diào)雖然可以使模型獲取一定的新類(lèi)信息,但是其還是存在很大偏差。 然后作者對(duì)比了 MAML 增強(qiáng)的模型和未使用 MAML 模型的 F1 指標(biāo):

MAML 算法可以更好的利用支持集的數(shù)據(jù),找到一個(gè)更好的初始化參數(shù),使模型能夠快速適配到新域中。 然后作者分析了 MAML 如何提升原型網(wǎng)絡(luò),首先是指標(biāo)上 MAML 增強(qiáng)的原型網(wǎng)絡(luò)會(huì)有一定的提升:

接著作者進(jìn)行了可視化分析:

從上圖可以看出,MAML 增強(qiáng)的原型網(wǎng)絡(luò)能夠更好的區(qū)分各個(gè)類(lèi)原型。
Conclusion
本文提出了一個(gè)兩階段的模型,跨度檢測(cè)和實(shí)體分類(lèi)來(lái)進(jìn)行小樣本 NER 任務(wù),兩個(gè)階段的模型均使用元學(xué)習(xí) MAML 的方法來(lái)進(jìn)行增強(qiáng),獲取了更好的初始化參數(shù),能夠使模型通過(guò)少量樣本快速適配到新域中。本文也算是一篇啟發(fā)性的文章,在指標(biāo)上可以看出,元學(xué)習(xí)的方法對(duì)小樣本 NER 任務(wù)有著巨大的提升。
審核編輯 :李倩
-
模型
+關(guān)注
關(guān)注
1文章
3752瀏覽量
52112 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5599瀏覽量
124400
原文標(biāo)題:ACL2022 | 分解的元學(xué)習(xí)小樣本命名實(shí)體識(shí)別
文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
影響工業(yè)鏡頭視場(chǎng)角的因素
華秋輸出的GERBER別的軟件無(wú)法正確識(shí)別
線掃鏡頭的選型指南
遠(yuǎn)心鏡頭核心技術(shù)解析與應(yīng)用
雷科電力-REKE2180帶電電纜識(shí)別儀
基于AIK-RA8D1的人臉識(shí)別的應(yīng)用演示
電壓放大器在全導(dǎo)波場(chǎng)圖像目標(biāo)識(shí)別的損傷檢測(cè)實(shí)驗(yàn)的應(yīng)用
什么是變倍鏡頭
電能質(zhì)量在線監(jiān)測(cè)裝置是如何實(shí)現(xiàn)對(duì)電壓中斷事件的識(shí)別的?
Windows下解決OpenOCD找不到設(shè)備及串口無(wú)法識(shí)別的方法
基于LockAI視覺(jué)識(shí)別模塊:C++人臉識(shí)別
基于LockAI視覺(jué)識(shí)別模塊:手寫(xiě)數(shù)字識(shí)別
Arm產(chǎn)品命名體系的演變
順絡(luò)貼片電容規(guī)格都是怎么命名的
用于少數(shù)鏡頭命名實(shí)體識(shí)別的分解元學(xué)習(xí)
評(píng)論