久久精品国产久精国产精东影业,天天日天天草天天干,久久伦理亚洲蜜月传媒

論文標(biāo)題：

Decomposed Meta-Learning for Few-Shot Named Entity Recognition

論文鏈接：

https://arxiv.org/abs/2204.05751

代碼鏈接：

https://github.com/microsoft/vert-papers/tree/master/papers/DecomposedMetaNER

Abstract

少樣本 NER 的系統(tǒng)目的在于通過(guò)很少的標(biāo)注樣本來(lái)識(shí)別新的命名實(shí)體類(lèi)。本文提出了一個(gè)分解的元學(xué)習(xí)方法來(lái)解決小樣本 NER，通過(guò)將原問(wèn)題分解為小樣本跨度預(yù)測(cè)和小樣本實(shí)體分類(lèi)兩個(gè)過(guò)程。具體來(lái)說(shuō)，我們將跨度預(yù)測(cè)當(dāng)作序列標(biāo)注問(wèn)題并且使用 MAML 算法訓(xùn)練跨度預(yù)測(cè)器來(lái)找到更好的模型初始化參數(shù)并且使模型能夠快速適配新實(shí)體。對(duì)于實(shí)體分類(lèi)，我們提出 MAML-ProtoNet，一個(gè) MAML 增強(qiáng)的原型網(wǎng)絡(luò)，能夠找到好的嵌入空間來(lái)更好的分辨不同實(shí)體類(lèi)的跨度。在多個(gè) benchmark 上的實(shí)驗(yàn)表明，我們的方法取得了比之前的方法更好的效果。

Intro

NER 目的在于定位和識(shí)別文本跨度中的預(yù)定義實(shí)體類(lèi)諸如 location、organization。在標(biāo)準(zhǔn)的監(jiān)督學(xué)習(xí) NER 中深度學(xué)習(xí)的架構(gòu)取得了很大的成功。然而，在實(shí)際應(yīng)用中，NER 的模型通常需要迅速適配一些新的未見(jiàn)過(guò)的實(shí)體類(lèi)，且通常標(biāo)注大量的新樣本開(kāi)銷(xiāo)很大。因此，小樣本 NER 近年來(lái)得到了廣泛的研究。之前關(guān)于小樣本 NER 的研究都是基于 token 級(jí)的度量學(xué)習(xí)，將每個(gè)查詢(xún) token 和原型進(jìn)行度量上的比較，然后為每個(gè) token 分配標(biāo)簽。最近的很多研究都轉(zhuǎn)為跨度級(jí)的度量學(xué)習(xí)，能夠繞過(guò) token 對(duì)標(biāo)簽的以來(lái)并且明確利用短語(yǔ)的表征。然而這些方法在遇到較大領(lǐng)域偏差時(shí)可能沒(méi)那么有效，因?yàn)樗麄冎苯邮褂脤W(xué)習(xí)的度量而沒(méi)有對(duì)目標(biāo)域進(jìn)行適配。換句話說(shuō)，這些方法沒(méi)有完全挖掘支持集數(shù)據(jù)的信息?，F(xiàn)在的方法還存在以下限制： 1. 解碼過(guò)程需要對(duì)重疊的跨度仔細(xì)處理； 2. 非實(shí)體類(lèi)型“O”通常時(shí)噪聲，因?yàn)檫@些詞之間幾乎沒(méi)有共同點(diǎn)。此外，當(dāng)針對(duì)一個(gè)不同的領(lǐng)域時(shí)，唯一可用的信息僅僅是很少的支持樣本，不幸的是，這些樣本在之前的方法中僅僅被應(yīng)用在推理階段計(jì)算相似度的過(guò)程中。為了解決這些局限性，本文提出了一種分解的元學(xué)習(xí)方法，將原問(wèn)題分解為跨度預(yù)測(cè)和實(shí)體分類(lèi)兩個(gè)過(guò)程。具體來(lái)講： 1. 對(duì)于小樣本跨度預(yù)測(cè)來(lái)說(shuō)，我們將其看作序列標(biāo)注問(wèn)題來(lái)解決重疊跨度的問(wèn)題。這個(gè)過(guò)程目的在于定位命名實(shí)體并且是與類(lèi)別無(wú)關(guān)的。然后我們僅僅對(duì)被標(biāo)注出的跨度進(jìn)行實(shí)體分類(lèi)，這樣也可以消除“O”類(lèi)噪聲的影響。當(dāng)訓(xùn)練跨度檢測(cè)模塊時(shí)，我們采用的 MAML 算法來(lái)找到好的模型初始化參數(shù)，在使用少量目標(biāo)域支持集樣本更新后，能夠快速適配新實(shí)體類(lèi)。在模型更新時(shí)，特定領(lǐng)域的跨度邊界信息能夠被模型有效的利用，使模型能夠更好的遷移到目標(biāo)領(lǐng)域； 2. 對(duì)于實(shí)體分類(lèi)，采用了 MAML-ProtoNet 來(lái)縮小源域和目標(biāo)域的差距。我們?cè)谝恍?benchmark 上進(jìn)行了實(shí)驗(yàn)，實(shí)驗(yàn)表明我們提出的框架比之前的 SOTA 模型表現(xiàn)更好，我們還進(jìn)行了定性和定量的分析，不同的元學(xué)習(xí)策略對(duì)于模型表現(xiàn)的影響。

Method

本文遵循傳統(tǒng)的 N-way-K-shot 的小樣本設(shè)置，示例如下表（2-way-1-shot）：

下圖為模型的總體結(jié)構(gòu)：

2.1 Entity Span Detection

跨度檢測(cè)階段不需要分類(lèi)具體的實(shí)體類(lèi)，因此模型的參數(shù)可以在不同的領(lǐng)域之間共享?；诖耍覀儾捎?MAML 來(lái)促進(jìn)領(lǐng)域不變的內(nèi)部表征學(xué)習(xí)而不是針對(duì)特定領(lǐng)域特征的學(xué)習(xí)。這種方式訓(xùn)練的元學(xué)習(xí)模型對(duì)于目標(biāo)域的樣本更加敏感，因此只需要少量樣本進(jìn)行微調(diào)就能取得很好的效果而不會(huì)過(guò)擬合。 2.1.1 Basic Detector 基檢測(cè)器是一個(gè)標(biāo)準(zhǔn)的序列標(biāo)注任務(wù)，采用 BIOES 的標(biāo)注策略，對(duì)于一個(gè)句子序列 {xi}，使用一個(gè)編碼器得到其上下文表征 h，然后通過(guò) softmax 生成概率分布。

▲ fθ：編碼器

▲概率分布模型的訓(xùn)練誤差在交叉熵?fù)p失基礎(chǔ)上添加了最大值項(xiàng)來(lái)緩解對(duì)于損失較高的 token 學(xué)習(xí)不足的問(wèn)題：

▲交叉熵?fù)p失推理階段采用了維特比解碼，這里我們沒(méi)有訓(xùn)練轉(zhuǎn)移矩陣，簡(jiǎn)單的添加了一些限制保證預(yù)測(cè)的標(biāo)簽不違反 BIOES 的標(biāo)注規(guī)則。 2.1.2 Meta-Learning Procedure 元訓(xùn)練過(guò)程具體來(lái)說(shuō)，首先隨機(jī)采樣一組訓(xùn)練 episode：

使用支持集進(jìn)行 inner-update 過(guò)程：

其中 Un 代表 n 步梯度更新，損失采用上文所述的損失函數(shù)。然后使用更新后的參數(shù) Θ' 在查詢(xún)集上進(jìn)行評(píng)估，將一個(gè) batch 內(nèi)的所有 episode 的損失求和，訓(xùn)練目標(biāo)是最小化該損失：

用上述損失來(lái)更新模型的原參數(shù) Θ，這里使用一階導(dǎo)數(shù)來(lái)近似計(jì)算：

MAML 數(shù)學(xué)推導(dǎo)參考：MAML

https://zhuanlan.zhihu.com/p/181709693

在推理階段先使用基模型中提到的交叉熵?fù)p失在支持集上微調(diào)，然后在查詢(xún)集上使用微調(diào)后的模型進(jìn)行測(cè)試。

2.2 Entity Typing

實(shí)體分類(lèi)模塊采用原型網(wǎng)絡(luò)作為基礎(chǔ)模型，使用 MAML 算法對(duì)模型進(jìn)行增強(qiáng)，使模型得到一個(gè)更具代表性的嵌入空間來(lái)更好的區(qū)分不同的實(shí)體類(lèi)。 2.2.1 Basic Model 這里使用了另一個(gè)編碼器來(lái)對(duì)輸入 token 進(jìn)行編碼，然后使用跨度檢測(cè)模塊輸出的跨度 x[i,j]，將跨度中所有的 token 表征取平均來(lái)代表此跨度的表征：

遵循原型網(wǎng)絡(luò)的設(shè)置，使用支持集中屬于同一實(shí)體類(lèi)的跨度的求和平均作為類(lèi)原型的表示：

模型的訓(xùn)練過(guò)程先采用支持集計(jì)算每個(gè)類(lèi)原型的表示，然后對(duì)于查詢(xún)集中的每個(gè)跨度，通過(guò)計(jì)算其到某一類(lèi)原型的距離來(lái)計(jì)算其屬于該類(lèi)的概率：

模型的訓(xùn)練目標(biāo)是一個(gè)交叉熵?fù)p失：

推理階段就是簡(jiǎn)單的計(jì)算與哪一類(lèi)原型距離最近即可：

2.2.2 MAML Enhanced ProtoNet 這一過(guò)程的設(shè)置與跨度檢測(cè)中應(yīng)用的 MAML 一致，同樣是使用 MAML 算法來(lái)找到一個(gè)更好的初始化參數(shù)，詳細(xì)過(guò)程參考上文：

推理階段也與上文一致，這里不詳細(xì)說(shuō)明了。

實(shí)驗(yàn)

3.1 數(shù)據(jù)集和設(shè)置

本文采用 Few-NERD，一個(gè)專(zhuān)門(mén)為 few-shot NER 推出的數(shù)據(jù)集以及 cross-dataset，四種不同領(lǐng)域的數(shù)據(jù)集的整合。對(duì)于 Few-NERD 使用 P、R、micro-F1 作為評(píng)價(jià)指標(biāo)，cross-dataset 采用 P、R、F1 作為評(píng)價(jià)指標(biāo)。文中兩個(gè)編碼器采用兩個(gè)獨(dú)立的 BERT，優(yōu)化器使用 AdamW。

3.2 主實(shí)驗(yàn)

▲ Few-NERD

▲Cross-Dataset

3.3 消融實(shí)驗(yàn)

3.4 分析

對(duì)于跨度檢測(cè)，作者用一個(gè)全監(jiān)督的跨度檢測(cè)器進(jìn)行實(shí)驗(yàn)：

作者分析，未精調(diào)的模型預(yù)測(cè)的 Broadway 對(duì)于新實(shí)體類(lèi)來(lái)說(shuō)是一個(gè)錯(cuò)誤的預(yù)測(cè)（Broadway 出現(xiàn)在了訓(xùn)練數(shù)據(jù)中），然后通過(guò)對(duì)該模型采用新實(shí)體類(lèi)樣本進(jìn)行精調(diào)，可以看出模型能夠預(yù)測(cè)出正確的跨度，但是 Broadway 這一跨度仍然被預(yù)測(cè)了。這表明傳統(tǒng)的精調(diào)雖然可以使模型獲取一定的新類(lèi)信息，但是其還是存在很大偏差。然后作者對(duì)比了 MAML 增強(qiáng)的模型和未使用 MAML 模型的 F1 指標(biāo)：

MAML 算法可以更好的利用支持集的數(shù)據(jù)，找到一個(gè)更好的初始化參數(shù)，使模型能夠快速適配到新域中。然后作者分析了 MAML 如何提升原型網(wǎng)絡(luò)，首先是指標(biāo)上 MAML 增強(qiáng)的原型網(wǎng)絡(luò)會(huì)有一定的提升：

接著作者進(jìn)行了可視化分析：

從上圖可以看出，MAML 增強(qiáng)的原型網(wǎng)絡(luò)能夠更好的區(qū)分各個(gè)類(lèi)原型。

Conclusion

本文提出了一個(gè)兩階段的模型，跨度檢測(cè)和實(shí)體分類(lèi)來(lái)進(jìn)行小樣本 NER 任務(wù)，兩個(gè)階段的模型均使用元學(xué)習(xí) MAML 的方法來(lái)進(jìn)行增強(qiáng)，獲取了更好的初始化參數(shù)，能夠使模型通過(guò)少量樣本快速適配到新域中。本文也算是一篇啟發(fā)性的文章，在指標(biāo)上可以看出，元學(xué)習(xí)的方法對(duì)小樣本 NER 任務(wù)有著巨大的提升。

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴