内射极品少妇一区二区av,91kk国产,91亚洲精品一区二区在线观看

摘要

在自然語言處理和知識圖譜領(lǐng)域的信息提取中，三元組抽取是必不可少的任務(wù)。在本文中，我們將重新審視用于序列生成的端到端三元組抽取任務(wù)。由于生成三元組抽取可能難以捕獲長期依賴關(guān)系并生成不忠實的三元組，因此我們引入了一種新的模型，即使用生成式Transformer的對比學(xué)習(xí)三元組抽取框架。

具體來說，我們介紹了一個共享的Transformer模塊，用于基于編碼器-解碼器的生成。為了產(chǎn)生忠實的結(jié)果，我們提出了一種新穎的三元組對比學(xué)習(xí)訓(xùn)練框架。此外，我們引入了兩種機(jī)制來進(jìn)一步改善模型的性能（即，分批動態(tài)注意掩碼和三元組校準(zhǔn)）。在三個數(shù)據(jù)集（NYT，WebNLG和MIE）上的實驗結(jié)果表明，我們的方法比基線具有更好的性能。我們的代碼和數(shù)據(jù)集將在論文出版后發(fā)布。

論文動機(jī)

編碼器-解碼器模型是功能強(qiáng)大的工具，已在許多NLP任務(wù)中獲得成功,但是現(xiàn)有方法仍然存在兩個關(guān)鍵問題。首先，由于遞歸神經(jīng)網(wǎng)絡(luò)（RNN）的固有缺陷，它們無法捕獲長期依賴關(guān)系，從而導(dǎo)致重要信息的丟失，否則將在句子中反映出來，從而導(dǎo)致模型無法應(yīng)用更長的文本。第二，缺乏工作致力于生成忠實的三元組，序列到序列的體系結(jié)構(gòu)會產(chǎn)生不忠實的序列，從而產(chǎn)生意義上的矛盾。例如，給定句子“美國總統(tǒng)特朗普在紐約市皇后區(qū)長大，并居住在那里直到13歲”，該模型可以生成事實“（特朗普出生于皇后區(qū)）”。盡管從邏輯上講是正確的，但我們無法從給定的句子中找到直接的證據(jù)來支持它。

為了解決這些問題，我們引入了帶有生成變壓器（CGT）的對比學(xué)習(xí)三元組提取框架，該框架是一個共享的Transformer模塊，支持編碼器-解碼器的生成式三元組對比學(xué)習(xí)多任務(wù)學(xué)習(xí)。首先，我們使用分隔符和部分因果掩碼機(jī)制將輸入序列與目標(biāo)序列連接起來，以區(qū)分編碼器-解碼器表示形式。除了預(yù)先訓(xùn)練的模型之外，我們的模型不需要任何其他參數(shù)。然后，我們介紹了一種新穎的三元組對比學(xué)習(xí)對象，該對象利用真實的三元組作為正實例，并利用隨機(jī)令牌采樣將損壞的三元組構(gòu)造為負(fù)實例。為了共同優(yōu)化三元組生成對象和對比學(xué)習(xí)對象，我們引入了分批動態(tài)注意掩碼機(jī)制，該機(jī)制允許我們動態(tài)選擇不同的對象并共同優(yōu)化任務(wù)。最后，我們介紹了一種新穎的三元組校準(zhǔn)算法，以在推理階段濾除虛假三元組。

這項工作的貢獻(xiàn)如下：

我們將三元組提取作為序列生成任務(wù)進(jìn)行了重新介紹，并引入了一種新穎的CGT模型。考慮到增加的提取功能，CGT除了在預(yù)訓(xùn)練語言模型中發(fā)現(xiàn)的參數(shù)外，不需要其他參數(shù)。

我們引入了兩種機(jī)制來進(jìn)一步提高模型性能（即，批處理動態(tài)注意掩碼和三元組校準(zhǔn)）。第一個可以聯(lián)合優(yōu)化不同的對象，第二個可以確保忠實的推理。

我們在三個基準(zhǔn)數(shù)據(jù)集上評估了CGT。我們的模型優(yōu)于其他強(qiáng)大的基準(zhǔn)模型。我們還證明，在捕獲長期依存關(guān)系方面，CGT比現(xiàn)有的三元組抽取方法更好，因此，在使用長句子場景下依然可以獲得更好的性能。

模型框架

這里我們展示了CGT生成式Transformer的總體架構(gòu)。右上部分表示Transformer生成模塊，右下部分表示三元組對比學(xué)習(xí)模塊。這兩個部分訓(xùn)練時共同優(yōu)化。生成模塊依靠部分因果掩碼機(jī)制建模成序列生成任務(wù)，如右圖中的示例所示，對于三元組序列生成，其中右上部分設(shè)置為-∞以阻止從源段到目標(biāo)段的關(guān)注；左側(cè)部分設(shè)置為全0，表示令牌能夠參與第一段。利用交叉熵?fù)p失生成來優(yōu)化三元組生成過程，獲得生成損失。對比學(xué)習(xí)模塊將輸入文本與正確的三元組實例或者偽造的三元組進(jìn)行隨機(jī)拼接，依靠部分因果掩碼機(jī)制建模成文本分類任務(wù)，其中mask矩陣的元素全為0，利用經(jīng)過MLP多層感知機(jī)層的特殊token[CLS]表示來計算分類打分函數(shù)，鑒別是否為正確實例，從而增強(qiáng)模型對關(guān)鍵token的感知能力。我們利用交叉熵優(yōu)化對比損失。生成損失與對比學(xué)習(xí)損失通過一個超參數(shù)權(quán)衡構(gòu)成了我們最終的總體損失。我們的解碼推理采用的是波束搜索和啟發(fā)式約束。

實驗結(jié)果

我們對三個基準(zhǔn)數(shù)據(jù)集進(jìn)行了實驗：紐約時報（NYT），WebNLG和MIE。MIE是醫(yī)學(xué)領(lǐng)域的大規(guī)模中文對話信息提取數(shù)據(jù)集。圖2中中顯示了這三個數(shù)據(jù)集的部分實驗統(tǒng)計信息。

責(zé)任編輯：lq6

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴