91婷婷射,久久久久精品免费理论电影 ,国产精品久久久久久久久亚洲美女

命名實體識別是NLP領域中的一項基礎任務，在文本搜索、文本推薦、知識圖譜構建等領域都起著至關重要的作用，一直是熱點研究方向之一。多模態命名實體識別在傳統的命名實體識別基礎上額外引入了圖像，可以為文本補充語義信息來進行消岐，近些年來受到人們廣泛的關注。

盡管當前的多模態命名實體識別方法取得了成功，但仍然存在著兩個問題：(1)當前大部分方法基于注意力機制來進行文本和圖像間的交互，但由于不同模態的表示來自于不同的編碼器，想要捕捉文本中token和圖像中區域之間的關系是困難的。如下圖所示，句子中的‘Rob’應該和圖像中存在貓的區域(V5,V6,V9等)有著較高的相似度，但由于文本和圖像的表示并不一致，在通過點積等形式計算相似度時，‘Rob’可能會和其它區域有著較高的相似度得分。因此，表示的不一致會導致模態之間難以建立起較好的關系。

(2)當前的方法認為文本與其隨附的圖像是匹配的，并且可以幫助識別文本中的命名實體。然而，并不是所有的文本和圖像都是匹配的，模型考慮這種不匹配的圖像將會做出錯誤的預測。如下圖所示，圖片中沒有任何與命名實體“Siri”相關的信息，如果模型考慮這張不匹配的圖像，便會受圖中“人物”的影響將“Siri”預測為PER(人)。而在只有文本的情況下，預訓練模型(BERT等)通過預訓練任務中學到的知識可以將“Siri”的類型預測為MISC(雜項)。

為了解決上述存在的問題，本文提出了MAF，一種通用匹配對齊框架(General Matching and Alignment Framework)，將文本和圖像的表示進行對齊并通過圖文匹配的概率過濾圖像信息。由于該框架中的模塊是插件式的，其可以很容易地被拓展到其它多模態任務上。

本文研究成果已被WSDM2022接收，