国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

介紹一種通用匹配對齊框架MAF

深度學習自然語言處理 ? 來源:知識工場 ? 作者:黃世洲 ? 2022-09-06 16:16 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

命名實體識別是NLP領域中的一項基礎任務,在文本搜索、文本推薦、知識圖譜構建等領域都起著至關重要的作用,一直是熱點研究方向之一。多模態命名實體識別在傳統的命名實體識別基礎上額外引入了圖像,可以為文本補充語義信息來進行消岐,近些年來受到人們廣泛的關注。

盡管當前的多模態命名實體識別方法取得了成功,但仍然存在著兩個問題:(1)當前大部分方法基于注意力機制來進行文本和圖像間的交互,但由于不同模態的表示來自于不同的編碼器,想要捕捉文本中token和圖像中區域之間的關系是困難的。如下圖所示,句子中的‘Rob’應該和圖像中存在貓的區域(V5,V6,V9等)有著較高的相似度,但由于文本和圖像的表示并不一致,在通過點積等形式計算相似度時,‘Rob’可能會和其它區域有著較高的相似度得分。因此,表示的不一致會導致模態之間難以建立起較好的關系。

7c7b002e-2d86-11ed-ba43-dac502259ad0.png

(2)當前的方法認為文本與其隨附的圖像是匹配的,并且可以幫助識別文本中的命名實體。然而,并不是所有的文本和圖像都是匹配的,模型考慮這種不匹配的圖像將會做出錯誤的預測。如下圖所示,圖片中沒有任何與命名實體“Siri”相關的信息,如果模型考慮這張不匹配的圖像,便會受圖中“人物”的影響將“Siri”預測為PER(人)。而在只有文本的情況下,預訓練模型(BERT等)通過預訓練任務中學到的知識可以將“Siri”的類型預測為MISC(雜項)。

為了解決上述存在的問題,本文提出了MAF,一種通用匹配對齊框架(General Matching and Alignment Framework),將文本和圖像的表示進行對齊并通過圖文匹配的概率過濾圖像信息 。由于該框架中的模塊是插件式的,其可以很容易地被拓展到其它多模態任務上。

本文研究成果已被WSDM2022接收,

7cc4ec16-2d86-11ed-ba43-dac502259ad0.png7ce6e5e6-2d86-11ed-ba43-dac502259ad0.png

整體框架

本文框架如下圖所示,由5個主要部分組成:

Input Representations

將原始的文本輸入轉為token序列的表示以及文本整體的表示,將原始的圖像輸入轉為圖像區域的表示以及圖像整體的表示。

Cross-Modal Alignment Module

接收文本整體的表示和圖像整體的表示作為輸入,通過對比學習將文本和圖像的表示變得更為一致。

Cross-Modal Interaction Module

接收token序列的表示以及圖像區域的表示作為輸入,使用注意力機制建立起文本token和圖像區域之間的聯系得到文本增強后的圖像的表示。

Cross-Modal Matching Module

接收文本序列的表示和文本增強后的圖像的表示作為輸入,用于判斷文本和圖像匹配的概率,并用輸出的概率對圖像信息進行過濾。

Cross-Modal Fusion Module

將文本token序列的表示和最終圖像的表示結合在一起輸入到CRF層進行預測。

7cf10116-2d86-11ed-ba43-dac502259ad0.png7ce6e5e6-2d86-11ed-ba43-dac502259ad0.png

主要部分

Input Representations

pYYBAGMXAjyAfd_9AAIrPNeQE1s850.jpg

7d0aae22-2d86-11ed-ba43-dac502259ad0.png

pYYBAGMXAmiAViCiAAF8GHZxccw723.jpg
poYBAGMXAm-AZaj2AALcEY_MaGs226.jpg

7d2afa56-2d86-11ed-ba43-dac502259ad0.png

poYBAGMXAoyAAY87AAGwW_qDavA106.jpg

實驗

主要結果

本文的方法在Twitter-2015和Twitter-2017數據集上效果均優于之前的方法。

7d4b855a-2d86-11ed-ba43-dac502259ad0.png

運行時間

本文的方法相比于之前的方法除了有著模態之間交互的模塊(本文中為CI),還添加了對齊模態表示的CA以及判斷圖文是否匹配的CM,這可能會導致訓練成本以及預測成本增加。但本文簡化了模態之間交互的過程,因此整體訓練和預測時間以及模型大小均由于之前的SOTA方法。

7d71210c-2d86-11ed-ba43-dac502259ad0.png

消融實驗

本文進行了消融實驗,驗證了CA和CM的有效性。

7d8a1194-2d86-11ed-ba43-dac502259ad0.png

樣例分析

本文還進行了樣例分析來更加直觀地展示CA和CM的有效性。

7da422a0-2d86-11ed-ba43-dac502259ad0.png



審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 編碼器
    +關注

    關注

    45

    文章

    3953

    瀏覽量

    142624
  • MLP
    MLP
    +關注

    關注

    0

    文章

    57

    瀏覽量

    4989

原文標題:用于多模態命名實體識別的通用匹配對齊框架

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    一種無OS的MCU實用軟件框架

    介紹一種無OS的MCU實用軟件框架,包括任務輪詢管理,命令管理器、低功耗管理、環形緩沖區等實用模塊。系統中廣泛利用自定義段技術減少各個模塊間的耦合關系,大大提供程序的可維護性。 主要功能 支持模塊
    發表于 01-08 06:58

    用于窄帶匹配高速射頻ADC的全新方法

    本期,為大家帶來的是《用于窄帶匹配高速射頻 ADC 的全新方法》,介紹一種用于窄帶匹配高速射頻 ADC 的全新方法,以解決高中間頻率系統中 ADC 前端窄帶
    的頭像 發表于 01-04 15:56 ?6256次閱讀
    用于窄帶<b class='flag-5'>匹配</b>高速射頻ADC的全新方法

    頻譜分析儀與電壓探頭匹配指南

    如何實現頻譜分析儀與電壓探頭的精準匹配?核心邏輯可概括為“三對齊一適配”——參數對齊、接口對齊、設置對齊+場景適配,最終目標是規避信號反射、
    的頭像 發表于 12-29 14:51 ?281次閱讀
    頻譜分析儀與電壓探頭<b class='flag-5'>匹配</b>指南

    TDK MAF1005P型噪聲抑制濾波器:設計利器的深度剖析

    TDK MAF1005P型噪聲抑制濾波器:設計利器的深度剖析 在電子設備的設計中,噪聲抑制直是工程師們關注的重點。TDK的MAF系列噪聲抑制濾波器,特別是MAF1005P型,為我們提
    的頭像 發表于 12-26 14:40 ?206次閱讀

    TDK MAF1005FR音頻線路噪聲抑制濾波器:設計工程師的理想之選

    TDK MAF1005FR音頻線路噪聲抑制濾波器:設計工程師的理想之選 電子工程師在設計音頻線路時,常常需要應對噪聲干擾這棘手問題。TDK的MAF系列噪聲抑制濾波器,特別是MAF10
    的頭像 發表于 12-26 09:35 ?415次閱讀

    摩爾線程新代大語言模型對齊框架URPO入選AAAI 2026

    近日,摩爾線程在人工智能前沿領域取得重要突破,其提出的新代大語言模型對齊框架——URPO統獎勵與策略優化,相關研究論文已被人工智能領域的國際頂級學術會議AAAI 2026收錄。這
    的頭像 發表于 11-17 16:03 ?482次閱讀
    摩爾線程新<b class='flag-5'>一</b>代大語言模型<b class='flag-5'>對齊</b><b class='flag-5'>框架</b>URPO入選AAAI 2026

    一種適用于動態環境的自適應先驗場景-對象SLAM框架

    由于傳統視覺SLAM在動態場景中容易會出現嚴重的定位漂移,本文提出了一種新穎的基于場景-對象的可靠性評估框架,該框架通過當前幀質量指標以及相對于可靠參考幀的場景變化,全面評估SLAM的穩定性。
    的頭像 發表于 08-19 14:17 ?873次閱讀
    <b class='flag-5'>一種</b>適用于動態環境的自適應先驗場景-對象SLAM<b class='flag-5'>框架</b>

    介紹一種直流過壓保護電路

    本篇博文將詳細分析一種典型的過壓保護電路,探討其工作原理、元件選擇及實際應用,幫助大家深入理解如何保護電子設備。
    的頭像 發表于 07-05 11:06 ?1445次閱讀
    <b class='flag-5'>介紹</b><b class='flag-5'>一種</b>直流過壓保護電路

    dhkey chcks不匹配怎么解決?

    \" 。 這是個隨機問題,在配對和解除配對時觀察到。 在執行此操作時,我們觀察到在迭代 10 次配對和解除配對后,出現了密鑰不
    發表于 07-01 06:36

    基于LockAI視覺識別模塊:C++多模板匹配

    多模板匹配一種在圖像中同時尋找多個模板的技術。通過對每個模板逐進行匹配,找到與輸入圖像最相似的區域,并標記出匹配度最高的結果。本實驗提供
    的頭像 發表于 05-14 14:37 ?1618次閱讀
    基于LockAI視覺識別模塊:C++多模板<b class='flag-5'>匹配</b>

    Allegro Skill布局功能--器件絲印過孔對齊介紹與演示

    Allegro系統雖然提供了基本的元件對齊功能,但其適用范圍較為有限。相比之下,Fanyskill 的“對齊”命令在操作體驗和功能性上更具優勢:其界面設計更加直觀易用,并支持多種元素的對齊操作,包括
    發表于 05-14 08:59 ?3667次閱讀
    Allegro Skill布局功能--器件絲印過孔<b class='flag-5'>對齊</b><b class='flag-5'>介紹</b>與演示

    一種新型激光雷達慣性視覺里程計系統介紹

    針對具有挑戰性的光照條件和惡劣環境,本文提出了LIR-LIVO,這是一種輕量級且穩健的激光雷達-慣性-視覺里程計系統。通過采用諸如利用深度與激光雷達點云關聯實現特征的均勻深度分布等先進技術,以及利用
    的頭像 發表于 04-28 11:18 ?1088次閱讀
    <b class='flag-5'>一種</b>新型激光雷達慣性視覺里程計系統<b class='flag-5'>介紹</b>

    一種實時多線程VSLAM框架vS-Graphs介紹

    針對現有VSLAM系統語義表達不足、地圖可解釋性差的問題,本文提出vS-Graphs,一種實時多線程VSLAM框架。該方案顯著提升了重建地圖的語義豐富度、可解釋性及定位精度。實驗表明
    的頭像 發表于 04-19 14:07 ?1001次閱讀
    <b class='flag-5'>一種</b>實時多線程VSLAM<b class='flag-5'>框架</b>vS-Graphs<b class='flag-5'>介紹</b>

    PCB布局太亂? Altium Designer這個快捷鍵幫你對齊全場

    在做PCB設計的時候,你是否也遇到過這種情況: 器件擺好但總感覺歪歪扭扭? 有些元件間距不致,看著難受? 想對齊個個拖動,累得不行? 別急!今天教你招? Altium Desi
    的頭像 發表于 04-14 09:09 ?4832次閱讀
    PCB布局太亂? Altium Designer這個快捷鍵幫你<b class='flag-5'>一</b>秒<b class='flag-5'>對齊</b>全場

    一種多模態駕駛場景生成框架UMGen介紹

    端到端自動駕駛技術的快速發展對閉環仿真器提出了迫切需求,而生成式模型為其提供了一種有效的技術架構。然而,現有的駕駛場景生成方法大多側重于圖像模態,忽略了其他關鍵模態的建模,如地圖信息、智能交通參與者等,從而限制了其在真實駕駛場景中的適用性。
    的頭像 發表于 03-24 15:57 ?1686次閱讀
    <b class='flag-5'>一種</b>多模態駕駛場景生成<b class='flag-5'>框架</b>UMGen<b class='flag-5'>介紹</b>