国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

用于多模態命名實體識別的通用匹配對齊框架

深度學習自然語言處理 ? 來源:知識工場 ? 作者:知識工場 ? 2022-09-06 16:17 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

命名實體識別是NLP領域中的一項基礎任務,在文本搜索、文本推薦、知識圖譜構建等領域都起著至關重要的作用,一直是熱點研究方向之一。多模態命名實體識別在傳統的命名實體識別基礎上額外引入了圖像,可以為文本補充語義信息來進行消岐,近些年來受到人們廣泛的關注。

盡管當前的多模態命名實體識別方法取得了成功,但仍然存在著兩個問題:(1)當前大部分方法基于注意力機制來進行文本和圖像間的交互,但由于不同模態的表示來自于不同的編碼器,想要捕捉文本中token和圖像中區域之間的關系是困難的。如下圖所示,句子中的‘Rob’應該和圖像中存在貓的區域(V5,V6,V9等)有著較高的相似度,但由于文本和圖像的表示并不一致,在通過點積等形式計算相似度時,‘Rob’可能會和其它區域有著較高的相似度得分。因此,表示的不一致會導致模態之間難以建立起較好的關系。

7c7b002e-2d86-11ed-ba43-dac502259ad0.png

(2)當前的方法認為文本與其隨附的圖像是匹配的,并且可以幫助識別文本中的命名實體。然而,并不是所有的文本和圖像都是匹配的,模型考慮這種不匹配的圖像將會做出錯誤的預測。如下圖所示,圖片中沒有任何與命名實體“Siri”相關的信息,如果模型考慮這張不匹配的圖像,便會受圖中“人物”的影響將“Siri”預測為PER(人)。而在只有文本的情況下,預訓練模型(BERT等)通過預訓練任務中學到的知識可以將“Siri”的類型預測為MISC(雜項)。

Text: Ask [Siri MISC] what 0 divided by 0 is and watch her put you in your place.

為了解決上述存在的問題,本文提出了MAF,一種通用匹配對齊框架(General Matching and Alignment Framework),將文本和圖像的表示進行對齊并通過圖文匹配的概率過濾圖像信息 。由于該框架中的模塊是插件式的,其可以很容易地被拓展到其它多模態任務上。

本文研究成果已被WSDM2022接收,文章和代碼鏈接如下:

論文鏈接:https://dl.acm.org/doi/pdf/10.1145/3488560.3498475

代碼:https://github.com/xubodhu/MAF

7cc4ec16-2d86-11ed-ba43-dac502259ad0.png

整體框架

本文框架如下圖所示,由5個主要部分組成:

Input Representations

將原始的文本輸入轉為token序列的表示以及文本整體的表示,將原始的圖像輸入轉為圖像區域的表示以及圖像整體的表示。

Cross-Modal Alignment Module

接收文本整體的表示和圖像整體的表示作為輸入,通過對比學習將文本和圖像的表示變得更為一致。

Cross-Modal Interaction Module

接收token序列的表示以及圖像區域的表示作為輸入,使用注意力機制建立起文本token和圖像區域之間的聯系得到文本增強后的圖像的表示。

Cross-Modal Matching Module

接收文本序列的表示和文本增強后的圖像的表示作為輸入,用于判斷文本和圖像匹配的概率,并用輸出的概率對圖像信息進行過濾。

Cross-Modal Fusion Module

將文本token序列的表示和最終圖像的表示結合在一起輸入到CRF層進行預測。

7cf10116-2d86-11ed-ba43-dac502259ad0.png

主要部分

Input Representations

本文使用BERT作為文本編碼器,當文本輸入到BERT后,便可以得到token序列的表示,其中n為token的數量,為[CLS],為[SEP],,本文使用[CLS]的表示作為整個文本的表示。

本文使用ResNet作為圖像編碼器,當圖像輸入到ResNet后,其最后一層卷積層的輸出被作為圖像區域的表示,其中為圖像區域的數量,即將整張圖像均分為49個區域。接著,使用大小為的平均池化層對進行平均池化得到整個圖像的表示。由于后續和需要進行交互,所以將通過一個全連接層將其投影到與相同的維度,其中。

Cross-Modal Alignment Module (CA)

該模塊遵循SimCLR[1]進行對比學習的訓練過程使得文本的表示和圖像的表示更趨于一致,接收以及作為輸入,通過對比學習來調整編碼器的參數。本文在構造正負樣例階段中認為原始的文本-圖像對為正樣例,除此之外的文本-圖像對均為負樣例,因此在大小為N的batch中,只有N個原始的文本-圖像對為正樣例,對于batch中的每個文本來說,除了其原始的image外,其余任意image與其都構成負樣例,對于batch中的每個圖像來說也是如此。如下圖所示,當N為3時,可以得到3個正樣例以及個負樣例。

7d0aae22-2d86-11ed-ba43-dac502259ad0.png

接著,本文使用兩個不同的MLP作為投影層分別對和進行投影得到以及。然后,通過最小化對比學習損失來最大化正樣例之間的相似度并且最小化負樣例之間的相似度來使得文本的表示和圖像的表示更加一致,image-to-text對比學習損失如下所示:

其中為余弦相似度,為溫度參數。text-to-image對比學習損失如下所示:

我們將上述兩個對比學習損失函數合并,得到最終的對比學習損失函數:

其中為超參數。

補充:

Q:在“背景”部分提到的第(2)個問題是圖文可能是不匹配的,為什么在CA中還是認為來自同一文本-圖像對的數據為正樣例?

A:在EBR[2]中,作者通過類似于對比學習的方式來訓練一個向量召回模型(通過搜索文本來召回淘寶商品),并且認為點擊和購買的商品為正樣例,但這種點擊和購買的信號除了和搜索內容有關之外還受到商品價格、銷量、是否包郵等因素影響,類似于本文中將原始的文本-圖像對看作正例,都是存在噪聲的。由于本身可以調節分布的特性,EBR作者通過增加的大小來減少數據噪聲的影響,并且通過實驗證明將增大到一定數值(設置為3時達到最好)可以提高模型的表現。本文最終的也是一個相對較大的數字為0.1。而在其它數據噪聲相對較少的對比學習的工作中,如SimCSE[3],被設置為0.05,MoCo[4]中的被設置為0.07。

總的來說,CA中會存在一定數量的噪聲數據,但可以通過提高的方式來顯著地降低其帶來的影響。

Cross-Modal Interaction Module (CI)

該模塊通過注意力機制建立起文本和圖像之間的關系,使用文本token序列表示作為Query,使用圖像的區域表示作為Key和Value,最終得到文本增強后的圖像表示。

Cross-Modal Matching Module (CM)

該模塊用于判斷圖文匹配的概率,并用概率調整圖像應保留的信息。該模塊接受和作為輸入,輸出為和匹配的概率。由于缺少用于標記圖文是否匹配的監督數據,本文使用一種自監督的學習方式來訓練該模塊。

首先,本文在大小為N的batch中構造正負樣例,其中原始的文本-圖像對為正樣例,其余的為負樣例。本文通過隨機交換batch中前2k個樣例的來構造負樣例,如下圖所示,在大小為3的batch中,交換前2*1個樣例的得到2個負樣例,而剩余的3-2=1個沒有被交換的樣例則為正樣例。

7d2afa56-2d86-11ed-ba43-dac502259ad0.png

接著,將構造好的每個樣例中的和拼接起來作為輸入到一個激活函數為sigmoid的全連接層中用于預測圖文匹配的概率。

判斷圖文是否匹配可以被看做是一個二分類任務,因此在獲取的正負樣例后,可以自然地獲得每個樣例的真實標簽(正樣例為1,負樣例為0),再通過上述公式得到預測概率后,便可以使用二元交叉熵來訓練該模塊。

最后,使用該模塊輸出的概率與進行逐元素相乘來獲得圖像應保留的信息(該模塊輸出的概率越大說明圖文匹配的概率越高,則逐元素相乘圖像保留的信息越多)。

Cross-Modal Fusion Module (CF)

該模塊用于將文本token序列以及最終圖像的表示融合在一起。首先,本文使用門機制動態地調整應與文本結合的圖像表示:

最后將和拼接在一起得到,其中。將輸入到CRF層中,便可以得到每個token對應的類別。

訓練時,CA和CM中的損失會和命名實體識別的損失同步訓練。

實驗

主要結果

本文的方法在Twitter-2015和Twitter-2017數據集上效果均優于之前的方法。

7d4b855a-2d86-11ed-ba43-dac502259ad0.png

運行時間

本文的方法相比于之前的方法除了有著模態之間交互的模塊(本文中為CI),還添加了對齊模態表示的CA以及判斷圖文是否匹配的CM,這可能會導致訓練成本以及預測成本增加。但本文簡化了模態之間交互的過程,因此整體訓練和預測時間以及模型大小均由于之前的SOTA方法。

7d71210c-2d86-11ed-ba43-dac502259ad0.png

消融實驗

本文進行了消融實驗,驗證了CA和CM的有效性。

7d8a1194-2d86-11ed-ba43-dac502259ad0.png

樣例分析

本文還進行了樣例分析來更加直觀地展示CA和CM的有效性。

7da422a0-2d86-11ed-ba43-dac502259ad0.png

參考資料

[1] A Simple Framework for Contrastive Learning of Visual Representations:http://proceedings.mlr.press/v119/chen20j/chen20j.pdf

[2] Embedding-based Product Retrieval in Taobao Search:https://arxiv.org/pdf/2106.09297.pdf?ref=https://githubhelp.com

[3] SimCSE: Simple Contrastive Learning of Sentence Embeddings:https://arxiv.org/pdf/2104.08821.pdf?ref=https://githubhelp.com

[4] Momentum Contrast for Unsupervised Visual Representation Learning:https://openaccess.thecvf.com/content_CVPR_2020/papers/He_Momentum_Contrast_for_Unsupervised_Visual_Representation_Learning_CVPR_2020_paper.pdf

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 圖像
    +關注

    關注

    2

    文章

    1096

    瀏覽量

    42330
  • 框架
    +關注

    關注

    0

    文章

    404

    瀏覽量

    18425
  • nlp
    nlp
    +關注

    關注

    1

    文章

    491

    瀏覽量

    23280
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    頻譜分析儀與電壓探頭匹配指南

    如何實現頻譜分析儀與電壓探頭的精準匹配?核心邏輯可概括為“三對齊一適配”——參數對齊、接口對齊、設置對齊+場景適配,最終目標是規避信號反射、
    的頭像 發表于 12-29 14:51 ?286次閱讀
    頻譜分析儀與電壓探頭<b class='flag-5'>匹配</b>指南

    商湯科技正式發布并開源全新模態模型架構NEO

    商湯科技正式發布并開源了與南洋理工大學S-Lab合作研發的全新模態模型架構 —— NEO,為日日新SenseNova 模態模型奠定了新一代架構的基石。
    的頭像 發表于 12-08 11:19 ?1019次閱讀
    商湯科技正式發布并開源全新<b class='flag-5'>多</b><b class='flag-5'>模態</b>模型架構NEO

    亞馬遜云科技上線Amazon Nova模態嵌入模型

    Embeddings模態嵌入模型現已在Amazon Bedrock上線,這是一款專為Agentic RAG與語義搜索應用打造的頂尖模態嵌入模型。該模型是首個通過單一模型支持文本、
    的頭像 發表于 10-29 17:15 ?266次閱讀
    亞馬遜云科技上線Amazon Nova<b class='flag-5'>多</b><b class='flag-5'>模態</b>嵌入模型

    1688 模態搜索從 0 到 1:逆向接口解析與 CLIP 特征匹配實踐

    本文分享基于CLIP模型與逆向工程實現1688圖片搜同款的實戰方案。通過抓包分析破解接口簽名,結合CLIP模態特征提取與Faiss向量檢索,提升搜索準確率至91%,單次響應低于80ms,日均選品效率提升4倍,全程合規可復現。
    的頭像 發表于 10-17 10:00 ?560次閱讀

    用于物聯網的 LTE 通用頻段前端模塊 skyworksinc

    電子發燒友網為你提供()用于物聯網的 LTE 通用頻段前端模塊相關產品參數、數據手冊,更有用于物聯網的 LTE 通用
    發表于 10-16 18:31
    <b class='flag-5'>用于</b>物聯網的 LTE <b class='flag-5'>通用</b><b class='flag-5'>多</b>頻段前端模塊 skyworksinc

    米爾RK3576部署端側模態輪對話,6TOPS算力驅動30億參數LLM

    首輪推理延遲,適配對響應速度敏感的車載、醫療等場景; 其二,模態融合再升級—— 在圖文基礎上集成語音、傳感器數據,實現 “看 + 聽 + 感知” 的跨模態對話; 其三,生態適配再拓展
    發表于 09-05 17:25

    淺析模態標注對大模型應用落地的重要性與標注實例

    ?在人工智能邁向AGI通用智能的關鍵道路上,大模型正從單一的文本理解者,演進為能同時看、聽、讀、想的“多面手”。驅動這一進化的核心燃料,正是高質量的模態數據,而將原始數據轉化為“機器可讀教材
    的頭像 發表于 09-05 13:49 ?2280次閱讀

    基于米爾瑞芯微RK3576開發板的Qwen2-VL-3B模型NPU模態部署評測

    SDK 是瑞芯微推出的通用神經網絡推理框架,支持將 TensorFlow、PyTorch 等主流框架的模型轉換為 RKNN 格式,并在瑞芯微 NPU 上高效運行,適用于圖像
    發表于 08-29 18:08

    商湯科技模態通用智能戰略思考

    時間是最好的試金石,AI領域尤其如此。當行業熱議大模型走向時,商湯早已錨定“模態通用智能”——這是我們以深厚研究積累和實踐反復驗證的可行路徑。
    的頭像 發表于 08-14 09:33 ?1189次閱讀

    “端云+模態”新范式:《移遠通信AI大模型技術方案白皮書》正式發布

    大模型技術方案的核心優勢、落地路徑及標桿案例,為行業智能化升級提供了可借鑒的實踐框架。洞察技術演進:AI大模型邁入“端云協同+模態”新階段白皮書指出,AI大模型
    的頭像 發表于 07-28 13:08 ?1231次閱讀
    “端云+<b class='flag-5'>多</b><b class='flag-5'>模態</b>”新范式:《移遠通信AI大模型技術方案白皮書》正式發布

    NVIDIA助力圖靈新訊美推出企業級模態視覺大模型融合解決方案

    中國推出企業級模態視覺大模型融合解決方案,推動先進 AI 模型在交通治理、工業質檢、金融風控等領域實現高效識別、精準預警和穩定交付。
    的頭像 發表于 06-26 09:17 ?1339次閱讀

    基于LockAI視覺識別模塊:C++模板匹配

    景:廣泛應用于物體識別、工業自動化、機器人導航等領域。 優勢:支持多個模板的同時匹配,能夠靈活處理多種目標。 局限性:對旋轉、縮放和光照變化較為敏感,因此通常需要結合其他技術來提高魯棒性。 1.2
    發表于 05-14 15:00

    基于LockAI視覺識別模塊:C++模板匹配

    模板匹配是一種在圖像中同時尋找多個模板的技術。通過對每個模板逐一進行匹配,找到與輸入圖像最相似的區域,并標記出匹配度最高的結果。本實驗提供了一個簡單的
    的頭像 發表于 05-14 14:37 ?1623次閱讀
    基于LockAI視覺<b class='flag-5'>識別</b>模塊:C++<b class='flag-5'>多</b>模板<b class='flag-5'>匹配</b>

    愛芯通元NPU適配Qwen2.5-VL-3B視覺模態大模型

    熟悉愛芯通元NPU的網友很清楚,從去年開始我們在端側模態大模型適配上一直處于主動緊跟的節奏。先后適配了國內最早開源的模態大模MiniCPM V 2.0,上海人工智能實驗室的書生
    的頭像 發表于 04-21 10:56 ?3153次閱讀
    愛芯通元NPU適配Qwen2.5-VL-3B視覺<b class='flag-5'>多</b><b class='flag-5'>模態</b>大模型

    ?模態交互技術解析

    模態交互 模態交互( Multimodal Interaction )是指通過多種感官通道(如視覺、聽覺、觸覺等)或多種交互方式(如語音、手勢、觸控、眼動等)與計算機系統進行自然、
    的頭像 發表于 03-17 15:12 ?4405次閱讀