国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

UniVL-DR: 多模態稠密向量檢索模型

智能感知與物聯網技術研究所 ? 來源:未知 ? 2023-08-06 22:00 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

4838dfba-3461-11ee-9e74-dac502259ad0.png

論文標題:

Universal Vision-Language Dense Retrieval: Learning A Unified Representation Space for Multi-Modal Retrieval

背景介紹盡管當前主流搜索引擎主要面向文本數據,然而多媒體內容的增長一直是互聯網上最顯著趨勢之一,各種研究表明用戶更喜歡搜索結果中出現生動的多模態內容。因而,針對于多模態數據的信息獲取需求在用戶搜索過程中尤為重要。 48648c3c-3461-11ee-9e74-dac502259ad0.png▲圖1. 不同多模態檢索框架示意圖

為了實現多模態檢索過程,當前的多媒體搜索系統通常采用“分而治之”的方法。如圖 1(a) 所示,這些方法首先在單個模態中進行搜索,包括文本、圖像、視頻等 ,然后將各個模態的檢索結果融合在一起,例如,在這些單/交叉模態檢索器之上構建另一個排序模塊來進行模態融合。

顯而易見,相關性建模(Relevance Modeling)和檢索結果融合(Retrieval Result Fusion)二者的建模過程通常交織在一起,以實現更準確的多模態檢索結果。然而,由于模態差距,這類模型只能以分而治之的方式進行流水線建模,這使得融合來自不同模態的檢索結果具有挑戰性。

在本文中,我們提出端到端多模態檢索模型,通過用戶查詢對多模態文檔進行統一的檢索。如圖 1(b) 所示,通用多模態檢索將查詢和多模態文檔映射到一個統一的嵌入空間,并通過最近鄰搜索檢索多模態候選結果。最終,本文將相關性建模(Relevance Modeling)、跨模態匹配(Cross-Modality Matching)和檢索結果融合(Retrieval Result Fusion)進行統一的建模。

多模態檢索任務介紹

489b4ea2-3461-11ee-9e74-dac502259ad0.png

▲圖2. 不同檢索任務示意圖

單模態檢索(Single Modality Retrieval)。如圖 2(a)所示,單模態檢索側重于在一個模態空間內進行相關性檢索,包括文本-文本檢索和圖像-圖像檢索。文本-文本檢索旨在從文本集合中檢索出與查詢相關的文本文檔;而圖像-圖像檢索期望于從圖像集合中檢索出與給定查詢圖像匹配度較高的圖像。

跨模態檢索(Cross Modality Retrieval)。如圖 2(b)所示,該檢索場景包含兩個子任務:文本-圖像檢索,圖像-文本檢索。這兩種任務要求檢索模型在圖像與圖像對應的描述文字之間進行跨模態匹配,

例如,在圖像-文本檢索任務中,對于給定的圖像,檢索模型需要在給定的圖像描述文本集合中檢索出與之匹配的描述文本。這種跨模態檢索場景中的任務更加側重于文本與圖像之間的跨模態語義信息匹配,不同于信息檢索中的相似度搜索,這種跨模態匹配更加注重“淺層”的語義匹配,對于深層的文檔理解能力要求不高。

多模態檢索(Multi-Modal Retrieval)。如圖 2(c)所示,該檢索場景旨在包含多模態文檔的數據集合中檢索相關文檔。在多模態檢索場景下,檢索模型需要同時處理查詢與不同模態文檔之間的相似度計算,例如,對于給定的查詢,檢索模型需要在給定的文檔集合中檢索出相似文檔。

不同于單模態檢索和跨模態檢索,多模態檢索的目的是從多模態文檔集合中檢索、返回相關文檔。根據用戶的查詢,檢索結果可能由文本文檔、圖像文檔或文本文檔與圖像文檔的混合序列組成。多模態檢索更加關注查詢和文檔之間的關聯建模,且檢索過程中涉及查詢與文本文檔的單模態匹配、查詢與圖像文檔的跨模態匹配以及不同模態文檔與查詢的相似度之間的比較,這使得這項任務具有更大的挑戰性。

UniVL-DR:基于統一表征空間的多模態稠密向量檢索框架

48e5520e-3461-11ee-9e74-dac502259ad0.png

▲圖3. UniVL-DR模型結構圖

在多模態信息檢索場景下,本文提出了 Universal Vision-Language Dense Retrieval (UniVL-DR) 模型來建模多模態檢索過程。如圖 3 所示,對于給定用戶查詢和多模態文檔,UniVL-DR 將用戶查詢、文本文檔和圖像文檔編碼在一個統一的向量表征空間中,并在該表征空間中進行用戶查詢與相關文檔的相關性建模以及多模態文檔向量表征建模。

UniVL-DR 由兩個編碼器構成:文本編碼器和圖像編碼器。查詢、圖像文檔和文本文檔均通過這兩個編碼器編碼得到稠密向量表示。

查詢編碼:如公式(1)所示,本文算法直接通過文本編碼器對查詢進行編碼,得到查詢的表征向量:

48f8c276-3461-11ee-9e74-dac502259ad0.png

文本文檔編碼:如公式(2)所示,對于文本文檔,本文算法將其經過文本編碼器得到文本文檔的稠密表征向量:

4913634c-3461-11ee-9e74-dac502259ad0.png

圖像文檔編碼:與文本文檔不同,圖像文檔可以通過圖像特征和圖像描述表示,并且圖像的文本描述可以幫助模型更好地理解圖像文檔的語義。因此,如公式(3)所示,本文對圖像和圖像的文本描述進行編碼,得到編碼后的向量,再對這些向量進行求和得到第 i 個圖像文檔的稠密表征向量:

491f0670-3461-11ee-9e74-dac502259ad0.png

圖像文檔的稠密表征向量和文本文檔的稠密表征向量使用相同的文本編碼器進行編碼,這種處理方式在文本空間中架起了兩種模態文檔間的橋梁,為多模態檢索建立了一個統一的以語言為中心的稠密向量表征空間。在檢索時,由公式(4)所示,本算法通過計算查詢與候選文檔的余弦相似度得分來評估查詢與該文檔之間的相似度:

492baec0-3461-11ee-9e74-dac502259ad0.png

在訓練過程中,本文采用模態均衡化的難負例選取策略,有效地構建多模態文檔表征空間并進行優化,避免了在多模態數據共同訓練過程中對某一模態信息的過擬合。具體來說,由公式(5)所示,對于給定查詢及候選文檔,本文通過對不同模態的難負例進行采樣并最小化對比學習損失來優化表征向量空間。這使得查詢表征向量的空間分布更接近相關文檔而遠離不相關文檔。K1 和 K2 分別代表圖像文檔負例的數量和文本文檔負例的數量,如果訓練過程中,K1 與 K2 不相等,那么模型很可能學習到偏差較大的分布空間,例如,若 K1偏差的問題。,訓練時,查詢的表征分布將偏向于文本文檔的表征域,以此來獲得較低的損失值。這種情況會造成模型訓練時對某個模態過擬合,從而導致檢索中僅關注某一模態的文檔,造成模態<>為了避免這種模態過擬合的問題,本文使用模態均衡化的難負例選擇策略,即訓練過程中始終保持 K1=K2=K,從而構建更加均衡、穩定的多模態表征空間。

493b918c-3461-11ee-9e74-dac502259ad0.png

為解決圖像文檔與文本文檔在表征上的模態屏障,本文提出通過圖像的語言化拓展來彌合不同模態文檔間表征鴻溝的方法。

wKgZomTYhpOARa2uAAHuWucmbBw884.png

▲圖4. 圖像的語言拓展算法示意圖

本文借鑒信息檢索領域中的文檔拓展技術對圖像進行語言化拓展,增強圖像的語義表示。如圖(4)所示,首先對圖像進行目標檢測,得到圖像的區域特征和檢測出的區域文本標簽集合。本文首先將由圖像和目標檢測得到的區域標簽生成圖像描述形式的語言化拓展,輸入結構如公式(6)所示:

498f5df8-3461-11ee-9e74-dac502259ad0.png

其次將由圖像文檔生成與圖像對應的查詢形式的語言化拓展,輸入結構如公式(7)所示:

499a208a-3461-11ee-9e74-dac502259ad0.png

最后,如公式(8)所示本文將生成的圖像語言化拓展與圖像原始的文本描述拼接作為圖像文檔中文本部分的新表示。新的文本表示具有更強的語義信息,可以幫助圖像文檔更好地適配語言信息的表征空間。49a66994-3461-11ee-9e74-dac502259ad0.png

實驗結果

實驗結果如表 2 所示。UniVL-DR 在性能評估上比所有基線模型提高了 7% 以上,顯著的檢索性能提升說明了本文算法在構建面向多模態文檔的信息檢索系統方面的有效性。相比較分而治之的策略,UniVL-DR 甚至超過了 BM25&CLIP-DPR(Oracle Modality)模型,該模型利用了數據集中標注的與用戶問題相關的文檔模態信息進行模態路由。證明統一化的多模態文檔向量建模能夠很好地建模多模態檢索任務。

49bd468c-3461-11ee-9e74-dac502259ad0.png

▲表2. 主實驗結果

如表 3 所示,本文展示了模型的消融試驗結果。在實驗中我們發現針對于多模態檢索任務,圖像文檔的標題信息相比較像素信息更加重要。同時,在圖像文檔標題信息的基礎上加入圖像像素信息能夠進一步提升檢索的效果。

49d5e822-3461-11ee-9e74-dac502259ad0.png

▲表3. 消融實驗結果

如圖 5 所示,在用戶問題中,往往會出現與圖片所描述內容相關的實體,例如:明尼通卡杜鵑花(Minnetonka Rhododendron flower),然而,現有的圖片編碼器(例如:CLIP)往往缺少此類的背景知識,因而導致在多模態檢索過程中圖像文本的像素編碼向量的作用不大。此原因導致了在多模態檢索過程中圖片像素的語義信息對檢索精度的提升貢獻不大的現象。

▲圖5. 圖片檢索樣例

進一步我們通過不同負例選取方式訓練得到的多模態檢索模型的向量空間可視化,如圖 6 所示。我們的實驗結果發現,通過模態平衡難負例訓練的檢索模型學習的向量空間更加的均勻。同時,通過對難負例的模態進行平衡可以很好地緩解檢索模型對于模態的偏見問題。

4a1ef38c-3461-11ee-9e74-dac502259ad0.png

圖6. 稠密向量可視化

總結本文提出了 UniVL-DR,UniVL-DR 構建了統一的多模態向量表征空間,將單模態、跨模態匹配和檢索結果融合建模在一起,實現端到端的多模態信息檢索。具體來講,本文的主要貢獻有以下兩點:1)通過模態均衡的難負例選取策略進行統一多模態表征空間的對比優化。2)利用圖像語言化方法彌合了原始數據空間中圖像和文本之間的模態差距。實驗表明,UniVL-DR 可以通過圖像語言化技術彌合模態差距,并通過模態均衡的難負例選取策略避免過度擬合某一種模態的訓練監督信號 ·


原文標題:UniVL-DR: 多模態稠密向量檢索模型

文章出處:【微信公眾號:智能感知與物聯網技術研究所】歡迎添加關注!文章轉載請注明出處。


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 物聯網
    +關注

    關注

    2945

    文章

    47820

    瀏覽量

    415053

原文標題:UniVL-DR: 多模態稠密向量檢索模型

文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯網技術研究所】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    RAG(檢索增強生成)原理與實踐

    模型更新 :跟蹤最新的Embedding和LLM模型 七、未來趨勢與展望 7.1 模態RAG 支持圖像、音頻等多種模態
    發表于 02-11 12:46

    模態感知大模型驅動的密閉空間自主勘探系統的應用與未來發展

    ? ? 模態感知大模型驅動的密閉空間自主勘探系統 ? ?北京華盛恒輝模態感知大模型驅動的密閉
    的頭像 發表于 12-29 11:27 ?302次閱讀

    模態模型驅動的復雜環境精準導航避障系統平臺的應用

    模態模型驅動的復雜環境精準導航避障系統平臺的應用
    的頭像 發表于 12-22 13:15 ?283次閱讀
    <b class='flag-5'>多</b><b class='flag-5'>模態</b>大<b class='flag-5'>模型</b>驅動的復雜環境精準導航避障系統平臺的應用

    商湯科技正式發布并開源全新模態模型架構NEO

    商湯科技正式發布并開源了與南洋理工大學S-Lab合作研發的全新模態模型架構 —— NEO,為日日新SenseNova 模態
    的頭像 發表于 12-08 11:19 ?1019次閱讀
    商湯科技正式發布并開源全新<b class='flag-5'>多</b><b class='flag-5'>模態</b><b class='flag-5'>模型</b>架構NEO

    格靈深瞳模態模型Glint-ME讓圖文互搜更精準

    在電商、安防等場景下,圖文互搜應用廣泛。隨著以CLIP為代表的模態表征方法相繼提出,過去單一模態搜索(文搜文、圖搜圖)被突破,模型可以同時理解文本、圖像、音頻乃至視頻,實現跨
    的頭像 發表于 11-02 15:56 ?1719次閱讀
    格靈深瞳<b class='flag-5'>多</b><b class='flag-5'>模態</b>大<b class='flag-5'>模型</b>Glint-ME讓圖文互搜更精準

    亞馬遜云科技上線Amazon Nova模態嵌入模型

    Embeddings模態嵌入模型現已在Amazon Bedrock上線,這是一款專為Agentic RAG與語義搜索應用打造的頂尖模態
    的頭像 發表于 10-29 17:15 ?267次閱讀
    亞馬遜云科技上線Amazon Nova<b class='flag-5'>多</b><b class='flag-5'>模態</b>嵌入<b class='flag-5'>模型</b>

    1688 模態搜索從 0 到 1:逆向接口解析與 CLIP 特征匹配實踐

    本文分享基于CLIP模型與逆向工程實現1688圖片搜同款的實戰方案。通過抓包分析破解接口簽名,結合CLIP模態特征提取與Faiss向量檢索
    的頭像 發表于 10-17 10:00 ?560次閱讀

    商湯日日新V6.5模態模型登頂全球權威榜單

    根據權威評測平臺OpenCompass模態模型學術榜單(Multi-modal Academic Leaderboard)最新數據顯示,商湯「日日新 V6.5」(SenseNova-V6.5
    的頭像 發表于 09-10 09:55 ?800次閱讀

    米爾RK3576部署端側模態輪對話,6TOPS算力驅動30億參數LLM

    話:基于歷史回答圖中女孩頭發和衣服分別是什么顏色 上一次我們詳細講解在RK3576上部署模態模型的案例,這次將繼續講解輪對話的部署流程。整體流程基于 rknn-llm 里的
    發表于 09-05 17:25

    淺析模態標注對大模型應用落地的重要性與標注實例

    ?在人工智能邁向AGI通用智能的關鍵道路上,大模型正從單一的文本理解者,演進為能同時看、聽、讀、想的“多面手”。驅動這一進化的核心燃料,正是高質量的模態數據,而將原始數據轉化為“機器可讀教材
    的頭像 發表于 09-05 13:49 ?2285次閱讀

    商湯日日新SenseNova融合模態模型 國內首家獲得最高評級的大模型

    近日,中國信息通信研究院(以下簡稱“中國信通院”)完成可信AI模態模型首輪評估。 商湯日日新SenseNova融合模態模型在所有
    的頭像 發表于 06-11 11:57 ?1419次閱讀

    愛芯通元NPU適配Qwen2.5-VL-3B視覺模態模型

    熟悉愛芯通元NPU的網友很清楚,從去年開始我們在端側模態模型適配上一直處于主動緊跟的節奏。先后適配了國內最早開源的模態大模MiniCP
    的頭像 發表于 04-21 10:56 ?3154次閱讀
    愛芯通元NPU適配Qwen2.5-VL-3B視覺<b class='flag-5'>多</b><b class='flag-5'>模態</b>大<b class='flag-5'>模型</b>

    海康威視發布模態模型AI融合巡檢超腦

    基于海康觀瀾大模型技術體系,海康威視推出新一代模態模型AI融合巡檢超腦,全面升級人、車、行為、事件等算法,為行業帶來全新的
    的頭像 發表于 04-17 17:12 ?1624次閱讀

    移遠通信智能模組全面接入模態AI大模型,重塑智能交互新體驗

    隨著千行百業數智化進程的不斷加速,模態AI大模型的應用需求不斷攀升,圖像、語音、視頻等多樣化的交互方式正逐漸成為推動行業變革的新動力。 ? 3月20日,全球物聯網整體解決方案供應商移遠通信宣布,其
    發表于 03-21 14:12 ?534次閱讀
    移遠通信智能模組全面接入<b class='flag-5'>多</b><b class='flag-5'>模態</b>AI大<b class='flag-5'>模型</b>,重塑智能交互新體驗

    移遠通信智能模組全面接入模態AI大模型,重塑智能交互新體驗

    隨著千行百業數智化進程的不斷加速,模態AI大模型的應用需求不斷攀升,圖像、語音、視頻等多樣化的交互方式正逐漸成為推動行業變革的新動力。3月20日,全球物聯網整體解決方案供應商移遠通信宣布,其全系
    的頭像 發表于 03-20 19:03 ?827次閱讀
    移遠通信智能模組全面接入<b class='flag-5'>多</b><b class='flag-5'>模態</b>AI大<b class='flag-5'>模型</b>,重塑智能交互新體驗