伦伦影院久久影视,天天操天天干天天射,ririsao久久精品一区 ,一本大道香蕉大久在红桃,999久久久免费精品国产色夜,色悠悠久久综合88,亚洲国产精品久久无套麻豆,亚洲香蕉毛片久久网站,一本一道久久综合狠狠老

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

格靈深瞳多模態大模型Glint-ME讓圖文互搜更精準

格靈深瞳 ? 來源:格靈深瞳 ? 2025-11-02 15:56 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在電商、安防等場景下,圖文互搜應用廣泛。隨著以CLIP為代表的多模態表征方法相繼提出,過去單一模態搜索(文搜文、圖搜圖)被突破,模型可以同時理解文本、圖像、音頻乃至視頻,實現跨模態檢索。

與此同時,CLIP框架也存在多種技術局限性。10月25日,在由DataFun技術社區策劃的DACon數智大會分論壇上,格靈深瞳技術副總裁、靈感實驗室負責人馮子勇博士分享專題演講:《多模態特征嵌入的數據生成和技術前沿》,介紹多模態基礎模型的應用場景、技術短板,以及靈感團隊的解題方法與技術細節——靈感圖文多模態表征模型系列(Glint-ME)。

“大模型前沿技術探索”分論壇現場

數據生成:豐富又優質的多模態表征數據

多模態模型訓練需文本和圖片成對出現,但現有數據文本質量不佳。為此,靈感團隊提出了一個多樣化描述生成框架,將Transformer的有效并行訓練與RNN的有效推理相結合,利用大型語言模型來精煉原始文本、合成字幕和檢測標簽等信息,以產生語義豐富的描述文本。

為解決訓練數據冗余的問題,靈感團隊提出了一種簡單但有效的圖像語義平衡方法,能夠在保持卓越性能的同時,從LAION 400M數據集中移除43.7%的圖像-文本對。

為挖掘現實中大量未配對的多模態數據,例如圖文交織的文檔,靈感團隊提出了一種有效且可擴展的多模態交錯文檔轉換范式,構建了RealSyn數據集,可以將此類數據用于CLIP預訓練。

團隊首先建立了一套真實數據提取流程,能夠從圖文交錯的文檔中提取高質量的圖像和文本。在此基礎上,構建了檢索增強生成框架,基于高質量的文本和圖片庫,為每一張圖片匹配現實文本和合成文本。

RealSyn數據集包含15M、30M、100M三個規模。大量實驗證明:RealSyn具有良好的數據縮放和模型縮放能力,相關數據、代碼和模型均已開源:

技術報告:

https://arxiv.org/abs/2502.12513

代碼:

https://github.com/deepglint/RealSyn

項目主頁:

https://garygutc.github.io/RealSyn/

數據集:

https://huggingface.co/datasets/Kaichengalex/RealSyn100M

多模態特征嵌入模型:更強大的跨模態表達能力

盡管最近的多模態大型語言模型(MLLMs)在通用視覺-語言理解方面取得了顯著進展,但在學習可遷移的多模態表征方面,潛力尚未充分發揮。

為此,靈感團隊提出了一個面向MLLMs的兩階段訓練框架UniME(Universal Multimodal Embedding,通用多模態嵌入),并優化迭代至V2版本——聚焦如何借助MLLMs強大的理解能力來助力統一多模態表征學習。

經過MMEB基準測試和在多個檢索任務(包括長短文本跨模態檢索和組合檢索)上的大量實驗,結果表明UniME-V2在多項任務中均實現了穩定的性能提升,展現了卓越的判別能力和組合理解能力。

64cf86cc-b643-11f0-8c8f-92fbcf53809c.png

UniME-V2在MMEB Benchmark的表現

6531cbfc-b643-11f0-8c8f-92fbcf53809c.png

UniME-V2在長短文本跨模態檢索和組合檢索上優于UniME-V1和其他模型

UniME系列論文、代碼、權重均已開源:

UniME-V1

技術報告:

https://arxiv.org/abs/2504.17432

代碼:

https://github.com/deepglint/UniME

模型:

https://huggingface.co/DeepGlint-AI/UniME-LLaVA-OneVision-7B

項目主頁:

https://garygutc.github.io/UniME/

UniME-V2

技術報告:

https://arxiv.org/abs/2504.17432

代碼:

https://github.com/GaryGuTC/UniME-v2

模型:

https://huggingface.co/collections/TianchengGu/unime-v2-68ef708ac48066353b4a0806

項目主頁:

https://garygutc.github.io/UniME-v2/

近期,靈感實驗室聯合LMMs-Lab發布了全流程開源的多模態大模型LLaVA-OneVision-1.5,復現路徑清晰,8B模型預訓練只需4天、1.6萬美元。

LLaVA-OneVision-1.5

技術報告:

https://arxiv.org/abs/2509.23661

代碼:

https://github.com/EvolvingLMMs-Lab/LLaVA-OneVision-1.5

模型:

https://huggingface.co/lmms-lab/LLaVA-OneVision-1.5-8B-Instruct

Demo:

https://huggingface.co/spaces/lmms-lab/LLaVA-OneVision-1.5

數據集:

Pretrain Data:https://huggingface.co/datasets/lmms-lab/LLaVA-One-Vision-1.5-Mid-Training-85M

Instruct Data:https://huggingface.co/datasets/lmms-lab/LLaVA-OneVision-1.5-Insturct-Data

未來,靈感實驗室將持續聚焦視覺及多模態特征表達與應用,推動多模態技術在多元化應用場景的落地與創新。歡迎關注團隊的最新技術進展。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 格靈深瞳
    +關注

    關注

    1

    文章

    94

    瀏覽量

    6004
  • 大模型
    +關注

    關注

    2

    文章

    3726

    瀏覽量

    5257

原文標題:AI 如何學會“看圖說話”?多模態大模型 Glint-ME 讓圖文互搜更精準 | Glint Tech

文章出處:【微信號:shentongzhineng,微信公眾號:格靈深瞳】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    亮相2026 ITES深圳工業展

    3月31日-4月3日,第27屆ITES深圳工業展暨高端裝備產業集群展在深圳寶安舉行。在工創聯企業家交流會圓桌環節,CEO吳一洲圍繞主題“AI的生產力在哪里”,分享AI技術如何與
    的頭像 發表于 04-08 15:36 ?183次閱讀

    與佳都科技達成授權合作協議

    3月27日,與佳都科技集團股份有限公司(簡稱“佳都科技”)達成授權合作協議,雙方將圍繞
    的頭像 發表于 03-30 11:21 ?206次閱讀

    2025年度關鍵詞回顧

    過去一年,深耕視覺算法與模態模型,自研視
    的頭像 發表于 02-24 17:17 ?1386次閱讀

    聯合氪信科技推出模態AI金融安全一體機

    12月26日,AI賦能千行百業超級聯賽“A超之夜”在廣西大學舉行。自治區黨委書記、自治區人大常委會主任陳剛出席并講話。自治區主席韋韜出席。活動現場,聯合氪信科技正式發布
    的頭像 發表于 01-05 10:10 ?374次閱讀

    亮相摩爾線程首屆MUSA開發者大會

    Studio,通過自研的視覺模型基座Glint-MVT、Adapter Tuning訓
    的頭像 發表于 12-26 14:52 ?488次閱讀

    受邀參加百度世界2025大會

    11月13日,百度世界2025大會將在北京國家會議中心二期舉行。在分論壇環節,靈感實驗室負責人馮子勇、
    的頭像 發表于 11-14 15:47 ?736次閱讀

    邀您相約百度世界2025大會

    11月13日,百度世界2025大會將在北京國家會議中心二期舉行,主題為“效果涌現 | AI In Action”。在公開課環節,副總裁羅楷、研發副總裁閆梓禎將分別圍繞金融視覺演
    的頭像 發表于 11-12 16:57 ?975次閱讀

    與奧瑞德達成戰略合作

    近日,與奧瑞德光電股份有限公司達成戰略合作。雙方將重點圍繞大模型技術應用及解決方案,整合各自優勢,向國內外客戶提供高效能的智能算力服
    的頭像 發表于 10-11 17:32 ?1899次閱讀

    視覺基礎模型Glint-MVT的發展脈絡

    此前,8月28-30日,2025百度云智大會在北京舉辦。在算力平臺專題論壇上,技術副總裁、算法研究院院長馮子勇分享了《視覺基座:通向世界模型
    的頭像 發表于 09-05 17:13 ?1808次閱讀
    <b class='flag-5'>格</b><b class='flag-5'>靈</b><b class='flag-5'>深</b><b class='flag-5'>瞳</b>視覺基礎<b class='flag-5'>模型</b><b class='flag-5'>Glint</b>-MVT的發展脈絡

    加入海光產業生態合作組織

    近日,正式加入海光產業生態合作組織(簡稱“光合組織”),成為該組織成員單位。
    的頭像 發表于 08-25 16:10 ?964次閱讀

    智慧金融產品家族全新升級

    智能體時代,如何打造能用、好用、有持續成長性的智慧金融產品?這是探索 AI+金融深度融合的實踐方向。
    的頭像 發表于 08-19 17:53 ?1394次閱讀

    智慧體育產品全新升級

    智慧體育產品家族,近期迎來全新升級。
    的頭像 發表于 08-14 11:51 ?1574次閱讀

    視覺基礎模型Glint-MVT升級

    近日,靈感實驗室和華為倫敦研究所發布最新版視覺基礎模型——Glint-MVT v1.5(
    的頭像 發表于 07-31 11:01 ?1591次閱讀
    <b class='flag-5'>格</b><b class='flag-5'>靈</b><b class='flag-5'>深</b><b class='flag-5'>瞳</b>視覺基礎<b class='flag-5'>模型</b><b class='flag-5'>Glint</b>-MVT升級

    與您相約WAIC 2025

    7月26-29日,2025世界人工智能大會(WAIC)將在上海世博中心和世博展覽館舉行。將在第一現場,聯合華為昇騰、百度、飛騰等生態合作伙伴,展示金融全系列整體解決方案、墨刃A
    的頭像 發表于 07-26 16:14 ?1193次閱讀

    六篇論文入選ICCV 2025

    近日,國際頂級會議ICCV 2025(計算機視覺國際大會)公布論文錄用結果,團隊共有6篇論文入選。
    的頭像 發表于 07-07 18:23 ?1664次閱讀