国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

格靈深瞳視覺基礎模型Glint-MVT的發展脈絡

格靈深瞳 ? 來源:格靈深瞳 ? 2025-09-05 17:13 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

此前,8月28-30日,2025百度云智大會在北京舉辦。在算力平臺專題論壇上,格靈深瞳技術副總裁、算法研究院院長馮子勇分享了《視覺基座:通向世界模型之路——格靈深瞳Glint-MVT讓AI看懂世界》主題演講,從熱點話題“世界模型”引入,介紹格靈深瞳自研視覺基礎模型Glint-MVT的發展脈絡和技術亮點,講述視覺模型基座如何讓AI理解復雜世界。

此次分享的主角:Glint-MVT(Margin-based pretrained Vision Transformer),是格靈深瞳靈感實驗室自研的視覺基礎模型。自2023年發布MVT v1.0以來,模型逐步迭代,在今年7月發布了MVT v1.5,同時MVT v2.0也籌備中。

MVT的誕生:引入間隔Softmax函數

MVT最大的技術創新性在于,團隊應用基于間隔的Softmax損失函數進行模型訓練。Softmax損失函數主要應用于分類訓練,而基于間隔的Softmax(Margin-based Softmax),可以讓模型提取的特征更具區分度,提升視覺編碼器的能力。

靈感團隊將這一函數特性應用在視覺基礎模型訓練上,推出MVT v1.0,構建起視覺理解的堅實基礎。

在MVT v1.0訓練過程中,團隊通過特征聚類的方法,為4億無標注圖片打上偽標簽,形成100萬個類別。為解決偽標簽類別太多和標簽噪聲的問題,團隊提出了標簽采樣的方法,不僅大量減少卡間通信時延,還降低了標簽噪聲對訓練精度的影響,帶來訓練效果和模型性能的雙重提升。

從MVT v1.0到 v1.1:突破單標簽限制

在圖像識別過程中,一幅圖像通常包含多個物體,對應著多個標簽。因此,格靈深瞳將單標簽升級為多標簽,提升圖像編碼器的表達能力,由此得到MVT v1.1。

MVT v1.1可識別圖像中的多個物體,這一能力提升源自損失函數的優化。靈感團隊在1.0版softmax公式的基礎上進行簡單修改,讓多個正標簽參與計算;在工程上,由讀取一個正類別的中心特征變成讀取固定多個正類別的中心特征。

MVT v1.5:局部和文字特征再增強

隨著下游任務對預訓練模型能力的更高要求,靈感團隊增強了模型對局部特征和文字特征的表達能力,推出MVT v1.5。

7f3286ea-87ea-11f0-8c8f-92fbcf53809c.png

RegionAttention技術方法示意圖

在實現方法上,團隊利用專家分割模型和OCR模型,生成局部數據偽標簽,得到20億局部區域和4億文字區域。同時,團隊提出了RegionAttention的方法——利用Mask Attention機制,更高效地提取局部區域特征。從檢測、分割等下游任務表現上看,MVT v1.5的多項分數高于SigLIP等模型。

7f923040-87ea-11f0-8c8f-92fbcf53809c.png

MVT v1.5(RICE)在OCR任務上的表現

靈感團隊將MVT v1.5應用到VLM開源框架LLaVA-NeXT和LLaVA-OneVision中。對比其他視覺編碼器,如OpenAI的CLIP、谷歌的SigLIP、蘋果的DFN5B和AIMv2,MVT v1.5在OCR任務上表現更優。這表明MVT v1.5在局部和文字特征上具有更好的表達能力。

MVT v2.x:圖片視頻統一支持

人類和環境的交互以及任務完成,不只是一張張離散的圖片,而是一個時空連續的視頻流。下一步,靈感團隊計劃對視頻進行高效編碼,推出統一支持圖片視頻的視覺編碼器MVT v2.x,提升視頻特征表達能力。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    91

    文章

    39755

    瀏覽量

    301352
  • 百度
    +關注

    關注

    9

    文章

    2377

    瀏覽量

    94859
  • 格靈深瞳
    +關注

    關注

    1

    文章

    90

    瀏覽量

    5954

原文標題:格靈深瞳如何打造視覺模型基座?Glint-MVT成長記

文章出處:【微信號:shentongzhineng,微信公眾號:格靈深瞳】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    2025年度關鍵詞回顧

    過去一年,深耕視覺算法與多模態大模型,自研視覺
    的頭像 發表于 02-24 17:17 ?1185次閱讀

    亮相摩爾線程首屆MUSA開發者大會

    Studio,通過自研的視覺模型基座Glint-M
    的頭像 發表于 12-26 14:52 ?400次閱讀

    受邀參加光合組織2025人工智能創新大會

    12月17-19日,光合組織2025人工智能創新大會(HAIC 2025)將在江蘇昆山舉行。作為海光產業生態合作組織(光合組織)的成員單位,將在現場展示智慧金融整體解決方案和
    的頭像 發表于 12-17 15:26 ?665次閱讀

    榮獲量子位2025人工智能年度領航企業

    12月10日,量子位發布“2025人工智能年度榜單”。入選“2025人工智能年度領航企業”。
    的頭像 發表于 12-17 15:23 ?534次閱讀

    受邀參加百度世界2025大會

    11月13日,百度世界2025大會將在北京國家會議中心二期舉行。在分論壇環節,靈感實驗室負責人馮子勇、
    的頭像 發表于 11-14 15:47 ?630次閱讀

    邀您相約百度世界2025大會

    11月13日,百度世界2025大會將在北京國家會議中心二期舉行,主題為“效果涌現 | AI In Action”。在公開課環節,副總裁羅楷、研發副總裁閆梓禎將分別圍繞金融
    的頭像 發表于 11-12 16:57 ?893次閱讀

    與奧瑞德達成戰略合作

    近日,與奧瑞德光電股份有限公司達成戰略合作。雙方將重點圍繞大模型技術應用及解決方案,整合各自優勢,向國內外客戶提供高效能的智能算力服
    的頭像 發表于 10-11 17:32 ?1781次閱讀

    加入海光產業生態合作組織

    近日,正式加入海光產業生態合作組織(簡稱“光合組織”),成為該組織成員單位。
    的頭像 發表于 08-25 16:10 ?836次閱讀

    智慧金融產品家族全新升級

    智能體時代,如何打造能用、好用、有持續成長性的智慧金融產品?這是探索 AI+金融深度融合的實踐方向。
    的頭像 發表于 08-19 17:53 ?1299次閱讀

    智慧體育產品全新升級

    智慧體育產品家族,近期迎來全新升級。
    的頭像 發表于 08-14 11:51 ?1439次閱讀

    視覺基礎模型Glint-MVT升級

    近日,靈感實驗室和華為倫敦研究所發布最新版視覺基礎模型——
    的頭像 發表于 07-31 11:01 ?1484次閱讀
    <b class='flag-5'>格</b><b class='flag-5'>靈</b><b class='flag-5'>深</b><b class='flag-5'>瞳</b><b class='flag-5'>視覺</b>基礎<b class='flag-5'>模型</b><b class='flag-5'>Glint-MVT</b>升級

    與您相約WAIC 2025

    7月26-29日,2025世界人工智能大會(WAIC)將在上海世博中心和世博展覽館舉行。將在第一現場,聯合華為昇騰、百度、飛騰等生態合作伙伴,展示金融全系列整體解決方案、墨刃A
    的頭像 發表于 07-26 16:14 ?1111次閱讀

    六篇論文入選ICCV 2025

    近日,國際頂級會議ICCV 2025(計算機視覺國際大會)公布論文錄用結果,團隊共有6篇論文入選。
    的頭像 發表于 07-07 18:23 ?1551次閱讀

    亮相AICon 2025全球人工智能開發與應用大會

    此前,6月27-28日,由極客邦科技旗下InfoQ中國主辦的“AICon全球人工智能開發與應用大會”在北京舉辦。作為行業領先的視覺AI公司,
    的頭像 發表于 07-05 16:15 ?1468次閱讀

    與百度智能云達成戰略合作,共筑AI算力新基建

    力底座,推動政務、金融、公共安全等領域的智能化升級。 百度智能云泛科技業務部總經理張瑋,銷售副總裁蘆斌代表雙方簽約,百度集團執行副總裁、百度智能云事業群總裁沈抖,
    的頭像 發表于 04-27 10:20 ?1310次閱讀