此前,8月28-30日,2025百度云智大會在北京舉辦。在算力平臺專題論壇上,格靈深瞳技術副總裁、算法研究院院長馮子勇分享了《視覺基座:通向世界模型之路——格靈深瞳Glint-MVT讓AI看懂世界》主題演講,從熱點話題“世界模型”引入,介紹格靈深瞳自研視覺基礎模型Glint-MVT的發展脈絡和技術亮點,講述視覺模型基座如何讓AI理解復雜世界。
此次分享的主角:Glint-MVT(Margin-based pretrained Vision Transformer),是格靈深瞳靈感實驗室自研的視覺基礎模型。自2023年發布MVT v1.0以來,模型逐步迭代,在今年7月發布了MVT v1.5,同時MVT v2.0也籌備中。
MVT的誕生:引入間隔Softmax函數
MVT最大的技術創新性在于,團隊應用基于間隔的Softmax損失函數進行模型訓練。Softmax損失函數主要應用于分類訓練,而基于間隔的Softmax(Margin-based Softmax),可以讓模型提取的特征更具區分度,提升視覺編碼器的能力。
靈感團隊將這一函數特性應用在視覺基礎模型訓練上,推出MVT v1.0,構建起視覺理解的堅實基礎。
在MVT v1.0訓練過程中,團隊通過特征聚類的方法,為4億無標注圖片打上偽標簽,形成100萬個類別。為解決偽標簽類別太多和標簽噪聲的問題,團隊提出了標簽采樣的方法,不僅大量減少卡間通信時延,還降低了標簽噪聲對訓練精度的影響,帶來訓練效果和模型性能的雙重提升。
從MVT v1.0到 v1.1:突破單標簽限制
在圖像識別過程中,一幅圖像通常包含多個物體,對應著多個標簽。因此,格靈深瞳將單標簽升級為多標簽,提升圖像編碼器的表達能力,由此得到MVT v1.1。
MVT v1.1可識別圖像中的多個物體,這一能力提升源自損失函數的優化。靈感團隊在1.0版softmax公式的基礎上進行簡單修改,讓多個正標簽參與計算;在工程上,由讀取一個正類別的中心特征變成讀取固定多個正類別的中心特征。
MVT v1.5:局部和文字特征再增強
隨著下游任務對預訓練模型能力的更高要求,靈感團隊增強了模型對局部特征和文字特征的表達能力,推出MVT v1.5。

在實現方法上,團隊利用專家分割模型和OCR模型,生成局部數據偽標簽,得到20億局部區域和4億文字區域。同時,團隊提出了RegionAttention的方法——利用Mask Attention機制,更高效地提取局部區域特征。從檢測、分割等下游任務表現上看,MVT v1.5的多項分數高于SigLIP等模型。

MVT v1.5(RICE)在OCR任務上的表現
靈感團隊將MVT v1.5應用到VLM開源框架LLaVA-NeXT和LLaVA-OneVision中。對比其他視覺編碼器,如OpenAI的CLIP、谷歌的SigLIP、蘋果的DFN5B和AIMv2,MVT v1.5在OCR任務上表現更優。這表明MVT v1.5在局部和文字特征上具有更好的表達能力。
MVT v2.x:圖片視頻統一支持
人類和環境的交互以及任務完成,不只是一張張離散的圖片,而是一個時空連續的視頻流。下一步,靈感團隊計劃對視頻進行高效編碼,推出統一支持圖片視頻的視覺編碼器MVT v2.x,提升視頻特征表達能力。
-
AI
+關注
關注
91文章
39755瀏覽量
301352 -
百度
+關注
關注
9文章
2377瀏覽量
94859 -
格靈深瞳
+關注
關注
1文章
90瀏覽量
5954
原文標題:格靈深瞳如何打造視覺模型基座?Glint-MVT成長記
文章出處:【微信號:shentongzhineng,微信公眾號:格靈深瞳】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
格靈深瞳視覺基礎模型Glint-MVT的發展脈絡
評論