今天,商湯科技發(fā)布一篇最新技術(shù)博客 NEO-unify: 原生架構(gòu)打造端到端多模態(tài)理解與生成統(tǒng)一模型(NEO-unify: Building Native Multimodal Unified Models End to End)
這篇博客深入解讀NEO-unify:一項旨在從底層統(tǒng)一多模態(tài)理解與生成的端到端原生架構(gòu)。
當(dāng)前,多模態(tài)模型普遍采用“視覺編碼器(VE)用于理解,變分自編碼器(VAE)用于生成”的組合式設(shè)計。這套范式雖行之有效,卻也內(nèi)在割裂了感知與創(chuàng)造,常面臨模塊協(xié)同與效率權(quán)衡的挑戰(zhàn)。
我們能否更進(jìn)一步,讓AI像人一樣,直接從最原始的像素和文字中,統(tǒng)一地進(jìn)行學(xué)習(xí)、理解與生成?這正是NEO-unify嘗試回答的根本問題。它摒棄了傳統(tǒng)的VE與VAE,首次構(gòu)建了一個真正的端到端原生統(tǒng)一模型,在同一個架構(gòu)內(nèi)直接處理像素與文本,并在此基礎(chǔ)上協(xié)同完成理解與生成任務(wù)。初步研究成果令人振奮,該設(shè)計在保持強大語義理解與細(xì)節(jié)恢復(fù)能力的同時,顯著提升了訓(xùn)練與計算效率。
這項技術(shù)將如何為生成式AI打開新的想象?讓我們一同展開探討。
《NEO-unify:原生架構(gòu)打造端到端多模態(tài)理解與生成統(tǒng)一模型》
英文博客地址:
https://huggingface.co/blog/sensenova/neo-unify
中文博客地址:
https://www.sensetime.com/cn/news-detail/51170543?categoryId=72
當(dāng)前多模態(tài)智能架構(gòu)困境
長期以來,多模態(tài)研究已形成一種默認(rèn)范式:視覺編碼器(Vision Encoder, VE) 負(fù)責(zé)感知與理解,而變分自編碼器(Variational Autoencoder, VAE) 則用于內(nèi)容生成。近期的一些工作嘗試構(gòu)建共享編碼器,但這種折衷往往引入新的結(jié)構(gòu)性設(shè)計權(quán)衡。
由此回到第一性原理:構(gòu)建一體化模型直接處理原生輸入,即像素本身與文字本身。商湯科技聯(lián)合南洋理工大學(xué),提出一種全新的架構(gòu)范式:NEO-unify(preview),一個原生、統(tǒng)一、端到端的多模態(tài)模型架構(gòu)。它不僅越過了當(dāng)前視覺表征的爭論,也擺脫了預(yù)訓(xùn)練先驗和規(guī)模定律瓶頸的限制。最關(guān)鍵的是:不需要 VE,也不需要 VAE。
我們正擴大規(guī)模、持續(xù)迭代。更多模型與開源成果,將很快與大家見面。
NEO-unify原生一體化架構(gòu)新范式

NEO-unify 第一次邁向真正的端到端統(tǒng)一框架,能夠直接從近乎無損的信息輸入中學(xué)習(xí),并由模型自身塑造內(nèi)部表征空間。首先,引入近似無損的視覺接口,用于統(tǒng)一圖像的輸入與輸出表示;其次,采用原生混合Transformer(Mixture-of-Transformer,MoT)架構(gòu),使理解與生成能夠在同一體系中協(xié)同進(jìn)行;最終,通過統(tǒng)一學(xué)習(xí)框架實現(xiàn)跨模態(tài)訓(xùn)練:文本采用自回歸交叉熵目標(biāo),視覺通過像素流匹配進(jìn)行優(yōu)化。
模型效果
1. 定量結(jié)果分析


2. 生圖效果展示
技術(shù)發(fā)現(xiàn)
1. 無編碼器設(shè)計能夠同時保留抽象語義與細(xì)粒度表征
[圖像重建任務(wù)]
我們先前的工作NEO(Diao et al., ICLR 2026)表明,原生端到端模型同樣能夠?qū)W習(xí)到豐富的語義表征。在此基礎(chǔ)上,我們進(jìn)一步觀察到一個有趣的現(xiàn)象:即使在凍結(jié)理解分支的情況下,獨立的生成分支仍然能夠從表示中抽取并恢復(fù)細(xì)粒度的視覺細(xì)節(jié)。
基于這一發(fā)現(xiàn),我們訓(xùn)練了NEO-unify(2B)。在初步 9 萬步預(yù)訓(xùn)練后,模型在 MS COCO 2017 上取得31.56 PSNR和0.85 SSIM,而Flux VAE的對應(yīng)指標(biāo)為32.65和0.91。這一結(jié)果表明,即使不依賴預(yù)訓(xùn)練VE或VAE,近似無損的原生輸入仍能夠同時支持高質(zhì)量的語義理解與像素級細(xì)節(jié)保真。
域外圖像重建(2B NEO-unify,理解分支凍結(jié))
[圖像編輯任務(wù)]
據(jù)此,我們進(jìn)一步開展探索:NEO-unify將所有全模態(tài)條件信息統(tǒng)一輸入到理解分支,而生成分支僅負(fù)責(zé)生成新的圖像。
即使在凍結(jié)理解分支的情況下,NEO-unify(2B)仍展現(xiàn)出強大的圖像編輯能力,同時顯著減少了輸入圖像令牌的數(shù)量。在使用開源生成與圖像編輯數(shù)據(jù)集并進(jìn)行初步 6 萬步混合訓(xùn)練后,模型在ImgEdit基準(zhǔn)上取得3.32的成績,且理解分支在整個訓(xùn)練過程中保持凍結(jié)。
小規(guī)模數(shù)據(jù)驗證(2B NEO-unify,理解分支凍結(jié))
ImgEdit提示詞編輯(2B NEO-unify,理解分支凍結(jié))
2. 無編碼器架構(gòu)與 MoT 主干高度協(xié)同大幅降低內(nèi)在沖突
借助預(yù)訓(xùn)練的理解分支與生成分支,NEO-unify使用相同的中期訓(xùn)練(MT)與 監(jiān)督微調(diào)(SFT) 數(shù)據(jù)進(jìn)行聯(lián)合訓(xùn)練。即使在較低的數(shù)據(jù)比例和損失權(quán)重下,理解能力依然保持穩(wěn)定,而生成能力則收斂很快。二者在 MoT 主干中協(xié)同提升,整體沖突極小。

3. 無編碼器架構(gòu),展現(xiàn)更高數(shù)據(jù)訓(xùn)練效率
此外,我們首先進(jìn)行 web-scale 預(yù)訓(xùn)練,隨后在多樣且高質(zhì)量的數(shù)據(jù)語料上依次進(jìn)行中期訓(xùn)練(MT) 和 監(jiān)督微調(diào)(SFT)。與 Bagel 模型相比,NEO-unify 展現(xiàn)出更高的數(shù)據(jù)訓(xùn)練效率,在使用更少訓(xùn)練 token 的情況下取得了更優(yōu)的性能。

未來展望
這不僅僅是一種模型架構(gòu)探索,更是邁向下一代智能形態(tài)的一步:
? 感知與生成交織的閉環(huán)
? 全模態(tài)推理
? 視覺推理
? 空間智能
? 世界模型
? …
一條新的路線圖正在展開:模型不再在模態(tài)之間進(jìn)行轉(zhuǎn)換,而是能夠原生地跨模態(tài)思考。多模態(tài) AI 不再只是連接不同系統(tǒng),而是構(gòu)建一個從未割裂的統(tǒng)一智能體,并讓所需能力從其內(nèi)部自然涌現(xiàn)。
-
AI
+關(guān)注
關(guān)注
91文章
39881瀏覽量
301533 -
模型
+關(guān)注
關(guān)注
1文章
3756瀏覽量
52128 -
商湯科技
+關(guān)注
關(guān)注
8文章
610瀏覽量
37563
原文標(biāo)題:技術(shù)博客:無需編解碼器,NEO-unify如何打造原生視覺語言理解與生成
文章出處:【微信號:SenseTime2017,微信公眾號:商湯科技SenseTime】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
基于NVIDIA GPU加速端點使用千問3.5 VLM開發(fā)原生多模態(tài)智能體
商湯科技美顏Agent正式上線
商湯大裝置SenseCore原生AI云平臺榮獲軟件供應(yīng)鏈安全能力評估認(rèn)證
商湯大裝置SenseCore原生AI云平臺榮獲信通院5A卓越級認(rèn)證
商湯科技日日新V6.5榮獲2025年多模態(tài)大模型全國第一
商湯科技推出實時語音驅(qū)動數(shù)字人技術(shù)SekoTalk
商湯科技正式發(fā)布并開源全新多模態(tài)模型架構(gòu)NEO
商湯科技持續(xù)引領(lǐng)中國原生AI云廠商陣營
商湯如影圖片數(shù)字人技術(shù)閃耀央視舞臺
商湯科技與上海徐匯區(qū)文旅局達(dá)成合作
芯科科技Unify軟件開發(fā)套件更新
?VLM(視覺語言模型)?詳細(xì)解析
模型原生操作系統(tǒng):機遇、挑戰(zhàn)與展望 CCCF精選
商湯科技NEO-unify如何打造原生視覺語言理解與生成
評論