[首發(fā)于智駕最前沿微信公眾號]最近理想汽車發(fā)布的MindVLA-o1引起了不少人的討論,今天就詳細(xì)和大家聊聊理想的MindVLA-o1到底實(shí)現(xiàn)了什么功能。其實(shí)從理想汽車的介紹中,MindVLA-o1的核心邏輯非常明確,即它不再把自動駕駛看作一個(gè)由感知、預(yù)測、規(guī)劃組成的拼圖游戲,而是試圖通過一個(gè)統(tǒng)一的視覺-語言-動作模型,直接去模擬人類司機(jī)的駕駛邏輯。

圖片源自:理想汽車
這種改變意味著車子不再是單純地執(zhí)行指令,而是在理解物理世界的基礎(chǔ)上進(jìn)行思考。
傳統(tǒng)自動駕駛系統(tǒng)各功能其實(shí)是分開的,感知負(fù)責(zé)看見,規(guī)劃負(fù)責(zé)決策,控制負(fù)責(zé)執(zhí)行。這樣做的好處是結(jié)構(gòu)清楚,壞處也很明顯,就是各個(gè)模塊之間容易割裂,在遇到復(fù)雜場景時(shí),信息傳遞不夠順,系統(tǒng)也很難形成統(tǒng)一理解。
MindVLA-o1做的就是盡量把這些能力放到一個(gè)模型里,讓它不只是“看見了什么”,還要“明白這意味著什么”,并進(jìn)一步判斷“接下來該怎么做”。

從“看見路”到“理解路”
MindVLA-o1在感知層面不是單純把圖像識別做得更細(xì),而是把三維空間理解補(bǔ)起來。理想采用以視覺為核心的3D ViT Encoder,同時(shí)把激光雷達(dá)點(diǎn)云當(dāng)作三維幾何提示,幫助模型更好地理解真實(shí)空間結(jié)構(gòu)。這個(gè)做法的價(jià)值在于它讓模型不只是識別前方有車、有行人、有障礙物,還能更穩(wěn)定地把這些目標(biāo)放到具體的三維關(guān)系里去理解。

圖片源自:理想汽車
這一步其實(shí)很關(guān)鍵,因?yàn)樽詣玉{駛真正難的地方,從來不只是“有沒有看到”,而是“有沒有看懂”。同一個(gè)目標(biāo),在不同距離、不同遮擋、不同道路結(jié)構(gòu)下,系統(tǒng)對它的判斷會完全不同。把語義信息和三維空間信息合到一起,模型對場景的把握才會更完整。
理想還引入了前饋式3DGS表示,把靜態(tài)環(huán)境和動態(tài)物體分開建模,再通過下一幀預(yù)測作為自監(jiān)督信號,讓模型同時(shí)學(xué)到深度、語義和運(yùn)動變化。這樣做的結(jié)果,是模型對環(huán)境的理解不再停留在單幀圖像,而是帶上了時(shí)間維度。
智駕最前沿以為,這部分其實(shí)是讓自動駕駛從二維識別往三維場景理解邁了一大步。它解決了自動駕駛一個(gè)很現(xiàn)實(shí)的問題,即車在路上面對的從來不是靜態(tài)圖片,而是連續(xù)變化的空間。

從“判斷當(dāng)下”到“推演下一秒”
如果說空間理解解決的是“眼前看得清”,那多模態(tài)思考解決的就是“接下來怎么想”。理想在MindVLA-o1里引入了預(yù)測式隱世界模型,讓模型能夠在隱空間里模擬未來的場景變化。
它不是簡單地做一個(gè)下一幀預(yù)測,而是把世界模型、多模態(tài)推理和駕駛行為聯(lián)合起來訓(xùn)練,讓模型在做決策之前,先在內(nèi)部把未來的可能性推演一遍。
這一點(diǎn)很像人類駕駛員的真實(shí)思考方式。人類駕駛員并不會只看當(dāng)前這一秒的畫面,而是會順著路況、車速、交通參與者的動作,提前判斷接下來可能發(fā)生什么。
MindVLA-o1想做的,就是把這種能力放進(jìn)模型里。它通過海量視頻預(yù)訓(xùn)練隱世界詞元,再持續(xù)強(qiáng)化世界模型推演能力,最后把這些能力和駕駛動作對齊。這樣一來,模型在面對復(fù)雜場景時(shí),不只是做當(dāng)下反應(yīng),還能提前形成對未來幾秒的判斷。
這也是智駕最前沿認(rèn)為MindVLA-o1最有價(jià)值的地方之一。很多大模型講“會思考”,但在自動駕駛里,真正有用的思考不是抽象推理,而是對未來場景變化的預(yù)判。
車速、距離、軌跡、相對位置,這些東西都要求模型對時(shí)間有穩(wěn)定理解。只有把這種能力做進(jìn)了系統(tǒng)里,才讓“想得更深”不只是口號。

從“輸出動作”到“穩(wěn)定開車”
自動駕駛最后要實(shí)現(xiàn)的一定要落到動作上,而動作生成往往最容易暴露系統(tǒng)短板。理想在這里做的是統(tǒng)一行為生成。
MindVLA-o1使用VLA-MoE架構(gòu),并加入Action Expert,從3D場景特征、導(dǎo)航目標(biāo)和駕駛指令中提取信息,再結(jié)合前面的多模態(tài)思考,直接生成高精度駕駛軌跡。
它不是把幾個(gè)模塊拼起來再湊一個(gè)結(jié)果,而是盡量讓“理解”和“動作”之間少一些中間損耗。

圖片源自:網(wǎng)絡(luò)
在這個(gè)方面理想還有兩個(gè)很重要的設(shè)計(jì)。一個(gè)是并行解碼,也就是一次性生成所有軌跡點(diǎn),提升實(shí)時(shí)性。另一個(gè)是離散擴(kuò)散,用多輪迭代的方式去優(yōu)化軌跡,讓軌跡更連續(xù)、更穩(wěn)定,也更符合車輛動力學(xué)約束。
這個(gè)部分聽起來不像感知和推理那么“高大上”,但它恰恰決定了車開起來穩(wěn)不穩(wěn)。模型能不能在復(fù)雜場景下給出平順、可執(zhí)行、可控的動作,最終還是看這一層。
智駕最前沿覺得,MindVLA-o1在動作生成上的意義不在于“更會開車”,而在于它開始像一個(gè)真正的駕駛系統(tǒng),而不是一個(gè)只會給答案的模型。
自動駕駛最怕的其實(shí)不是看不見,而是看見了卻做出不穩(wěn)定、不連貫的動作。統(tǒng)一行為生成解決的,正是這個(gè)問題。

MindVLA-o1是一套會進(jìn)化的系統(tǒng)?
MindVLA-o1不只是一個(gè)靜態(tài)模型,它背后還有一整套閉環(huán)強(qiáng)化學(xué)習(xí)和軟硬件協(xié)同設(shè)計(jì)。理想把傳統(tǒng)逐步優(yōu)化式重建,升級成前饋式場景重建,讓系統(tǒng)能更快生成大規(guī)模、高保真的駕駛場景,再結(jié)合世界模擬器持續(xù)訓(xùn)練和優(yōu)化。
這個(gè)思路的核心,不是靠一次訓(xùn)練定終局,而是讓模型在仿真和真實(shí)世界之間不斷循環(huán),持續(xù)修正自己。
與此同時(shí),理想還把模型設(shè)計(jì)和硬件約束放到一起考慮。通過Roofline模型分析計(jì)算能力和內(nèi)存帶寬限制,再評估近2000種架構(gòu)配置,最終找出精度和推理延遲之間的平衡點(diǎn)。

圖片源自:理想汽車
這個(gè)動作很重要。因?yàn)樽詣玉{駛不是實(shí)驗(yàn)室里的模型比賽,模型再強(qiáng),放不上車、跑不動、調(diào)不快,都沒有意義。MindVLA-o1能被認(rèn)真討論,不只是因?yàn)樗岢隽诵陆Y(jié)構(gòu),更因?yàn)樗选霸趺瓷宪嚒边@件事擺到了同等重要的位置。
從這個(gè)角度看,MindVLA-o1真正實(shí)現(xiàn)的,不是單點(diǎn)突破,而是一整套面向物理世界智能的能力拼接起來了。
看得更遠(yuǎn),是三維空間理解;想得更深,是多模態(tài)思考;行得更穩(wěn),是統(tǒng)一行為生成;進(jìn)化更快,是閉環(huán)強(qiáng)化學(xué)習(xí);部署更高效,是軟硬件協(xié)同。這五件事合在一起,才構(gòu)成了它的完整價(jià)值。

結(jié)語
如果只把MindVLA-o1看成一套自動駕駛新模型,理解會太窄。理想真正想表達(dá)的,是自動駕駛正在從“功能系統(tǒng)”走向“物理世界智能系統(tǒng)”。它現(xiàn)在當(dāng)然還主要服務(wù)于車,但它的結(jié)構(gòu)已經(jīng)不再局限于車。視覺、語言、行動統(tǒng)一之后,模型就有了擴(kuò)展到機(jī)器人等物理系統(tǒng)的可能。
審核編輯 黃宇
-
正激理想
+關(guān)注
關(guān)注
0文章
2瀏覽量
6355 -
自動駕駛
+關(guān)注
關(guān)注
794文章
14922瀏覽量
180464
發(fā)布評論請先 登錄
理想汽車發(fā)布下一代自動駕駛基礎(chǔ)模型MindVLA-o1
如何構(gòu)建適合自動駕駛的世界模型?
Transformer如何讓自動駕駛大模型獲得思考能力?
如何設(shè)計(jì)好自動駕駛ODD?
端到端是怎么讓自動駕駛更像老司機(jī)的?
汽車行業(yè)迎來L3級自動駕駛上路潮!華為、小鵬、理想搶跑
汽車行業(yè)迎L3自動駕駛上路潮,華為、小鵬、理想搶跑#晶揚(yáng)電子 #自動駕駛 #L3級自動駕駛 #智能駕駛
自動駕駛中毫米波雷達(dá)到底有何作用?
不同等級的自動駕駛技術(shù)要求上有何不同?
卡車、礦車的自動駕駛和乘用車的自動駕駛在技術(shù)要求上有何不同?
自動駕駛安全基石:ODD
理想MindVLA-o1讓自動駕駛更像人?
評論