[首發于智駕最前沿微信公眾號]自動駕駛技術正處于發展的轉折點。過去十幾年間,行業長期依賴模塊化的技術路徑,即將駕駛任務拆解為感知、預測、規劃和控制四個獨立環節。這種結構雖然清晰,但在面對突發狀況時(長尾場景),會因規則覆蓋不足而表現僵化。
隨著大語言模型和視覺語言模型(VLM)的爆發,開發者們意識到,如果車輛能像人類一樣擁有常識,理解什么是“潮汐車道”,知道“救護車在后方鳴笛需要避讓”,那么自動駕駛的上限將得到極大提升。
然而,當真正將視覺語言模型引入座艙和駕駛系統后,一個新的問題出現了,模型雖然能言善辯,能解釋復雜的路況,卻無法精準地轉動方向盤。這種從“腦子懂了”到“手腳協調”的跨越,正是視覺-語言-動作模型(VLA)被推向臺前的主要原因。

視覺語言模型的語義底座與行動短板
視覺語言模型(VLM)在自動駕駛領域打破了感知的天花板。傳統的感知算法只能識別如汽車、行人或交通燈等預定義的標簽,而對于路邊一個形態奇特的充氣廣告人,或者地面上一攤反光的水漬,傳統模型將無法給出合理的解釋。
視覺語言模型通過在互聯網數據上進行預訓練,獲得了一種近乎于人類的常識推理能力。它不再僅將像素點分類,而是能夠理解場景中的深層邏輯。比如,它能識別出前方車輛開啟的雙閃燈意味著故障,并建議后車進行繞行,這種基于語義的推理能力是傳統規則算法難以企及的。
雖然視覺語言模型在環境建模和交互決策建議方面表現優異,但它在直接驅動車輛運行上依舊存在著先天不足,這主要體現在其輸出邏輯與物理世界控制指令之間的脫節上。目前的視覺語言模型大多是為文本生成而設計的,其輸出結果一般是自然語言,比如“我看到前方有行人,我應該減速”。

圖片源自:網絡
然而,對于車輛底盤而言,它需要的是具體的制動壓力、轉向扭矩或者是精確到分米的行駛軌跡點。這種從文本描述到物理操作的轉換過程,需要一個額外的翻譯模塊。這個模塊一旦出現理解偏差,或者因為模型之間無法進行聯合優化,就會導致信息在傳遞中丟失。這將造成了一個尷尬的現象,模型可能在語言層面正確識別了危險,但在實際操作中卻未能及時做出反應,這種現象被稱為行動鴻溝。
此外,視覺語言模型的實時性也是一大硬傷。在高速行駛的自動駕駛場景中,毫秒級的延遲就可能決定安全與否。主流的視覺語言模型通常擁有極大的參數量,在處理高分辨率圖像并生成連貫文本時,其推理延遲將達到數百毫秒甚至秒級,這遠遠無法滿足每秒需要進行數十次計算的實時控制需求。
由于視覺語言模型架構本身并不是為了輸出高頻、精確的控制信號而優化的,因此在很長一段時間里,其只能作為一種慢思考的插件,掛載在現有的自動駕駛系統旁提供參考,而無法真正主導駕駛過程。這種被動性限制了它在復雜動態環境下的應用潛力,從而促使研究者們尋求一種能夠將理解與行動深度耦合的新技術路徑。

視覺語言動作模型的一體化升級
視覺-語言-動作模型(VLA)的出現,本質上是將車輛的認知系統與執行系統進行了一次徹底的物理融合。它不再把駕駛看作是先理解場景再執行動作的兩個獨立步驟,而是將其視為一個統一的、從傳感器輸入到執行器輸出的端到端學習過程。

VLA框架示意圖,圖片源自:網絡
在這種技術框架下,視覺特征、語言指令和駕駛動作被編碼到同一個高維特征空間中進行交互。這意味著模型在學習如何識別紅綠燈的同時,也在學習遇到紅燈時應該如何調節剎車踏板。這種深度的耦合使得模型能夠從海量的數據中提取出超越簡單規則的駕駛技巧,從而表現出更加類人的駕駛行為。
想實現這一融合,關鍵技術之一是動作的標記化處理。受谷歌機器人模型RT-2的啟發,自動駕駛領域的VLA模型嘗試將車輛的如轉向、加速、制動等駕駛動作轉化為一種特殊的詞匯表。在這種設定下,生成一段平滑的變道軌跡,在模型看來與寫出一個句子并無本質區別。
通過將連續的物理空間離散化為一系列動作標記,VLA模型能夠直接利用大型語言模型的自回歸特性來預測接下來的駕駛行為。這種方法的精妙之處在于,它讓模型在做出動作預測的同時,還能附帶輸出這一動作背后的邏輯理由,極大地提升了系統的可解釋性。舉個例子,當車輛突然剎車時,它不僅能執行動作,還能同步反饋是因為看到了盲區內竄出的外賣車,這種透明度對于建立用戶對自動駕駛的信任至關重要。
在VLA的驅動下,自動駕駛車輛表現出了前所未有的泛化能力。傳統的系統在進入一個從未見過的陌生城市或遇到罕見的特殊路障時,由于缺乏預設規則,會表現得不知所措甚至原地停滯。而VLA模型憑借其預訓練階段習得的通用世界知識,可以根據環境中的語義線索進行即時推理。
例如,當它在路邊看到一個寫著臨時施工的告示牌時,即便系統沒有預裝該路段的地圖信息,它也能通過閱讀牌子上的文字并結合視覺觀察,自主規劃出一條繞行路徑。這種對未知環境的強適應性,被視為從輔助駕駛向全自動駕駛跨越的關鍵一步。

動作標記化與物理一致性的技術平衡
盡管將動作轉化為語言標記為模型的一體化掃清了障礙,但在自動駕駛這種對精度要求極高的場景中,如何確保生成的標記能夠轉化為平滑且符合車輛動力學的軌跡,依然是一個巨大挑戰。
如果僅僅是簡單地離散化,模型輸出的動作可能會出現抖動,導致車輛行駛不順暢。為了解決這一問題,行業內涌現出了多種軌跡生成的技術方案。其中一種典型做法是利用動作碼本,將車輛可能行駛的二維空間劃分為精細的網格。
例如,在ReflectDrive等研究中,開發者將駕駛空間設定為以車輛為中心的一個矩形區域,并以固定分辨率進行切分,從而生成數以百計的備選標記。通過這種方式,模型輸出的每一個標記都對應著物理空間中一個真實的坐標點,從而保證了動作生成的物理落地。
然而,離散標記無法捕捉到復雜交通場景中的細微連續變化。因此,另一種更為先進的技術是將擴散模型引入VLA的動作生成中。擴散模型的強項在于它能夠通過迭代去噪的過程,從概率分布中提取出最符合當前上下文的連續軌跡。
在這種架構下,大型語言模型骨干負責定性,即決定車輛應該左轉還是右轉,而擴散模型負責定量,即計算出具體的行駛路徑曲線。理想汽車在MindVLA架構中就應用了這種組合,其模型先生成語義層面的動作標記,再通過擴散解碼器將其轉化為經過優化的軌跡,這使得車輛在擁堵路口博弈或狹窄車位泊車時,能夠展現出極其絲滑的操作。

圖片源自:網絡
為了進一步確保安全性,還有技術開發了針對動作標記的反射修正機制。在模型輸出初步的動作序列后,系統會引入一個專門的安全評分模塊,利用車輛動力學約束和障礙物預測信息對該序列進行快速質檢。
如果發現預測的軌跡點有碰撞風險,模型會基于離散化的動作碼本在局部范圍內進行高效搜索,尋找安全的替代錨點,并要求擴散模型以此為基準重新生成周邊軌跡。這種循環往復的自我審視過程,模擬了人類駕駛員在做出決定后發現不妥并迅速修正的心理過程,極大增強了系統在極端情況下的生存能力。

認知雙系統理論在量產中的實踐
在將龐大的VLA模型推向車載平臺的過程中,將面臨一個殘酷的現實,那就是車載芯片的算力和功耗預算是極為有限的。盡管英偉達推出了Thor這樣算力高達2000 TOPS的芯片,但要流暢運行一個擁有數十億參數且需要高頻響應的VLA模型,依然捉襟見肘。
為了解決這個問題,業界引入了心理學中的認知雙系統理論。這一理論認為人類的大腦存在兩個系統,系統1是快系統,負責本能、直覺和下意識的快速反應;系統2是慢系統,負責邏輯、分析和復雜的決策推理。在自動駕駛的VLA架構中,開發者們通過巧妙的設計重構了這一模型。

圖片源自:網絡
具體的實現方式是構建一個異構的推理模型。系統2由完整的大語言模型組成,它像一個資深的教官,負責觀察全局路況、解析復雜的交通規則以及制定長期的駕駛策略。由于它非常重,通常以較低的頻率運行(例如每秒運行一兩次)。
而系統1則是一個輕量級的動作執行模塊,它實時接收系統2輸出的深層特征作為指導,并結合最新的傳感器數據,以極高的頻率(如100Hz)輸出具體的控制指令。這種快慢結合的模式,既保留了大模型的智慧,又確保了車輛在遭遇緊急切入或行人橫穿時,能像人類本能一樣迅速制動,而不必等待大模型漫長的思考時間。
為了進一步提升效率,混合專家架構(MoE)被證明是VLA走向實用的利器。在MindVLA等先進模型中,并非所有的神經元在駕駛時都同時工作,而是將模型拆分為多個領域的專家模塊。比如有的專家擅長處理高速巡航,有的擅長處理雨天感知,有的則專精于狹窄路口的博弈。
在實際運行時,路由算法會根據當前路況,動態激活最相關的少數專家模塊。這種稀疏激活的技術,使得模型在擁有巨大知識容量的同時,實際計算消耗可以維持在較低水平。結合稀疏注意力機制和并行解碼技術,目前的VLA模型已經能夠實現在車載端的毫秒級響應,這標志著認知驅動的自動駕駛正正式從學術研究轉向量產工程。

視覺語言動作模型在真實世界的演進邏輯
在實際部署中,VLA模型的訓練數據不再局限于簡單的駕駛視頻。為了讓模型真正理解語言與動作之間的因果關系,研究者們開發了諸如Action Dreaming(動作夢境)這樣的創新方法。
在傳統的訓練中,模型看到的是“司機看到紅燈于是停車”的單一結果。然而,為了讓模型理解指令的邊界,開發者會在模擬器中創造出各種虛假的未來。如對于同一個視覺場景,給模型輸入“直行”和“左轉”兩種指令,并讓它預測兩種不同的物理后果。通過這種反事實推理的訓練,VLA模型能夠建立起深層的語言-動作對齊,從而在現實中更準確地執行人類的自然語言指令。

圖片源自:網絡
這種對齊能力的提升,催生了一批具有代表性的工業界項目。Wayve推出的LINGO-2是首個在公共道路上測試的閉環VLA模型,它能夠邊開車邊解說,通過實時語音反饋其為何減速、為何繞行,從而讓車內乘客能夠實時洞察車輛的思維邏輯。
而理想汽車推出的MindVLA,則更進一步地強調了空間智能的整合。通過自主研發的3D Gaussian(3D高斯)表征技術,MindVLA能夠將復雜的城市街道轉化為一種可計算的、具備幾何精確度的三維語義空間。在這種空間內,動作的生成不再是盲目的黑盒預測,而是基于對障礙物物理邊界的深刻理解。這使得它即便在無圖的陌生車庫內,也能憑借純粹的視覺和語義推理,像老司機一樣找到車位并完成停放。
VLA模型在自動駕駛領域的意義遠不止于駕駛任務本身。它實際上是在構建一個通用的物理世界代理。隨著這一技術的日趨成熟,車輛將從一個單純的代步工具進化為一個具備理解和執行能力的智能體。
未來,用戶可能不再需要設置復雜的導航點,只需隨口一句“去最近的超市買點面包”,VLA驅動的車輛便能通過搜索興趣點、理解交通流、規劃路線、規避風險,并最終準確地停在超市門口。這種從規則驅動到語義認知,再到物理行動的閉環,不僅解決了自動駕駛的長尾問題,更開啟了物理人工智能的新時代。

總結與未來展望
視覺語言動作模型(VLA)在自動駕駛中的崛起,標志著人工智能從純粹的信息處理向物理實體交互的質變。相比于視覺語言模型(VLM),VLA的核心價值在于它消除了語義理解與物理執行之間的斷層,通過統一的端到端框架,實現了感知、決策與控制的深度集成。這一跨越使得自動駕駛車輛能夠擺脫對高精地圖和繁瑣手工規則的依賴,轉而依靠通用的常識和實時推理來處理復雜多變的現實環境。
審核編輯 黃宇
-
Vla
+關注
關注
0文章
20瀏覽量
5893 -
自動駕駛
+關注
關注
793文章
14879瀏覽量
179793
發布評論請先 登錄
什么是VLM?為什么它對自動駕駛很重要?
如何設計好自動駕駛ODD?
VLA與世界模型有什么不同?
邁向自動駕駛:地平線技術生態大會探索自動駕駛規模化商用路徑
VLA能解決自動駕駛中的哪些問題?
大模型中常提的快慢思考會對自動駕駛產生什么影響?
VLA和世界模型,誰才是自動駕駛的最優解?
自動駕駛上常提的VLA與世界模型有什么區別?
卡車、礦車的自動駕駛和乘用車的自動駕駛在技術要求上有何不同?
小馬智行助力公路干線物流自動駕駛發展
VLA,是完全自動駕駛的必經之路?
自動駕駛安全基石:ODD
自動駕駛經歷了哪些技術拐點?
已有VLM,自動駕駛為什么還要探索VLA?
評論