[首發(fā)于智駕最前沿微信公眾號]世界模型經(jīng)歷了系統(tǒng)動力學(xué)階段(1960年~2000年)、認(rèn)知科學(xué)階段(2001年~2017年)、深度學(xué)習(xí)階段(2018年至今),但將其應(yīng)用到自動駕駛汽車上,還是近幾年才提出的。那世界模型是自動駕駛落地的正解嗎?

什么是世界模型?
世界模型對于自動駕駛汽車來說,更像是給汽車大腦里繪制一張地圖,可以將環(huán)境的現(xiàn)狀和未來可能的演變都表示出來,讓自動駕駛系統(tǒng)不只是“看見當(dāng)下”,還能“想一想接下來可能發(fā)生什么”。
簡單理解就是,世界模型不僅可以讓自動駕駛汽車知道哪里有車道、紅綠燈和障礙物,更可以預(yù)測這些障礙物的未來變化,這對于確保自動駕駛系統(tǒng)安全,是非常重要的。
世界模型能夠?qū)?a target="_blank">傳感器(如攝像頭、雷達(dá)、激光雷達(dá)和車載定位系統(tǒng)等)采集的原始觀測數(shù)據(jù),轉(zhuǎn)化為一種低維、抽象的“隱狀態(tài)”(latent state)作為內(nèi)部表示。
模型學(xué)習(xí)該隱狀態(tài)隨時間演變的規(guī)律(即動力學(xué)),并基于此進(jìn)行預(yù)測或規(guī)劃。世界模型可以是顯式的物理模型或概率模型,也可以是基于學(xué)習(xí)得到的神經(jīng)網(wǎng)絡(luò)模型;它不僅可以用于直接回放未來場景(仿真模擬),也可以僅生成下一時刻的概率分布以輔助決策。

世界模型在自動駕駛中的核心作用
對于自動駕駛系統(tǒng)來說,世界模型可以應(yīng)用在預(yù)測、規(guī)劃與驗(yàn)證等三個方面。預(yù)測是世界模型最直觀的用途,傳統(tǒng)感知可以把周圍物體識別出來并定位,但這只是“靜態(tài)”信息。
世界模型通過學(xué)習(xí)交通參與者的行為模式和場景的動力學(xué),能夠給出更長時域的、多步的預(yù)測。如可以在十幾秒的時間尺度上,判斷騎著自行車的如是否會靠近路口,或一輛并線的車是否會與本車發(fā)生交叉軌跡等。
這樣的預(yù)測不是簡單的勻速延伸,而是包含了對意圖、交互和環(huán)境約束的理解。
規(guī)劃需要評估不同動作的后果,選擇既安全又舒適的軌跡,是規(guī)劃的主要目的。世界模型可以依托內(nèi)置的“模擬環(huán)境”,把候選軌跡在模型里“演練”幾次,比較它們在未來幾秒內(nèi)的風(fēng)險和收益。
比起只靠規(guī)則或短時預(yù)測,這種基于世界模型的規(guī)劃更能處理如窄路會車、密集并線或不守規(guī)則的交通參與者等復(fù)雜的多主體交互場景。它還能幫助車輛做出更保守或更激進(jìn)的策略選擇,并把不確定性帶進(jìn)決策中。
訓(xùn)練和驗(yàn)證自動駕駛系統(tǒng)需要大量場景、尤其是罕見或危險場景。真實(shí)世界里采集這些場景不僅昂貴而且很危險。
世界模型可以生成高質(zhì)量的合成場景或作為數(shù)字孿生的一部分,用來做大規(guī)模的虛擬測試。通過在模型中反復(fù)模擬,就可以發(fā)現(xiàn)自動駕駛系統(tǒng)在長尾場景下的弱點(diǎn),避免把危險行為部署到實(shí)車。

世界模型如何被構(gòu)建?
要讓模型有“想象未來”的能力,一定要喂給它大量合適的數(shù)據(jù)。自動駕駛的世界模型可以依托攝像頭提供豐富的視覺細(xì)節(jié),激光雷達(dá)給出精確的三維幾何信息,毫米波雷達(dá)對惡劣天氣更魯棒,車載定位和CAN總線送來車輛自身狀態(tài)等數(shù)據(jù)進(jìn)行學(xué)習(xí)。
把這些數(shù)據(jù)融合后,模型要學(xué)會抽取有用的表示,這一步叫表示學(xué)習(xí)。一個好的表示不僅可以保留對決策重要的細(xì)節(jié)(例如相對速度、可通過空間),還能壓縮冗余信息,方便后續(xù)預(yù)測和規(guī)劃使用。
表示之后是要進(jìn)行動力學(xué)建模,也就是學(xué)習(xí)隱狀態(tài)如何隨時間變化。這里有兩類主流做法。
一類是基于物理或圖模型的顯式方法,通過寫出規(guī)則或物理方程來描述車輛與行人的運(yùn)動,再把觀測通過濾波器或貝葉斯推斷與這些模型結(jié)合。顯式方法好處是可解釋、易于驗(yàn)證,但面對復(fù)雜的人類行為時往往力不從心。
另一類是端到端學(xué)習(xí)的方式,使用循環(huán)神經(jīng)網(wǎng)絡(luò)、變分自編碼器或近期流行的時序Transformer來直接學(xué)習(xí)從過去觀測到未來隱狀態(tài)的映射。學(xué)習(xí)型方法在復(fù)雜交互上更有表現(xiàn)力,但需要大量訓(xùn)練數(shù)據(jù)和注意不確定性的表達(dá)。
但無論采用哪種架構(gòu),不確定性建模都非常關(guān)鍵。
世界不是確定的,行人會猶豫、司機(jī)會突然變道。把預(yù)測做成帶概率的形式(例如把未來位置用概率分布表示,或生成若干可能的未來軌跡并給出置信度)能讓決策器更穩(wěn)健。把因果推理或意圖推斷融入世界模型,不僅可以預(yù)測位置,還能推斷“為什么會這樣”,這對處理前所未有的情況很重要。

實(shí)際應(yīng)用中的幾個典型場景
一直都說概念,那世界模型對于自動駕駛的具體應(yīng)用場景有哪些?可以想象一下,若車輛右側(cè)有一輛停著的貨車,貨車后面可能有行人準(zhǔn)備穿行。
單純靠感知可能看不到那名行人,但世界模型可以結(jié)合道路環(huán)境、過往行人出現(xiàn)的位置規(guī)律以及路邊停放車輛的用途,給出“可能有人從后面出來”的預(yù)測,從而促使決策器放慢速度并給出預(yù)留空間。
在高速并道時,兩輛車互相示意并線的行為充滿著博弈意味。世界模型這時候就能觀察雙方的速度與加速度變化、轉(zhuǎn)向幅度等,估計(jì)對方的意圖并預(yù)測多個可能的并線結(jié)果,從而選擇一種在時間和空間上更安全的并線策略,或者選擇先放慢再并線。
在施工、臨時交通指引或其他異常標(biāo)志的情況下,規(guī)則驅(qū)動的系統(tǒng)容易出錯。世界模型可以把臨時的交通錐、施工車與交通參與者的行為模式聯(lián)系起來,判斷這是一個臨時改道的道路,并在短時內(nèi)學(xué)習(xí)到新的可行策略,而不是盲目遵循過往的規(guī)則。

最后的話
把世界模型放在自動駕駛的全局來理解,它的核心價值是把現(xiàn)時感知和未來決策連接起來。其不是簡單的把感知結(jié)果當(dāng)作事實(shí),而是在內(nèi)心(模型)里構(gòu)建一個短期可運(yùn)行的“虛擬世界”,并在這個虛擬世界里反復(fù)試錯、評估風(fēng)險、選擇動作。這樣做能顯著提升系統(tǒng)對復(fù)雜交互場景、遮擋、長尾事件的處理能力,也能為離線的大規(guī)模驗(yàn)證提供重要工具。
審核編輯 黃宇
-
自動駕駛
+關(guān)注
關(guān)注
793文章
14879瀏覽量
179786
發(fā)布評論請先 登錄
2026年,3DGS和世界模型,在自動駕駛仿真中的組合應(yīng)用
Transformer如何讓自動駕駛大模型獲得思考能力?
自動駕駛中常提的模仿學(xué)習(xí)是什么?
黃仁勛:未來十年很多汽車是自動駕駛 英偉達(dá)發(fā)布Alpamayo汽車大模型平臺
自動駕駛中常提的世界模型是什么?
世界模型是讓自動駕駛汽車?yán)斫?b class='flag-5'>世界還是預(yù)測未來?
VLA能解決自動駕駛中的哪些問題?
大模型中常提的快慢思考會對自動駕駛產(chǎn)生什么影響?
VLA和世界模型,誰才是自動駕駛的最優(yōu)解?
為什么自動駕駛端到端大模型有黑盒特性?
自動駕駛中常提的世界模型是個啥?
新能源車軟件單元測試深度解析:自動駕駛系統(tǒng)視角
劉強(qiáng)東,進(jìn)軍汽車領(lǐng)域# 京東# 自動駕駛# 自動駕駛出租車# 京東自動駕駛快遞車
大模型如何推動自動駕駛技術(shù)革新?
如何構(gòu)建適合自動駕駛的世界模型?
評論