近日,小鵬汽車正式發(fā)布世界模型X-World技術報告,從數(shù)據(jù)、模型、訓練、驗證及應用等多層面詳解X-World的構(gòu)建與使用。
X-World是一個基于視頻擴散生成技術(Video Diffusion)構(gòu)建的、服務于自動駕駛的可控多視角生成式世界模型,具備多視角下即時響應與持續(xù)生成的能力。
技術報告還展示了X-World在小鵬汽車自動駕駛中的實際應用價值,該模型已投入到閉環(huán)仿真測試、在線強化學習、數(shù)據(jù)生成等實際生產(chǎn)環(huán)節(jié)。
在近期向用戶陸續(xù)推送的第二代VLA的研發(fā)與驗證過程中,X-World 也已被大量用于環(huán)境仿真與模型評估。
自動駕駛系統(tǒng)的評估主要依賴真實道路測試與仿真測試。其中,仿真測試具備成本更低、效率更高、場景覆蓋更廣、可重復驗證等優(yōu)勢。傳統(tǒng)仿真評估大量采用基于 3D 高斯濺射(3DGS)的技術路線,這類方法能夠在一定程度上復現(xiàn)真實場景,但當自動駕駛模型產(chǎn)生大幅變道、繞行等明顯偏離原始采集軌跡的行為時,這種方法往往難以對超出既有重建范圍的后續(xù)場景進行有效生成與評估。因此,行業(yè)內(nèi)仍高度依賴實車道路測試,而這種方式存在著成本高、場景覆蓋有限、難以復現(xiàn)指定情況等問題。
為了解決這些瓶頸,小鵬生成世界模型團隊試圖構(gòu)建一個“現(xiàn)實世界模擬器”,讓它能夠在給定動作條件下生成符合物理約束的未來視頻,同時在持續(xù)生成過程中保持良好的可控性與穩(wěn)定性。在這一背景下,X-World應運而生,通過輸入多攝像頭的歷史視頻流和待執(zhí)行的駕駛動作(或動作序列),便可生成對應的未來多攝像頭視頻流。X-World可以被視為一個會“思考”駕駛場景的物理AI系統(tǒng),它能夠根據(jù)當前的路況和駕駛操作,想象出數(shù)秒后路況的變化。
架構(gòu)層面,X-World 基于當前領先的視頻生成模型 WAN 2.2 構(gòu)建,沿用其潛空間視頻生成范式,將視頻VAE與基于DiT的潛空間去噪器相結(jié)合。底層采用高壓縮比 3D 因果自編碼器(VAE),大幅降低計算與內(nèi)存開銷,支持長時序視頻建模,從而更好地捕捉豐富的時空依賴關系,同時降低延遲、加快推理速度。模型骨干為定制化的DiT骨干網(wǎng)絡,通過視角-時間自注意力機制,實現(xiàn)時間維度和視角維度的聯(lián)合建模,從而確保7路攝像頭視角間的一致性。X-World 還提供了一套全面的條件控制接口,包括自車動作、動態(tài)交通參與者、靜態(tài)道路元素(如車道線、道路邊界)、攝像頭內(nèi)外參,可對駕駛場景的生成過程進行細粒度調(diào)控。這些設計共同實現(xiàn)了多輸入條件下的可控多視角生成。

X-World 模型(框架如上圖所示)
在本篇技術報告中,小鵬團隊圍繞X-World實際落地過程中遇到的技術難點做了分享,核心在于如何實現(xiàn)跨視角3D一致性、多條件受控生成準確、長時序畫面生成。除了模型架構(gòu)上的新穎嘗試,在訓練層面,團隊采用了兩個階段的訓練方式:
第一階段,將一個大型預訓練視頻生成模型,改造為完全可控的多攝像頭世界模型。
第二階段,通過“分塊因果架構(gòu)”和“少步自強制學習”,結(jié)合滾動鍵值緩存,將模型轉(zhuǎn)換為流式自回歸模擬器。
與傳統(tǒng)的雙向視頻擴散模型不同,X-World 采用流式自回歸的方式運行,可以逐步生成未來視頻畫面以進行實時交互,這一設計使得模型能夠天然適用于閉環(huán)場景,既可為端到端策略的可擴展評估提供支撐,也可應用于在線強化學習訓練。
實驗結(jié)果顯示,X-World實現(xiàn)了高質(zhì)量的多視角視頻生成。總體而言,它具備以下三大核心優(yōu)勢:
實現(xiàn)了較強的跨視角一致性,確保各攝像頭間(7路環(huán)視攝像頭)的幾何信息與目標特征一致;
嚴格的動作跟隨性,生成的未來畫面與指令要求的自車行為高度匹配;
具備長視頻推演能力,可在較長的時間跨度內(nèi)實現(xiàn)穩(wěn)定的預測。上述特性讓生成式世界模型更接近實用的 “現(xiàn)實世界仿真器” 形態(tài),能夠為VLA自動駕駛系統(tǒng)提供可復現(xiàn)的基準測試、可擴展的回歸測試與交互式學習支撐。
在具體的應用場景上,X-World不僅僅是一個視頻生成模型,更是一個高保真、交互式、可控的底層基礎平臺,服務于小鵬汽車第二代VLA的開發(fā)與驗證。目前,X-World已經(jīng)在小鵬汽車自動駕駛的閉環(huán)仿真測試、在線強化學習、數(shù)據(jù)生成等環(huán)節(jié)起到支撐作用。
依托X-World,小鵬構(gòu)建面向第二代VLA的閉環(huán)評估引擎。區(qū)別于傳統(tǒng)的基于3D重建的技術路線,X-World可進行交互式推演,并支持對安全關鍵指標進行評估。例如,在 X-World 中運行第二代VLA,可在高度貼近真實世界視覺分布的虛擬環(huán)境中,評估碰撞率、目標達成進度、乘坐舒適性等性能指標。目前,小鵬自動駕駛仿真場景從一年前的3萬增加到50多萬個,每日仿真測試里程等效于3000萬公里實車測試。
X-World可充當在線強化學習的仿真平臺。可利用X-World的可控性,針對自動駕駛中的難點場景進行專項優(yōu)化,例如重點優(yōu)化模型在路口遭遇行人“鬼探頭”、 擁堵路段變道猶豫等場景的表現(xiàn)。
X-World可實現(xiàn)大規(guī)模數(shù)據(jù)生成與增強。X-World作為生成式數(shù)據(jù)工廠,既可以生成缺失的長尾場景數(shù)據(jù),提升第二代VLA應對長尾場景(Corner Case)的能力,也能生成海外數(shù)據(jù)用于模型訓練,加速小鵬自動駕駛?cè)蚧涞剡M程。
操作控制演示
支持指令控制畫面。
例如輸入"左轉(zhuǎn)"、"加速"。
多車場景控制
支持控制畫面中其他車輛的行為。
例如讓它們加速、減速、變道。
長距離預測
支持連續(xù)生成幾十秒的畫面,
且畫面始終保持穩(wěn)定和連貫。
風格變換
支持改變天氣和時間。
例如"雨天"、"黑夜"、"德國的街道"
3月19日起,小鵬第二代VLA面向用戶陸續(xù)推送。從前沿技術探索到工程化落地,小鵬汽車持續(xù)以先進科技與強大技術實力,為用戶帶來全場景、更安心和高效的智駕體驗,讓更安全、更智能的自動駕駛普及到每一條道路。
-
模型
+關注
關注
1文章
3802瀏覽量
52224 -
自動駕駛
+關注
關注
794文章
14947瀏覽量
181000 -
小鵬汽車
+關注
關注
4文章
648瀏覽量
16823
原文標題:小鵬首發(fā)世界模型技術報告,已應用于第二代VLA模型的研發(fā)驗證
文章出處:【微信號:XPENGMOTORS,微信公眾號:小鵬汽車】歡迎添加關注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
Nullmax推出新一代基于世界模型的閉環(huán)仿真系統(tǒng)
如何構(gòu)建適合自動駕駛的世界模型?
中航光電榮獲小鵬汽車2025年度品質(zhì)保障獎
世界模型是讓自動駕駛汽車理解世界還是預測未來?
小鵬汽車迎來第100萬臺整車正式下線
VLA和世界模型,誰才是自動駕駛的最優(yōu)解?
小鵬汽車與阿里云簽署后量子安全技術合作協(xié)議
小鵬汽車新總部正式亮燈
WAIC2025:澳鵬發(fā)布新一代技術平臺矩陣 助力大模型垂直應用落地
小鵬汽車正式發(fā)布世界模型X-World技術報告
評論