日本免费一区二区三区视频观看,亚洲精品一区二区观看,久久免费99精品久久久

近日，小鵬汽車正式發(fā)布世界模型X-World技術報告，從數(shù)據(jù)、模型、訓練、驗證及應用等多層面詳解X-World的構(gòu)建與使用。

X-World是一個基于視頻擴散生成技術（Video Diffusion）構(gòu)建的、服務于自動駕駛的可控多視角生成式世界模型，具備多視角下即時響應與持續(xù)生成的能力。

技術報告還展示了X-World在小鵬汽車自動駕駛中的實際應用價值，該模型已投入到閉環(huán)仿真測試、在線強化學習、數(shù)據(jù)生成等實際生產(chǎn)環(huán)節(jié)。

在近期向用戶陸續(xù)推送的第二代VLA的研發(fā)與驗證過程中，X-World 也已被大量用于環(huán)境仿真與模型評估。

自動駕駛系統(tǒng)的評估主要依賴真實道路測試與仿真測試。其中，仿真測試具備成本更低、效率更高、場景覆蓋更廣、可重復驗證等優(yōu)勢。傳統(tǒng)仿真評估大量采用基于 3D 高斯濺射（3DGS）的技術路線，這類方法能夠在一定程度上復現(xiàn)真實場景，但當自動駕駛模型產(chǎn)生大幅變道、繞行等明顯偏離原始采集軌跡的行為時，這種方法往往難以對超出既有重建范圍的后續(xù)場景進行有效生成與評估。因此，行業(yè)內(nèi)仍高度依賴實車道路測試，而這種方式存在著成本高、場景覆蓋有限、難以復現(xiàn)指定情況等問題。

為了解決這些瓶頸，小鵬生成世界模型團隊試圖構(gòu)建一個“現(xiàn)實世界模擬器”，讓它能夠在給定動作條件下生成符合物理約束的未來視頻，同時在持續(xù)生成過程中保持良好的可控性與穩(wěn)定性。在這一背景下，X-World應運而生，通過輸入多攝像頭的歷史視頻流和待執(zhí)行的駕駛動作（或動作序列），便可生成對應的未來多攝像頭視頻流。X-World可以被視為一個會“思考”駕駛場景的物理AI系統(tǒng)，它能夠根據(jù)當前的路況和駕駛操作，想象出數(shù)秒后路況的變化。

架構(gòu)層面，X-World 基于當前領先的視頻生成模型 WAN 2.2 構(gòu)建，沿用其潛空間視頻生成范式，將視頻VAE與基于DiT的潛空間去噪器相結(jié)合。底層采用高壓縮比 3D 因果自編碼器（VAE），大幅降低計算與內(nèi)存開銷，支持長時序視頻建模，從而更好地捕捉豐富的時空依賴關系，同時降低延遲、加快推理速度。模型骨干為定制化的DiT骨干網(wǎng)絡，通過視角-時間自注意力機制，實現(xiàn)時間維度和視角維度的聯(lián)合建模，從而確保7路攝像頭視角間的一致性。X-World 還提供了一套全面的條件控制接口，包括自車動作、動態(tài)交通參與者、靜態(tài)道路元素（如車道線、道路邊界）、攝像頭內(nèi)外參，可對駕駛場景的生成過程進行細粒度調(diào)控。這些設計共同實現(xiàn)了多輸入條件下的可控多視角生成。

X-World 模型（框架如上圖所示）

在本篇技術報告中，小鵬團隊圍繞X-World實際落地過程中遇到的技術難點做了分享，核心在于如何實現(xiàn)跨視角3D一致性、多條件受控生成準確、長時序畫面生成。除了模型架構(gòu)上的新穎嘗試，在訓練層面，團隊采用了兩個階段的訓練方式：

第一階段，將一個大型預訓練視頻生成模型，改造為完全可控的多攝像頭世界模型。

第二階段，通過“分塊因果架構(gòu)”和“少步自強制學習”，結(jié)合滾動鍵值緩存，將模型轉(zhuǎn)換為流式自回歸模擬器。

與傳統(tǒng)的雙向視頻擴散模型不同，X-World 采用流式自回歸的方式運行，可以逐步生成未來視頻畫面以進行實時交互，這一設計使得模型能夠天然適用于閉環(huán)場景，既可為端到端策略的可擴展評估提供支撐，也可應用于在線強化學習訓練。

實驗結(jié)果顯示，X-World實現(xiàn)了高質(zhì)量的多視角視頻生成。總體而言，它具備以下三大核心優(yōu)勢：

實現(xiàn)了較強的跨視角一致性，確保各攝像頭間（7路環(huán)視攝像頭）的幾何信息與目標特征一致；

嚴格的動作跟隨性，生成的未來畫面與指令要求的自車行為高度匹配；

具備長視頻推演能力，可在較長的時間跨度內(nèi)實現(xiàn)穩(wěn)定的預測。上述特性讓生成式世界模型更接近實用的 “現(xiàn)實世界仿真器” 形態(tài)，能夠為VLA自動駕駛系統(tǒng)提供可復現(xiàn)的基準測試、可擴展的回歸測試與交互式學習支撐。

在具體的應用場景上，X-World不僅僅是一個視頻生成模型，更是一個高保真、交互式、可控的底層基礎平臺，服務于小鵬汽車第二代VLA的開發(fā)與驗證。目前，X-World已經(jīng)在小鵬汽車自動駕駛的閉環(huán)仿真測試、在線強化學習、數(shù)據(jù)生成等環(huán)節(jié)起到支撐作用。

依托X-World，小鵬構(gòu)建面向第二代VLA的閉環(huán)評估引擎。區(qū)別于傳統(tǒng)的基于3D重建的技術路線，X-World可進行交互式推演，并支持對安全關鍵指標進行評估。例如，在 X-World 中運行第二代VLA，可在高度貼近真實世界視覺分布的虛擬環(huán)境中，評估碰撞率、目標達成進度、乘坐舒適性等性能指標。目前，小鵬自動駕駛仿真場景從一年前的3萬增加到50多萬個，每日仿真測試里程等效于3000萬公里實車測試。

X-World可充當在線強化學習的仿真平臺。可利用X-World的可控性，針對自動駕駛中的難點場景進行專項優(yōu)化，例如重點優(yōu)化模型在路口遭遇行人“鬼探頭”、擁堵路段變道猶豫等場景的表現(xiàn)。

X-World可實現(xiàn)大規(guī)模數(shù)據(jù)生成與增強。X-World作為生成式數(shù)據(jù)工廠，既可以生成缺失的長尾場景數(shù)據(jù)，提升第二代VLA應對長尾場景（Corner Case）的能力，也能生成海外數(shù)據(jù)用于模型訓練，加速小鵬自動駕駛?cè)蚧涞剡M程。

操作控制演示

支持指令控制畫面。

例如輸入"左轉(zhuǎn)"、"加速"。

多車場景控制

支持控制畫面中其他車輛的行為。

例如讓它們加速、減速、變道。

長距離預測

支持連續(xù)生成幾十秒的畫面，

且畫面始終保持穩(wěn)定和連貫。

風格變換

支持改變天氣和時間。

例如"雨天"、"黑夜"、"德國的街道"

3月19日起，小鵬第二代VLA面向用戶陸續(xù)推送。從前沿技術探索到工程化落地，小鵬汽車持續(xù)以先進科技與強大技術實力，為用戶帶來全場景、更安心和高效的智駕體驗，讓更安全、更智能的自動駕駛普及到每一條道路。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴