国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

VLA與世界模型,會讓自動駕駛汽車走多遠?

智駕最前沿 ? 來源:智駕最前沿 ? 作者:智駕最前沿 ? 2025-09-01 09:22 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

[首發于智駕最前沿微信公眾號]在一個雨夜的十字路口,你開車行駛到路中央,前方是一輛猶豫不決的電動車,左側有一臺打著轉向燈的出租車,右后方突然閃過一束遠光燈。這時候你會怎么做?經驗豐富的司機往往會迅速分析,電動車可能突然橫穿,出租車大概率要并線,后車逼得太緊不能急剎,最穩妥的辦法是先減速,給前后左右都留出余地??此茙酌腌姷臎Q定,實際上包含了感知、預測、推理和取舍。

可如果把同樣的場景交給自動駕駛呢?傳統的系統更多是基于規則和簡單預測,它能看見電動車、檢測出租車、識別遠光燈,卻未必能像人類一樣“想明白”這些信號背后的意圖和邏輯。于是,車子要么顯得過度保守停在原地,要么冒進地沖出去,最終都和人類駕駛的直覺一定會有差距。也正因為如此,行業開始追問,能不能讓車也擁有“理解和推理”的能力?答案正是近年來興起的VLA(視覺—語言—動作模型)和世界模型。

其實過去十年,自動駕駛的發展像坐過山車一樣起伏。早期技術方案覺得靠感知、預測、規劃、控制的模塊化體系,把規則寫全,把數據堆夠,就能讓汽車自動開起來。但隨著項目規模擴大,越來越多從業者意識到,這套方法天然有天花板。模塊化的鏈條太長,每個環節之間的信息丟失嚴重,人工接口讓系統難以聯合優化,即使投入海量人力,也難以覆蓋長尾復雜場景。VLA和世界模型的出現,讓車子不只是“執行規則”,而是像人一樣“理解和推理”。

wKgZPGi09ViAG62WAAAQo00DEvw730.jpg

VLA的邏輯:從“會看”到“會想”

VLA的本質是把自動駕駛從單純的數據驅動,逐步引向知識驅動。過去的端到端嘗試大多直接把圖像輸入和車輛動作輸出綁定在一起,中間缺乏解釋能力。而VLA則引入了多模態大模型的優勢,把視覺、點云、地圖、傳感器信息都編碼進一個統一的語義空間,再通過語言模型來進行邏輯推理和高層決策。換句話說,它讓車不只是會“看”,更會“想”。視覺編碼器負責從圖像或點云中提取特征,對齊模塊把這些特征映射到語言空間,語言模型則像人腦的“推理區”,根據上下文和邏輯得出結論,最后生成器把這種高層意圖轉換成車輛可以執行的軌跡或動作??梢哉f,VLA就是把人類駕駛的認知流程,第一次較完整地搬進了機器世界。

wKgZO2i09VmAXikHAABcp8AnFYo585.jpg

VLA模型的總體架構,包含編碼器、解碼器和輸出動作

要讓VLA真正工作起來,有三塊技術難點是繞不開的。首先是三維特征的表達。車面對的是一個三維世界,二維的圖像信息遠遠不夠。近年來被頻繁提到的3D Gaussian Splatting技術,正是為了解決這一問題。它用一系列高斯分布來顯式表示三維點,不僅比傳統的體素網格節省算力,還能達到實時渲染的水平。相比之下,像NeRF那樣的隱式場景表示雖然能渲染得極其逼真,但計算量過大,幾乎不可能放在車端使用。3D GS在效率和真實感之間找到了平衡,因此被很多團隊作為中間特征的候選方案。不過,它也有短板,比如對初始點云的質量非常依賴,這意味著在采集數據階段就要保證精度,否則渲染結果會受到較大影響。但從整體趨勢來看,3D GS已經成為讓車能更“立體”地理解世界的重要一步。

wKgZPGi09VmAQ8jGAABh5wSdcOQ600.jpg

3D GS與其余三維重建技術的區別

第二個難點是記憶與長時序推理。駕駛是一項連續任務,不是單幀的反應動作。車需要記住前方幾秒鐘的交通參與者行為,才能判斷對方是要超車、掉頭還是直行。然而傳統Transformer在處理長序列時開銷太大,窗口一旦超過幾千步,計算就變得不可承受,同時信息還容易被稀釋掉。為了解決這個問題,有技術引入了稀疏注意力和動態記憶模塊。稀疏注意力通過只關注關鍵位置,顯著降低了計算復雜度,而動態記憶則像外掛的存儲器,把歷史中的關鍵信息提取、保存,在需要時重新調出。這種方式讓模型既能處理長時依賴,又不會在車端算力有限的環境下崩潰。像是小米的QT-Former就在長時記憶上做了優化,理想的Mind架構同樣在探索類似的思路,說明這已經成了產業界的共識。

wKgZO2i09VqAUPsAAABn39L_ZQY532.jpg

小米QT-Former模型架構

第三個難點是推理效率。車端的算力和功耗都有限,不可能像云端一樣無限堆GPU。于是量化、蒸餾、裁剪等傳統模型壓縮手段,成了落地必備。理想采用GPTQ等后訓練量化方法,把大模型縮小到能實時運行的程度,同時探索混合專家模型MOE,通過只激活部分專家的方式來減少開銷。這樣的架構既能保持大模型的能力,又不會讓推理速度拖慢整個系統。智駕最前沿以為,未來車端的大模型必然是“稀疏+量化”的形態,否則在能耗和成本上都不現實。

wKgZPGi09VqATZ75AAAR42n7O-I039.jpg

世界模型:虛擬世界里的試煉場

如果說VLA是車子的“大腦”,那么世界模型就是它的“訓練場”。因為現實世界的數據再多,也不可能覆蓋所有情況,更不能無限試錯。高保真的世界模型能生成各種道路場景,補充長尾數據,還能提供一個低成本、安全的閉環環境,讓模型在虛擬世界里反復學習。理想的DriveDreamer4D就是一個典型案例,它能生成新軌跡視頻并和真實數據對齊,用來擴展數據集;ReconDreamer則通過漸進式數據更新來減少長距離生成里的假象;OLiDM針對激光雷達數據稀缺的問題,用擴散模型來生成點云。這些名字看起來很學術,但本質上都是在做一件事,用虛擬的方式去還原真實世界的復雜性,讓模型提前適應未來可能遇到的情況。

在訓練范式上,VLA和世界模型也發生了很多變化。過去大家依賴行為克隆,即讓模型模仿人類駕駛,但這種方法在遇到沒見過的情況時往往會失效?,F在更多采用三階段閉環,先用行為克隆做起步,保證模型有個基礎,再用逆強化學習從專家數據中學習獎勵函數,最后通過世界模型里的強化學習不斷迭代優化。這種方式讓模型不僅會模仿,還能自己探索更優解,逐漸超越人類示范的水平。

wKgZO2i09VuALlHeAAASG3BOmsQ625.jpg

產業視角:車企為何搶跑?

把大語言模型放到自動駕駛里并不是把車變成聊天機器人那么簡單。VLA的核心在于“多模態”和“動作生成”,視覺編碼器要能把圖像、視頻、甚至點云編碼成對語言友好的中間表示;對齊模塊要把這些視覺表示映射到語言空間;語言模型承擔長時的推理和決策;解碼器則把高層意圖細化成車輛可執行的低層動作或者軌跡。其實汽車的任務比較單一,就是開車,場景也相對有規則,道路標線、交通燈、車輛行為都有明確約束。再加上車企自帶海量車隊和數據收集能力,這使得VLA更容易在車上形成規模效應。這也是為什么國內外廠商紛紛入局的原因。Waymo早期推出了EMMA系統,算是奠定了方向;國內理想正在構建完整的Mind架構,小米在量產車中測試QT-Former,小鵬在嘗試端到端引入大模型,華為則在MDC平臺上為未來預留了大模型接口。不同公司路線各異,但目標是一致的,讓車子具備更強的理解和推理能力。

wKgZPGi09VuAEtCsAABil4raMsE133.jpg

EMMA模型架構

wKgZPGi09VyAV-n6AAASAJELks8832.jpg

寫在最后

總的來說,VLA與世界模型的結合,標志著自動駕駛正在經歷一次認知層面的升級。它們不僅僅是算法改良,而是范式的轉變,從“能看會開”走向“能想會推理”。這條路當然不輕松,三維表征、記憶機制、算力約束和仿真保真度,每一項都是難題。但隨著架構逐步成熟、世界模型越來越逼真、閉環訓練越發完善,我們有理由相信,未來的自動駕駛不只是冷冰冰的感知與控制機器,而是一個能理解環境、能解釋行為、能與人類邏輯對接的“駕駛智能體”。誰能最先把這些技術變成大規模落地的體驗,誰就能在下一階段的競爭中拔得頭籌。

審核編輯 黃宇

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • Vla
    Vla
    +關注

    關注

    0

    文章

    20

    瀏覽量

    5895
  • 自動駕駛
    +關注

    關注

    793

    文章

    14883

    瀏覽量

    179900
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    如何構建適合自動駕駛世界模型?

    提出的。那世界模型自動駕駛落地的正解嗎? 什么是世界模型世界
    的頭像 發表于 02-18 08:14 ?1w次閱讀
    如何構建適合<b class='flag-5'>自動駕駛</b>的<b class='flag-5'>世界</b><b class='flag-5'>模型</b>?

    已有VLM,自動駕駛為什么還要探索VLA?

    時(長尾場景),因規則覆蓋不足而表現僵化。 隨著大語言模型和視覺語言模型(VLM)的爆發,開發者們意識到,如果車輛能像人類一樣擁有常識,理解什么是“潮汐車道”,知道“救護車在后方鳴笛需要避讓”,那么
    的頭像 發表于 02-03 09:04 ?207次閱讀
    已有VLM,<b class='flag-5'>自動駕駛</b>為什么還要探索<b class='flag-5'>VLA</b>?

    強化學習自動駕駛模型學習更快嗎?

    [首發于智駕最前沿微信公眾號]在談及自動駕駛模型訓練時,有的技術方案采用模仿學習,而有些采用強化學習。同樣作為大模型的訓練方式,強化學
    的頭像 發表于 01-31 09:34 ?646次閱讀
    強化學習<b class='flag-5'>會</b><b class='flag-5'>讓</b><b class='flag-5'>自動駕駛</b><b class='flag-5'>模型</b>學習更快嗎?

    黃仁勛:未來十年很多汽車自動駕駛 英偉達發布Alpamayo汽車模型平臺

    最看好的AI落地場景就是自動駕駛。在演講中黃仁勛提到,未來十年,世界上很大一部分汽車將是自動駕駛或高度自動駕駛的。你期待嗎? 英偉達發布Al
    的頭像 發表于 01-06 11:45 ?1094次閱讀

    自動駕駛中常提的世界模型是什么?

    在很多廠家的技術方案中,提到世界模型的介紹。世界模型,就是自動駕駛系統內部用來表示外部
    的頭像 發表于 01-05 16:23 ?907次閱讀

    VLA世界模型有什么不同?

    [首發于智駕最前沿微信公眾號]當前自動駕駛行業,各車企的技術路徑普遍選擇了單車智能方向。而在實際落地過程中,不同企業選擇了差異化的技術實現方式,部分車企側重于視覺—語言—動作模型(Vision
    的頭像 發表于 12-17 09:13 ?635次閱讀
    <b class='flag-5'>VLA</b>與<b class='flag-5'>世界</b><b class='flag-5'>模型</b>有什么不同?

    世界模型自動駕駛汽車理解世界還是預測未來?

    ? [首發于智駕最前沿微信公眾號]世界模型自動駕駛技術中已有廣泛應用。但當談及它對自動駕駛的作用時,難免會出現分歧。它到底是
    的頭像 發表于 12-16 09:27 ?873次閱讀
    <b class='flag-5'>世界</b><b class='flag-5'>模型</b>是<b class='flag-5'>讓</b><b class='flag-5'>自動駕駛</b><b class='flag-5'>汽車</b>理解<b class='flag-5'>世界</b>還是預測未來?

    VLA能解決自動駕駛中的哪些問題?

    [首發于智駕最前沿微信公眾號]很多從事自動駕駛的小伙伴應該對VLA這個概念已經非常熟悉了。VLA即“Visual-Language-Action”(視覺—語言—動作)模型,它的核心是將
    的頭像 發表于 11-25 08:53 ?490次閱讀
    <b class='flag-5'>VLA</b>能解決<b class='flag-5'>自動駕駛</b>中的哪些問題?

    模型中常提的快慢思考會對自動駕駛產生什么影響?

    2024年7月,理想汽車發布的基于端到端模型、VLM視覺語言模型世界模型的全新自動駕駛技術架構
    的頭像 發表于 11-22 10:59 ?2504次閱讀
    大<b class='flag-5'>模型</b>中常提的快慢思考會對<b class='flag-5'>自動駕駛</b>產生什么影響?

    VLA世界模型,誰才是自動駕駛的最優解?

    [首發于智駕最前沿微信公眾號]隨著自動駕駛技術發展,其實現路徑也呈現出兩種趨勢,一邊是以理想、小鵬、小米為代表的VLA(視覺—語言—行動)模型路線;另一邊則是以華為、蔚來為主導的世界
    的頭像 發表于 11-05 08:55 ?786次閱讀
    <b class='flag-5'>VLA</b>和<b class='flag-5'>世界</b><b class='flag-5'>模型</b>,誰才是<b class='flag-5'>自動駕駛</b>的最優解?

    自動駕駛上常提的VLA世界模型有什么區別?

    自動駕駛中常提的VLA,全稱是Vision-Language-Action,直譯就是“視覺-語言-動作”。VLA的目標是把相機或傳感器看到的畫面、能理解和處理自然語言的大模型能力,和最
    的頭像 發表于 10-18 10:15 ?1151次閱讀

    自動駕駛中常提的世界模型是個啥?

    對外部環境進行抽象和建模的技術,自動駕駛系統在一個簡潔的內部“縮影”里,對真實世界進行描述與預測,從而為感知、決策和規劃等關鍵環節提供有力支持。 什么是世界
    的頭像 發表于 06-24 08:53 ?1130次閱讀
    <b class='flag-5'>自動駕駛</b>中常提的<b class='flag-5'>世界</b><b class='flag-5'>模型</b>是個啥?

    VLA,是完全自動駕駛的必經之路?

    芯片,以及英偉達Thor的上車,越來越多的智駕方案選擇VLA的路徑。 ? 那么本文就梳理一下當前智駕領域集中主流的大模型技術路線,以及各家廠商實現方式的區別和發展。 ? VLA 和VLM ?
    的頭像 發表于 06-18 00:06 ?9308次閱讀

    NVIDIA Halos自動駕駛汽車安全系統發布

    NVIDIA 整合了從云端到車端的安全自動駕駛開發技術套件,涵蓋車輛架構到 AI 模型,包括芯片、軟件、工具和服務。 物理 AI 正在為自動駕駛和機器人開發技術的交叉領域釋放新的可能性,尤其是加速了
    的頭像 發表于 03-25 14:51 ?1178次閱讀

    理想汽車推出全新自動駕駛架構

    2025年3月18日,理想汽車自動駕駛技術研發負責人賈鵬在NVIDIA GTC 2025發表主題演講《VLA:邁向自動駕駛物理智能體的關鍵一步》,分享了理想
    的頭像 發表于 03-19 14:12 ?1100次閱讀