国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

VLA和世界模型,誰才是自動駕駛的最優解?

智駕最前沿 ? 來源:智駕最前沿 ? 作者:智駕最前沿 ? 2025-11-05 08:55 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

[首發于智駕最前沿微信公眾號]隨著自動駕駛技術發展,其實現路徑也呈現出兩種趨勢,一邊是以理想、小鵬、小米為代表的VLA(視覺—語言—行動)模型路線;另一邊則是以華為、蔚來為主導的世界模型(World Model)路線,這兩種路徑都為自動駕駛快速落地提供了可能,那誰才是最優解?

wKgZO2kKoIiAZv-HAAAQo00DEvw936.jpg

什么是VLA模型?

VLA模型,即視覺—語言—行動模型,是將視覺感知、語言理解和動作生成串聯起來的一套方法。它先是通過視覺編碼器,將攝像頭看到的畫面轉換成語義豐富的特征向量,像是SigLIP、Dino V2/V3等這類模型就是用于完成這項任務的。這些視覺特征會被“翻譯”成一種類似語言的表征單元(token),并將其送入一個大型語言模型(LLM)中。LLM經過多模態改造后,其任務不再只是生成文本,而是能夠基于這些視覺信息進行如分析車道線的狀況、預判前方行人的意圖、或者評估不同駕駛策略的合理性等更高層次的語義推理。LLM的推理結果會被轉化為例像是軌跡和速度,從而驅動車輛執行等具體的控制指令。

wKgZPGkKoIiANPqZAACt64SgPJE514.jpg

圖片源自:網絡

從理論上看,VLA還是比較難以理解的,通俗理解下就是,VLA是讓車輛先用語言描述清楚眼睛看到了什么,再用語言進行思考,最后把思考結果轉化為行動。這種方法的優勢在于,語言層面天然適合進行抽象和長時序推理,也便于整合上下文信息和規則知識,這使得從感知到決策的橋梁可以建立在更明確、更具可遷移性的語義表示之上。

因為語言模型擅長將零散信息組合成高層結論,VLA在遇到多種復雜場景時,理論上能更容易進行“概念化”的判斷,同時也更容易將人類規則、法規或場景說明以文本形式融入到訓練與調優流程中。

當然,想將視覺特征可靠地轉換為LLM能夠有效利用的token并不容易,有很多問題需要解決。視覺與語言之間的信息損失和對齊問題是一定要解決的;語言推理產生的結論也需要被嚴格約束在物理可行的動作范圍內,否則就可能出現“想法很好”但“執行不安全”的情況。此外,LLM的推理開銷、系統實時性以及決策的可解釋性等都是需要解決的問題。雖然語言的抽象能力很強,但物理世界對控制精度和約束的要求極高,如何在語義抽象與精確控制之間建立可信賴的映射,更是VLA需要去攻克的。

VLA的優勢在于其強大的語義理解能力,對復雜的社交互動和規則理解有天然優勢,適合用較少的顯式規則去捕捉場景中的行為意圖。對于那些希望利用“數據和模型”將駕駛經驗遷移到不同車型、不同城市的廠商而言,VLA的通用性和抽象能力是非常有吸引力的。其短板在于,對物理精度和安全約束的保障需要額外的工程手段,且其推理延遲、模型可解釋性和系統驗證的難度都相對更高。

wKgZO2kKoIiAL2zFAAAR42n7O-I766.jpg

什么是世界模型路線

世界模型的核心思想,是把環境、物體和行為都建模成一個可計算、可推演的“物理世界”,決策不用借助自然語言作為中介,可以直接在狀態空間中進行。世界模型強調“空間認知與物理推演”,它從多傳感器數據出發,能構建一個連續、可預測的世界狀態表示,并基于物理規則進行行為生成與驗證。

以華為WEWA的“云端與本地協同”模式為例,團隊可以在云端構建高保真的物理仿真環境,讓模型在虛擬世界中不斷“駕駛”并生成海量的仿真軌跡。仿真環境能提供極高的數據密度,模型可以在大量受控的、甚至是極端的場景中學習物理世界的因果關系。通過一套對模型生成行為進行打分的獎懲機制,模型可以逐漸學會在各種情境下如何規避風險,并做出合規且穩定的決策。

wKgZPGkKoImAHqqFAABlPPOGSjo215.jpg

華為WEWA技術架構,圖片源自:網絡

訓練完成后,通過模型蒸餾或壓縮技術,將復雜的云端模型轉化為能在車端實時運行的輕量版本,使得車輛能夠根據實時傳感器數據直接生成軌跡與控制命令。

世界模型的優勢在于其出色的可控性和物理一致性。因為決策是建立在明確的、可驗證的狀態與動力學模型之上,所以更容易進行形式化驗證、安全邊界檢查以及物理約束的強制執行。這對于安全關鍵場景的可解釋性和可證偽性也更為有利。由于采用的是仿真訓練,可以人為創造現實中罕見但對安全至關重要的極端場景,能有效彌補真實道路采集數據的不足,從而提升系統在危險情況下的魯棒性。

與VLA模型一樣,世界模型技術路線也有很多問題需要解決。高保真仿真、復雜動力學建模以及對自車與環境的精確重建,都需要龐大的算力支撐與成本投入,這將是一筆非常大的開銷。對于如何構建足夠多樣化的仿真環境以覆蓋現實世界的復雜性,并有效彌合“仿真與現實之間的遷移鴻溝”,也是一個需要解決的問題。此外,該路線對感知傳感器的類型與精度存在較高依賴性,若采用以激光雷達為核心的方案,將直接讓系統成本與部署門檻直接提升,進而會影響其規模化落地的進程。

世界模型的優勢在于其決策結果更接近真實的物理世界,易于注入約束并進行形式化的檢驗,仿真訓練能夠高效覆蓋各類風險場景,適合對安全性要求極高的產品化路徑。其短板在于仿真與現實的差距難以完全消除、系統建模復雜,以及對高精度傳感器的依賴可能推高整體成本。此外,在某些需要“常識”或長時序社會推理的場景下,純物理規則驅動的模型可能不如引入語言中介的模型那樣靈活和直觀。

wKgZO2kKoImASMI6AAASG3BOmsQ861.jpg

兩條路線的核心差異

將兩條路線進行比較,會發現它們在“世界如何表示”、“決策如何形成”、“訓練數據來源”以及“部署策略”這幾個維度上是完全不同的。

對于世界如何表示的問題上,VLA傾向于用語義化的token來表達世界,突出抽象概念和高層意圖,這種表示方式便于將人類知識和規則以語言形式注入系統;而世界模型則將世界表示為連續的狀態變量和實體間的空間關系,更強調幾何屬性、動力學與可預測性。

在推理機制上,VLA依賴大語言模型的語義推理能力,擅長處理長時序依賴和復雜上下文的綜合判斷,但需要將語言結論映射到具體動作,并確保其滿足物理約束;世界模型則直接在狀態空間進行物理推演和策略生成,其推理過程更貼近物理規律,結果通常更易于驗證,但在處理語義模糊、規則解釋或長時序社會行為推斷時,靈活性可能不如前者。

兩者訓練數據的來源也有明顯差異。VLA更依賴大量經過標注的多模態數據、真實道路場景數據,以及用于對齊的語言數據;世界模型則重度依賴高質量的仿真數據以及多傳感器融合的真實駕駛日志,仿真數據在數據量和場景可控性上占據明顯優勢。

兩者在部署策略上也各有側重。VLA需要更復雜的模型棧來完成從視覺到語言再到控制的完整映射,LLM帶來的推理開銷和實時性要求會影響其在車端的直接應用,因此很多技術方案中會采用輕量化、模型蒸餾或分層決策的方式,將高層規劃放在云端或開發階段,而將受嚴格約束的執行模塊部署在車端。世界模型的“云端仿真訓練、車端模型蒸餾”流程則更為直接,將仿真中學到的策略壓縮后運行在車端,車端系統可以根據實時感知直接進行物理層面的決策。

wKgZO2kKoIqAIcldAAASAJELks8845.jpg

最后的話

將VLA和世界模型放在一起比較,會發現它們各有專長,也各有局限,如果要給出誰更具優勢的結論,或許會很難。未來,VLA與世界模型或將走向深度融合的方向,VLA作為感知與決策的“大腦”,負責理解復雜場景與高層規劃;世界模型則成為控制與執行的“小腦”,確保所有動作均符合物理規律與安全邊界。

審核編輯 黃宇

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • Vla
    Vla
    +關注

    關注

    0

    文章

    20

    瀏覽量

    5893
  • 自動駕駛
    +關注

    關注

    793

    文章

    14879

    瀏覽量

    179782
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    如何構建適合自動駕駛世界模型

    [首發于智駕最前沿微信公眾號]世界模型經歷了系統動力學階段(1960年~2000年)、認知科學階段(2001年~2017年)、深度學習階段(2018年至今),但將其應用到自動駕駛汽車上,還是近幾年才
    的頭像 發表于 02-18 08:14 ?1w次閱讀
    如何構建適合<b class='flag-5'>自動駕駛</b>的<b class='flag-5'>世界</b><b class='flag-5'>模型</b>?

    2026年,3DGS和世界模型,在自動駕駛仿真中的組合應用

    寫在前面:作為自動駕駛仿真的核心支撐,3DGS與世界模型的技術落地一直備受關注。我們看到了車路漫漫的一篇文章,探討了3DGS與世界模型的路線
    的頭像 發表于 02-03 17:32 ?3193次閱讀
    2026年,3DGS和<b class='flag-5'>世界</b><b class='flag-5'>模型</b>,在<b class='flag-5'>自動駕駛</b>仿真中的組合應用

    已有VLM,自動駕駛為什么還要探索VLA?

    時(長尾場景),會因規則覆蓋不足而表現僵化。 隨著大語言模型和視覺語言模型(VLM)的爆發,開發者們意識到,如果車輛能像人類一樣擁有常識,理解什么是“潮汐車道”,知道“救護車在后方鳴笛需要避讓”,那么自動駕駛的上限將
    的頭像 發表于 02-03 09:04 ?200次閱讀
    已有VLM,<b class='flag-5'>自動駕駛</b>為什么還要探索<b class='flag-5'>VLA</b>?

    黃仁勛:未來十年很多汽車是自動駕駛 英偉達發布Alpamayo汽車大模型平臺

    最看好的AI落地場景就是自動駕駛。在演講中黃仁勛提到,未來十年,世界上很大一部分汽車將是自動駕駛或高度自動駕駛的。你期待嗎? 英偉達發布Alpamayo汽車大
    的頭像 發表于 01-06 11:45 ?1072次閱讀

    自動駕駛中常提的世界模型是什么?

    在很多廠家的技術方案中,會提到世界模型的介紹。世界模型,就是自動駕駛系統內部用來表示外部世界并預
    的頭像 發表于 01-05 16:23 ?900次閱讀

    VLA世界模型有什么不同?

    [首發于智駕最前沿微信公眾號]當前自動駕駛行業,各車企的技術路徑普遍選擇了單車智能方向。而在實際落地過程中,不同企業選擇了差異化的技術實現方式,部分車企側重于視覺—語言—動作模型(Vision
    的頭像 發表于 12-17 09:13 ?612次閱讀
    <b class='flag-5'>VLA</b>與<b class='flag-5'>世界</b><b class='flag-5'>模型</b>有什么不同?

    世界模型是讓自動駕駛汽車理解世界還是預測未來?

    ? [首發于智駕最前沿微信公眾號]世界模型自動駕駛技術中已有廣泛應用。但當談及它對自動駕駛的作用時,難免會出現分歧。它到底是讓自動駕駛汽車
    的頭像 發表于 12-16 09:27 ?864次閱讀
    <b class='flag-5'>世界</b><b class='flag-5'>模型</b>是讓<b class='flag-5'>自動駕駛</b>汽車理解<b class='flag-5'>世界</b>還是預測未來?

    VLA能解決自動駕駛中的哪些問題?

    [首發于智駕最前沿微信公眾號]很多從事自動駕駛的小伙伴應該對VLA這個概念已經非常熟悉了。VLA即“Visual-Language-Action”(視覺—語言—動作)模型,它的核心是將
    的頭像 發表于 11-25 08:53 ?484次閱讀
    <b class='flag-5'>VLA</b>能解決<b class='flag-5'>自動駕駛</b>中的哪些問題?

    模型中常提的快慢思考會對自動駕駛產生什么影響?

    2024年7月,理想汽車發布的基于端到端模型、VLM視覺語言模型世界模型的全新自動駕駛技術架構標志著其全棧自研的智能
    的頭像 發表于 11-22 10:59 ?2498次閱讀
    大<b class='flag-5'>模型</b>中常提的快慢思考會對<b class='flag-5'>自動駕駛</b>產生什么影響?

    PLC vs 嵌入式:才是工業場景的“最優”?

    PLC和嵌入式作為工業控制領域的常用方案,應該如何選擇?才是工業場景的“最優”?前言清晨7點的智能車間里,流水線的機械臂正以0.1毫米的精度抓取發動機零部件,傳感器實時反饋的溫度、
    的頭像 發表于 11-18 11:46 ?658次閱讀
    PLC vs 嵌入式:<b class='flag-5'>誰</b><b class='flag-5'>才是</b>工業場景的“<b class='flag-5'>最優</b><b class='flag-5'>解</b>”?

    自動駕駛上常提的VLA世界模型有什么區別?

    自動駕駛中常提的VLA,全稱是Vision-Language-Action,直譯就是“視覺-語言-動作”。VLA的目標是把相機或傳感器看到的畫面、能理解和處理自然語言的大模型能力,和最
    的頭像 發表于 10-18 10:15 ?1147次閱讀

    自動駕駛中常提的世界模型是個啥?

    [首發于智駕最前沿微信公眾號]隨著自動駕駛技術的不斷成熟,車輛需要在復雜多變的道路環境中安全地行駛,這就要求系統不僅能“看見”周圍的世界,還要能“理解”和“推測”未來的變化。世界模型
    的頭像 發表于 06-24 08:53 ?1124次閱讀
    <b class='flag-5'>自動駕駛</b>中常提的<b class='flag-5'>世界</b><b class='flag-5'>模型</b>是個啥?

    VLA,是完全自動駕駛的必經之路?

    芯片,以及英偉達Thor的上車,越來越多的智駕方案選擇VLA的路徑。 ? 那么本文就梳理一下當前智駕領域集中主流的大模型技術路線,以及各家廠商實現方式的區別和發展。 ? VLA 和VLM ?
    的頭像 發表于 06-18 00:06 ?9298次閱讀

    自動駕駛模型中常提的Token是個啥?對自動駕駛有何影響?

    近年來,人工智能技術迅速發展,大規模深度學習模型(即大模型)在自然語言處理、計算機視覺、語音識別以及自動駕駛等多個領域取得了突破性進展。自動駕駛作為未來智能交通的重要方向,其核心技術之
    的頭像 發表于 03-28 09:16 ?1336次閱讀

    理想汽車推出全新自動駕駛架構

    2025年3月18日,理想汽車自動駕駛技術研發負責人賈鵬在NVIDIA GTC 2025發表主題演講《VLA:邁向自動駕駛物理智能體的關鍵一步》,分享了理想汽車對于下一代自動駕駛技術M
    的頭像 發表于 03-19 14:12 ?1092次閱讀