国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

VLA與世界模型有什么不同?

智駕最前沿 ? 來源:智駕最前沿 ? 作者:智駕最前沿 ? 2025-12-17 09:13 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

[首發(fā)于智駕最前沿微信公眾號]當前自動駕駛行業(yè),各車企的技術路徑普遍選擇了單車智能方向。而在實際落地過程中,不同企業(yè)選擇了差異化的技術實現(xiàn)方式,部分車企側(cè)重于視覺—語言—動作模型(Vision Language Action,VLA),另一些則致力于構(gòu)建并應用世界模型(World Model)。這兩種路徑有什么不同?

wKgZO2lCA5yADblnAAAQo00DEvw314.jpg

什么是VLA,什么是世界模型

先說說VLA。VLA是英文Vision-Language-Action的縮寫,即視覺—語言—動作。也就是說,這種模型把視覺感知、語言/語義理解/推理和動作/控制輸出這三步融合到一個端到端(end-to-end)的體系里。

wKgZPGlCA5yAOWtBAACupHq5c98893.jpg

圖片源自:網(wǎng)絡

VLA先通過攝像頭(或其他傳感器)獲取環(huán)境信息,再用視覺編碼器把它轉(zhuǎn)成特征向量,然后把這些視覺特征“翻譯”到類似語言模型(LLM,large language model)可以理解的語義空間里,通過語言模型進行高層推理、判斷(如識別車道線、行人、交通標志,甚至判斷行人的意圖、交通規(guī)則優(yōu)先級、當前場景該采取什么策略等等),語言模型的“結(jié)論”將會被送到動作生成模塊,直接輸出控制指令(例如轉(zhuǎn)向、加減速、軌跡規(guī)劃)。

VLA的主要作用就是讓自動駕駛汽車具備“看、想、做”的能力,從視覺信息到動作輸出,中間有進行了思考、推理、語義理解的環(huán)節(jié),而不是簡單的感知→規(guī)劃→控制那種模塊化規(guī)則的方式。

再說世界模型。世界模型的核心,是在模型大腦中里構(gòu)建一個對外部世界的虛擬、內(nèi)部模型。也就是說,它不只是看到當前路況,而是嘗試理解世界的物理規(guī)律、交通規(guī)則、各種動態(tài)變化,然后在這個內(nèi)部模型里模擬、推演、預測未來可能的場景。如可以預測前方那輛車會不會突然轉(zhuǎn)向、行人是否會沖出、天氣或光線變化會有怎樣影響等,通過對交通環(huán)境的預測,可以輔助決策、規(guī)劃、甚至策略驗證。

世界模型常被用來做仿真、模擬,通過大規(guī)模模擬極端、稀有場景、長尾場景,為自動駕駛系統(tǒng)訓練、驗證、生成數(shù)據(jù)。也能讓系統(tǒng)在內(nèi)部預演并判斷風險,而不僅僅依賴當前看到的畫面。

簡而言之:

VLA=視覺+語言(語義)+動作,通過一個端到端體系,把“看、理解、做”連起來。

世界模型=在“腦子里”建立對世界的模型、仿真,讓系統(tǒng)可以想象未來、做預測/推理,從而判斷風險。

wKgZPGlCA52AKc3cAAAR42n7O-I560.jpg

為什么車企會選擇這兩個方向?

現(xiàn)階段眾多車企在這兩個方向并行投入,都期望這兩項技術能給自動駕駛的落地帶來更多可能。之所以會這樣,是因為自動駕駛對復雜性、不確定性、安全性、長尾場景的高要求,傳統(tǒng)的模塊化+規(guī)則/規(guī)劃+靜態(tài)預測模式在真實交通場景中無法完全應對。

傳統(tǒng)的自動駕駛系統(tǒng),主流架構(gòu)普遍采用“感知→規(guī)劃→控制”的模塊化設計。其通過攝像頭、毫米波雷達、激光雷達等傳感器采集環(huán)境數(shù)據(jù),交由感知模塊進行目標檢測、分類與跟蹤,識別如行人、車輛、車道線等關鍵信息;規(guī)劃模塊再依據(jù)感知結(jié)果,結(jié)合預設規(guī)則與預測模型,生成軌跡、速度及加減速等決策;控制模塊將根據(jù)決策執(zhí)行具體的轉(zhuǎn)向、油門及制動指令。

wKgZO2lCA52AXwGdAACTt6NWpsc244.jpg

圖片源自:網(wǎng)絡

但隨著自動駕駛車輛在道路上應用越來越多,復雜的路況、場景的動態(tài)多變以及邊緣案例的持續(xù)涌現(xiàn),讓基于固定規(guī)則與靜態(tài)預測的串聯(lián)式架構(gòu)局限凸顯,難以覆蓋所有潛在場景,尤其在長尾與極端情況下,系統(tǒng)的適應能力與魯棒性面臨顯著挑戰(zhàn)。

于是,人們希望自動駕駛系統(tǒng)能像老司機一樣,不只是看見世界,還能“理解”、能“推理”、能“預測未來”、能“靈活應對變化”。VLA和世界模型正是基于此出現(xiàn)的。

wKgZPGlCA56AdX00AAASG3BOmsQ662.jpg

各自優(yōu)勢與局限

1)VLA的優(yōu)勢

語義理解+可解釋性

因為VLA將視覺信息“翻譯”成語義(類似語言描述),所以它更貼近人類理解世界的方式。對于如行人、騎車人、交通標志、交互意圖等復雜交通場景,VLA的語言推理能力就表現(xiàn)出其優(yōu)勢性。

端到端+整體優(yōu)化

端到端模型中,從感知到動作的流程都被統(tǒng)一在一個模型里,中間沒有太多手工設定的規(guī)則和模塊邊界,使得它理論上可以通過大數(shù)據(jù)訓練、學習,從經(jīng)驗里學會開車該怎樣反應,從而體現(xiàn)出較強的泛化能力。

適合復雜語義場景+人機交互

自動駕駛系統(tǒng)需要實現(xiàn)與人類的高效協(xié)同,如準確理解請在前方便利店臨時停車等自然語言指令,或在必要時向用戶解釋因左側(cè)行人突然靠近而制動等決策原因。VLA技術所具備的多模態(tài)語義對齊與自然語言處理能力顯現(xiàn)出其獨特價值。其架構(gòu)天然支持復雜語義的解析、推理與生成,能夠為人機交互提供直觀、可解釋的溝通界面,從而增強系統(tǒng)的可理解性與用戶體驗。

2)VLA的局限

對環(huán)境物理動態(tài)+長尾、稀有場景的預測能力弱

VLA本質(zhì)是“看到+推理+輸出”,如果只是基于當前畫面做判斷,沒有對未來可能變化(比如前方車輛突然緊急剎車、行人沖出、雨雪、光照變化等)做足夠仿真及預測,就可能反應不夠及時或不夠安全。

監(jiān)督信號稀疏/學習不充分

一些最新研究指出,僅靠動作輸出(方向盤轉(zhuǎn)角/加速/制動)作為監(jiān)督,對于一個容量很大的VLA模型來說可能遠遠不夠,有可能讓模型的大部分潛能無法利用。近期就有研究提出把世界建模(預測未來畫面)加到VLA的訓練中,以獲得更豐富、更密集的監(jiān)督信號。

實時性、計算資源消耗

端到端大模型整合了多模態(tài)感知與直接動作生成,若進一步要求其具備長短時預測與復雜場景推理能力,將面臨算力需求、實時延遲及能效挑戰(zhàn)。這在車載嵌入式平臺上尤為突出,這樣成為其實際落地應用中必須攻克的難題。

3)世界模型的優(yōu)勢

對未來、動態(tài)、復雜場景的“預測+仿真+規(guī)劃”能力強

通過在內(nèi)部建立對世界的模型,系統(tǒng)可以不僅看到當下,還可以推演未來,從而實現(xiàn)如模擬前車可能剎車、行人可能穿過、光照/天氣可能變、車輛可能并線等等預測,然后提前規(guī)劃最安全/穩(wěn)妥的動作。這對于自動駕駛尤其重要,因為真實道路環(huán)境充滿變化、不確定和突發(fā)性。

適合大規(guī)模訓練/長尾/極端場景生成

在真實交通環(huán)境中,某些危險或極端情況很難大量收集(比如夜間雨雪、大霧、極端行人行為、突發(fā)障礙物等),但用世界模型可以“仿真”這些情況,用來訓練、驗證、測試自動駕駛系統(tǒng),增強其魯棒性和安全性。

提供冗余、安全校驗機制

即使主系統(tǒng)(決策/動作模塊)出現(xiàn)問題,世界模型也能作為“虛擬大腦”進行冗余判斷、風險分析、仿真校驗。某些設計還會把輕量世界模型放到車端,用作校驗及安全網(wǎng)。

4)世界模型的局限

構(gòu)建和訓練復雜

要讓世界模型準確反映真實的交通環(huán)境,必須對車輛動力學、交通規(guī)則、不確定性因素及行人行為等多維要素進行高保真度建模。這種對物理、社會及動態(tài)規(guī)則的高精度模擬,對數(shù)據(jù)質(zhì)量、計算規(guī)模與系統(tǒng)設計均提出了極高要求。正因如此,早期世界模型在實現(xiàn)實時推理與高效部署時存在諸多問題,尤其在GPU算力加速與車規(guī)級延遲約束下,其工程化應用受到較大限制。

與語義理解/規(guī)則/常識融合較弱

純世界模型偏重物理+動態(tài)+預測/仿真/規(guī)劃,但對復雜語義、交通規(guī)則、行人意圖、社會交互規(guī)則這些語義+常識+規(guī)則+語言的范疇不一定做得很好。對于某些需要語義理解、規(guī)則判斷、解釋及交互的場景,表現(xiàn)將不夠靈活。

可解釋性/透明性可能較差

世界模型的核心機制在于對物理規(guī)律與動態(tài)場景進行內(nèi)部仿真與數(shù)值化概率推演,其決策過程依賴于高維隱式狀態(tài)空間的建模與計算。但這種基于數(shù)值模擬的推理方式,在對外輸出時難以轉(zhuǎn)化為人類可直觀理解的語義解釋。在自動駕駛的安全驗證、法規(guī)合規(guī)、責任界定與系統(tǒng)可審計性等實際落地要求中,這種“黑箱”特性成為了不得不去面對的問題。

wKgZPGlCA5-AN01pAAASAJELks8686.jpg

最后的話

VLA和世界模型,看起來像是自動駕駛領域里兩種不同的“腦子設計方式”,VLA讓車具備“看到+理解+判斷+動作”的能力;世界模型則給車提供了一個“內(nèi)部虛擬世界+預測/仿真/推演未來”的能力。但在方向選擇上,智駕最前沿以為,如果能把兩條路結(jié)合起來、互補使用,或許可以讓自動駕駛真正安全、智能、穩(wěn)定地落地。

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • Vla
    Vla
    +關注

    關注

    0

    文章

    20

    瀏覽量

    5893
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    2500 TOPS!特斯拉HW5智駕算力怪獸突擊,國產(chǎn)VLA火速進化

    芯片水平。與此同時,國內(nèi)車企如小鵬、理想等也在加速自身技術進化,推出基于VLA的新一代智能駕駛解決方案。 ? 未來,特斯拉能否憑借HW5與FSD技術“王者歸來”,而國內(nèi)車企又能否以VLA模型落地實現(xiàn)鞏固競爭優(yōu)勢?這場圍繞算力、算
    的頭像 發(fā)表于 06-20 09:05 ?8346次閱讀
    2500 TOPS!特斯拉HW5智駕算力怪獸突擊,國產(chǎn)<b class='flag-5'>VLA</b>火速進化

    如何構(gòu)建適合自動駕駛的世界模型

    [首發(fā)于智駕最前沿微信公眾號]世界模型經(jīng)歷了系統(tǒng)動力學階段(1960年~2000年)、認知科學階段(2001年~2017年)、深度學習階段(2018年至今),但將其應用到自動駕駛汽車上,還是近幾年才
    的頭像 發(fā)表于 02-18 08:14 ?1w次閱讀
    如何構(gòu)建適合自動駕駛的<b class='flag-5'>世界</b><b class='flag-5'>模型</b>?

    黑芝麻智能華山A2000芯片與Nullmax VLA算法完成深度適配

    黑芝麻智能正式向全球市場推出的新一代高性能全場景智能駕駛芯片華山A2000,與 Nullmax VLA 算法完成深度適配,共同推動輔助駕駛技術向更高階演進!
    的頭像 發(fā)表于 01-07 14:50 ?360次閱讀

    自動駕駛中常提的世界模型是什么?

    在很多廠家的技術方案中,會提到世界模型的介紹。世界模型,就是自動駕駛系統(tǒng)內(nèi)部用來表示外部世界并預測未來演變的一組
    的頭像 發(fā)表于 01-05 16:23 ?900次閱讀

    VLA模型是基于預置規(guī)則來指導行動嗎?

    。 視覺-語言-動作(VLA模型是什么? 在講今天的內(nèi)容之前,要先把VLA講清楚。視覺-語言-動作模型(Vision-Language-Action Model,簡稱
    的頭像 發(fā)表于 12-25 09:22 ?1244次閱讀
    <b class='flag-5'>VLA</b><b class='flag-5'>模型</b>是基于預置規(guī)則來指導行動嗎?

    全球首車搭載元戎啟行VLA模型,魏牌藍山智能進階版重磅上市

    近日,魏牌全新藍山智能進階版正式上市,成為全球首款搭載元戎啟行VLA(Vision-Language-Action)模型的量產(chǎn)車型。這不僅意味著VLA模型完成從技術研發(fā)到量產(chǎn)上車的閉環(huán)
    發(fā)表于 12-23 16:09 ?2315次閱讀
    全球首車搭載元戎啟行<b class='flag-5'>VLA</b><b class='flag-5'>模型</b>,魏牌藍山智能進階版重磅上市

    世界模型是讓自動駕駛汽車理解世界還是預測未來?

    ? [首發(fā)于智駕最前沿微信公眾號]世界模型在自動駕駛技術中已有廣泛應用。但當談及它對自動駕駛的作用時,難免會出現(xiàn)分歧。它到底是讓自動駕駛汽車得以理解世界,還是為其提供了預測未來的視角? 世界
    的頭像 發(fā)表于 12-16 09:27 ?864次閱讀
    <b class='flag-5'>世界</b><b class='flag-5'>模型</b>是讓自動駕駛汽車理解<b class='flag-5'>世界</b>還是預測未來?

    VLA能解決自動駕駛中的哪些問題?

    [首發(fā)于智駕最前沿微信公眾號]很多從事自動駕駛的小伙伴應該對VLA這個概念已經(jīng)非常熟悉了。VLA即“Visual-Language-Action”(視覺—語言—動作)模型,它的核心是將視覺信息
    的頭像 發(fā)表于 11-25 08:53 ?483次閱讀
    <b class='flag-5'>VLA</b>能解決自動駕駛中的哪些問題?

    VLA世界模型,誰才是自動駕駛的最優(yōu)解?

    [首發(fā)于智駕最前沿微信公眾號]隨著自動駕駛技術發(fā)展,其實現(xiàn)路徑也呈現(xiàn)出兩種趨勢,一邊是以理想、小鵬、小米為代表的VLA(視覺—語言—行動)模型路線;另一邊則是以華為、蔚來為主導的世界模型
    的頭像 發(fā)表于 11-05 08:55 ?777次閱讀
    <b class='flag-5'>VLA</b>和<b class='flag-5'>世界</b><b class='flag-5'>模型</b>,誰才是自動駕駛的最優(yōu)解?

    自動駕駛上常提的VLA世界模型什么區(qū)別?

    自動駕駛中常提的VLA,全稱是Vision-Language-Action,直譯就是“視覺-語言-動作”。VLA的目標是把相機或傳感器看到的畫面、能理解和處理自然語言的大模型能力,和最終控制車輛
    的頭像 發(fā)表于 10-18 10:15 ?1147次閱讀

    基于大規(guī)模人類操作數(shù)據(jù)預訓練的VLA模型H-RDT

    近年來,機器人操作領域的VLA模型普遍基于跨本體機器人數(shù)據(jù)集預訓練,這類方法存在兩大局限:不同機器人本體和動作空間的差異導致統(tǒng)一訓練困難;現(xiàn)有大規(guī)模機器人演示數(shù)據(jù)稀缺且質(zhì)量參差不齊。得益于近年來VR
    的頭像 發(fā)表于 08-21 09:56 ?1095次閱讀
    基于大規(guī)模人類操作數(shù)據(jù)預訓練的<b class='flag-5'>VLA</b><b class='flag-5'>模型</b>H-RDT

    自動駕駛中常提的世界模型是個啥?

    [首發(fā)于智駕最前沿微信公眾號]隨著自動駕駛技術的不斷成熟,車輛需要在復雜多變的道路環(huán)境中安全地行駛,這就要求系統(tǒng)不僅能“看見”周圍的世界,還要能“理解”和“推測”未來的變化。世界模型可以被看作一種
    的頭像 發(fā)表于 06-24 08:53 ?1124次閱讀
    自動駕駛中常提的<b class='flag-5'>世界</b><b class='flag-5'>模型</b>是個啥?

    世界模型:多模態(tài)融合+因果推理,解鎖AI認知邊界

    電子發(fā)燒友網(wǎng)綜合報道 在人工智能的蓬勃發(fā)展進程中,世界模型正嶄露頭角,成為推動其邁向更高智能水平的關鍵力量。世界模型作為 AI 系統(tǒng)對外部世界
    的頭像 發(fā)表于 06-23 04:49 ?4049次閱讀

    VLA,是完全自動駕駛的必經(jīng)之路?

    芯片,以及英偉達Thor的上車,越來越多的智駕方案選擇VLA的路徑。 ? 那么本文就梳理一下當前智駕領域集中主流的大模型技術路線,以及各家廠商實現(xiàn)方式的區(qū)別和發(fā)展。 ? VLA 和VLM ?
    的頭像 發(fā)表于 06-18 00:06 ?9298次閱讀

    元戎啟行周光:VLA模型將于2025年第三季度量產(chǎn)

    2025年6月11日,元戎啟行CEO周光受邀出席2025年火山引擎Force原動力大會,宣布元戎啟行將攜手火山引擎,基于豆包大模型,共同研發(fā)VLA等前瞻技術,打造物理世界的Agent。同時,周光宣布
    發(fā)表于 06-12 09:45 ?1322次閱讀
    元戎啟行周光:<b class='flag-5'>VLA</b><b class='flag-5'>模型</b>將于2025年第三季度量產(chǎn)