国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

自動駕駛中常提的VLM是個啥?與VLA有什么區別?

智駕最前沿 ? 來源:智駕最前沿 ? 作者:智駕最前沿 ? 2025-08-06 08:55 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

[首發于智駕最前沿微信公眾號]自動駕駛車輛要在復雜多變的道路環境中安全行駛,不僅需要“看見”前方的車輛、行人和路面標志,還需要“讀懂”交通標識上的文字提示、施工告示牌和乘客的語言指令。之前和大家討論過VLA,了解到視覺-語言-動作模型,但在很多場景中,大家還會提到VLM,看起來與VLA非常類似,那VLM又是個啥?與VLA(Vision-Language-Action,視覺-語言-動作)又有什么區別?

wKgZO2iSp_yAHgHwAAAQo00DEvw926.jpg

什么是VLM?

VLM即視覺-語言模型(Vision–Language Model),是一類讓計算機“看懂”圖像和“讀懂”文字能力合二為一的人工智能系統,它通過在同一個模型中聯合處理視覺特征和語言信息,實現對圖片或視頻內容的深度理解與自然語言互動。VLM可以抽取圖像中的物體形狀、顏色、位置甚至動作,然后將這些視覺嵌入與文本嵌入在多模態 Transformer 中融合,讓模型學會把“畫面”映射成語義概念,再通過語言解碼器生成符合人類表達習慣的文字描述、回答問題或創作故事。通俗來說,VLM 就像擁有視覺和語言雙重感官的“大腦”,能夠在看到一張照片后,不僅識別出里面的貓狗、車輛或建筑,還能用一句話或一段話把它們生動地說出來,大大提升了 AI 在圖文檢索、輔助寫作、智能客服和機器人導航等場景中的實用價值。

wKgZO2iSp_2AEyOtAAAR42n7O-I853.jpg

如何讓VLM高效工作?

VLM可以將一幀原始的道路圖像轉換為計算機能處理的特征表示。這一過程通常由視覺編碼器完成,主流方案包括卷積神經網絡(CNN)和近年來興起的視覺Transformer(ViT)。它們會對圖像進行分層處理,提取出道路紋理、車輛輪廓、行人形狀以及路牌文字等多種視覺特征,并將它們編碼為向量形式。語言編碼器和語言解碼器則負責處理自然語言的輸入與輸出,也采用基于Transformer的架構,將文字拆分為Token,然后學習各個Token之間的語義關聯,并能夠根據給定的向量特征生成連貫的語言描述。

將視覺編碼器得到的圖像特征和語言模塊進行對齊是VLM的關鍵所在。常見的做法是通過跨模態注意力(cross-attention)機制,讓語言解碼器在生成每個文字Token時,能夠自動關注到圖像中與該文字最相關的區域。比如在識別“前方施工,請減速慢行”這句話時,模型會在圖像中著重關注黃色施工標志、交通錐或挖掘機等顯著區域,從而保證生成的文字與實際場景高度一致。整個系統可以端到端聯合訓練,也就是說模型的損失函數會同時考慮視覺特征提取的準確性和語言生成的流暢性,通過不斷迭代,將兩者的性能共同提升。

為了讓VLM更好地適應自動駕駛的特殊場景,訓練過程通常分為預訓練和微調兩個階段。在預訓練階段,會利用海量的網絡圖文,比如從互聯網收集的大規模圖片和對應的標題、說明文字,讓模型先掌握通用的視覺-語言對應關系。這一階段的目標是讓模型具備跨領域的基本能力,能識別多種物體、理解常見場景、生成自然表達。隨后,進入微調階段,需要采集自動駕駛專屬的數據集,這其中包括各種道路類型(城市道路、高速公路、鄉村公路)、多種天氣條件(晴天、雨雪、夜晚)、不同交通設施(施工區域、隧道、十字路口)等場景下的圖像,并配以專業標注的文字描述。通過這種有針對性的訓練,模型才能在實際行駛中精準識別交通標志上的文字信息,并及時生成符合交通法規和行駛安全的提示語。

在實際應用中,VLM能夠支持多種智能化功能。首先是實時場景提示。當車輛行駛在突遇施工、積水、落石等危險區域時,VLM會識別路面狀況,結合圖像中出現的施工標志、警示牌或水坑輪廓,自動生成“前方道路施工,請提前減速”或“前方積水較深,請繞行”的自然語言提示,并將該提示通過儀表盤或車載語音播報給駕駛員。其次是交互式語義問答。乘客可通過語音助手詢問“前方哪條車道最快?”、“我還能在下一個路口右轉嗎?”等問題,系統會將語音轉文字后,結合當前圖像和地圖數據,利用VLM回答“從左側車道行駛可避開前方擁堵,請注意車距”或“前方禁止右轉,請繼續直行”之類的文字回復。再者,VLM還可對路標與路牌文字識別,它不僅對交通標志的圖形進行分類,還能識別標志牌上的文字信息,將“限高3.5米”“禁止掉頭”“施工中”等信息結構化地傳遞給決策模塊。

為了讓VLM在車載環境中實時運行,通常會采用“邊緣-云協同”架構。在云端完成大規模預訓練和定期微調,將性能最優的模型權重通過OTA(Over-The-Air)下發到車載單元;車載單元部署經過剪枝、量化和蒸餾等技術優化后的輕量級推理模型,依托車載GPU或NPU在毫秒級別內完成圖像與語言的聯合推理。對于對時延要求極高的安全提示,優先使用本地推理結果;對于更加復雜的非安全場景分析,如行程總結或高級報告,則可異步將數據上傳云端進行深度處理。

數據標注與質量保障是VLM部署的另一大關鍵。標注團隊需要在不同光照、天氣、道路類型條件下采集多視角、多樣本圖像,并為每張圖像配備詳盡的文字描述。如對一張高速路施工場景的圖像,不僅要框選出施工車輛、路障和交通錐,還要撰寫“前方高速公路正在施工,左側車道封閉,請向右變道并減速至60公里/小時以內”的自然語言說明。為了保證標注一致性,通常會進行多輪審核和校驗,并引入弱監督策略對大量未標注圖像生成偽標簽,降低人工成本的同時保持數據多樣性與標注質量。

安全性與魯棒性是自動駕駛的核心要求。當VLM在雨雪、霧霾或復雜光照條件下出現識別錯誤時,系統必須迅速評估其不確定性,并及時采取冗余措施。常見做法有利用模型集成(Ensemble)或貝葉斯深度學習(BayesianDL)計算輸出置信度,當置信度低于閾值時,系統退回至傳統多傳感器融合感知結果,或提示駕駛員手動接管。與此同時,跨模態注意力的可解釋性工具能夠幫助在事故復盤時追蹤模型的決策過程,明確模型為何在某一幀圖像中生成特定提示,從而為系統迭代和責任認定提供依據。

隨著大語言模型(LLM)和大視覺模型(LVM)的持續發展,VLM將在多模態融合、知識更新和人機協同方面取得更大突破。系統不僅能處理攝像頭圖像,還會整合雷達、LiDAR和V2X(Vehicle-to-Everything)數據,使得對車輛周邊環境的感知更為全面;同時將實時獲取的交通法規更新、路政公告和氣象預報輸入語言模型,為車輛決策和提示提供最新背景知識;在交互方式上,乘客可通過語音、手勢和觸摸屏多模態聯合輸入,獲取更加自然、有效的行駛建議。

wKgZPGiSp_6AD-vSAAASG3BOmsQ338.jpg

VLA與VLM有何差別?

VLA與VLM都是大模型的重要技術,那兩者又有何區別?VLA和VLM雖然都屬于多模態大模型體系,但在模型架構、目標任務、輸出類型和應用場景上其實存在根本差異。VLM主要解決的是圖像與語言之間的關聯問題,其核心能力是對圖像進行語義理解,并通過語言表達這種理解,輸出形式通常是自然語言,例如圖像描述、視覺問答、圖文匹配、圖文生成等,代表任務包括“這張圖里有什么?”“這個圖和這段話是否匹配?”等,廣泛應用于AI助手、搜索引擎、內容生成和信息提取等領域。

VLA則是VLM的進一步擴展,它不僅需要理解圖像中的視覺信息和語言指令,還要將兩者融合后生成可執行的動作決策,輸出不再是文本,而是物理控制信號或動作計劃,例如加速、剎車、轉彎等。因此,VLA模型不僅承擔感知和理解任務,還需要完成行為決策和動作控制,是面向真實世界“感知—認知—執行”閉環系統的關鍵技術,其典型應用包括自動駕駛、機器人導航、智能操作臂等。可以說,VLM是“看懂+說清楚”,而VLA是“看懂+聽懂+做對”,前者更偏向信息理解與表達,后者則更聚焦智能體的自主行為能力和決策執行能力。

wKgZO2iSp_6AXB8kAAASAJELks8178.jpg

最后的話

視覺-語言模型通過將圖像感知與自然語言處理相結合,為自動駕駛系統提供了更豐富、更靈活的語義層面支持。它不僅能幫助車輛“看懂”復雜的道路場景,還能用“看得懂”的自然語言與人類駕駛員或乘客進行高效交互。盡管在模型體積、實時性、數據標注與安全保障等方面仍面臨挑戰,但隨著算法優化、邊緣計算與車聯網技術的不斷進步,VLM定將成為推動智能駕駛進入“感知-理解-決策”一體化時代的關鍵引擎,為未來出行帶來更高的安全性和舒適性。

審核編輯 黃宇

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 自動駕駛
    +關注

    關注

    793

    文章

    14883

    瀏覽量

    179899
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    已有VLM自動駕駛為什么還要探索VLA?

    [首發于智駕最前沿微信公眾號]自動駕駛技術正處于發展的轉折點。過去十幾年間,行業長期依賴模塊化的技術路徑,即將駕駛任務拆解為感知、預測、規劃和控制四獨立環節。這種結構雖然清晰,但在面對突發狀況
    的頭像 發表于 02-03 09:04 ?207次閱讀
    已有<b class='flag-5'>VLM</b>,<b class='flag-5'>自動駕駛</b>為什么還要探索<b class='flag-5'>VLA</b>?

    VLA能解決自動駕駛中的哪些問題?

    、語言表達和動作控制這三者整合到一統一的模型框架中。 與傳統自動駕駛系統將感知、預測、規劃、控制拆解為多個獨立模塊的做法不同,VLA可以縮短“看見什么”和“如何行動”之間的鴻溝,構建一
    的頭像 發表于 11-25 08:53 ?488次閱讀
    <b class='flag-5'>VLA</b>能解決<b class='flag-5'>自動駕駛</b>中的哪些問題?

    大模型中常的快慢思考會對自動駕駛產生什么影響?

    2024年7月,理想汽車發布的基于端到端模型、VLM視覺語言模型和世界模型的全新自動駕駛技術架構標志著其全棧自研的智能駕駛研發進入了新階段。該架構的算法原型創新性地受到了諾貝爾獎得主丹尼爾·卡尼曼
    的頭像 發表于 11-22 10:59 ?2504次閱讀
    大模型<b class='flag-5'>中常</b><b class='flag-5'>提</b>的快慢思考會對<b class='flag-5'>自動駕駛</b>產生什么影響?

    自動駕駛上常VLA與世界模型什么區別

    自動駕駛中常VLA,全稱是Vision-Language-Action,直譯就是“視覺-語言-動作”。VLA的目標是把相機或傳感器看到的
    的頭像 發表于 10-18 10:15 ?1151次閱讀

    自動駕駛中常的“專家數據”是

    [首發于智駕最前沿微信公眾號]在談及自動駕駛時,經常會聽到一概念,那便是“專家數據”。專家數據,說白了就是“按理應該這么做”的那類示范數據。它不是隨機抓來的日志,也不是隨便標注的標簽,而是來源可靠
    的頭像 發表于 10-09 09:33 ?623次閱讀
    <b class='flag-5'>自動駕駛</b><b class='flag-5'>中常</b><b class='flag-5'>提</b>的“專家數據”是<b class='flag-5'>個</b><b class='flag-5'>啥</b>?

    自動駕駛中常的ODD是

    [首發于智駕最前沿微信公眾號]在自動駕駛中,經常會聽到一概念,那就是ODD。所謂ODD,全稱為Operational Design Domain,中文常譯為“運行設計域”或者“作業域”。直觀一點
    的頭像 發表于 09-22 09:04 ?906次閱讀
    <b class='flag-5'>自動駕駛</b><b class='flag-5'>中常</b><b class='flag-5'>提</b>的ODD是<b class='flag-5'>個</b><b class='flag-5'>啥</b>?

    自動駕駛中常的硬件在環是

    [首發于智駕最前沿微信公眾號]在談及自動駕駛技術時,經常會提及一技術,那就是硬件在環,所謂的硬件在環是?對于自動駕駛來說
    的頭像 發表于 08-14 08:54 ?1249次閱讀

    自動駕駛中常的RTK是

    [首發于智駕最前沿微信公眾號]在談及自動駕駛關鍵技術時,經常會聽到一技術,那就是RTK,很多人看到RTK后一定會想,這到底是技術?為啥這個技術很少在發布會上看到,但對于
    的頭像 發表于 08-10 10:35 ?1134次閱讀
    <b class='flag-5'>自動駕駛</b><b class='flag-5'>中常</b><b class='flag-5'>提</b>的RTK是<b class='flag-5'>個</b><b class='flag-5'>啥</b>?

    自動駕駛中常的慣性導航系統是?可以不用嗎?

    每次提到自動駕駛硬件時,大家可能第一反應想到的是激光雷達、車載攝像頭、毫米波雷達等,但想要讓自動駕駛車輛實際落地,硬件也非常重要,那就是慣性導航系統。在很多討論
    的頭像 發表于 07-24 18:12 ?1929次閱讀
    <b class='flag-5'>自動駕駛</b><b class='flag-5'>中常</b><b class='flag-5'>提</b>的慣性導航系統是<b class='flag-5'>個</b><b class='flag-5'>啥</b>?可以不用嗎?

    自動駕駛中常的高精度地圖是何審查要求?

    不僅在空間分辨率和數據豐富度上有質的飛躍,還在數據處理與安全管理方面提出了更嚴格的規范。那高精度地圖到底是?是否什么具體需求? 高精度地圖,顧名思義,是一種面向自動駕駛的高分辨率
    的頭像 發表于 07-03 19:29 ?962次閱讀
    <b class='flag-5'>自動駕駛</b><b class='flag-5'>中常</b><b class='flag-5'>提</b>的高精度地圖是<b class='flag-5'>個</b><b class='flag-5'>啥</b>?<b class='flag-5'>有</b>何審查要求?

    自動駕駛中常的世界模型是

    對外部環境進行抽象和建模的技術,讓自動駕駛系統在一簡潔的內部“縮影”里,對真實世界進行描述與預測,從而為感知、決策和規劃等關鍵環節提供有力支持。 什么是世界模型? 我們不妨先把“世界模型”想象成一種“數字化的地
    的頭像 發表于 06-24 08:53 ?1129次閱讀
    <b class='flag-5'>自動駕駛</b><b class='flag-5'>中常</b><b class='flag-5'>提</b>的世界模型是<b class='flag-5'>個</b><b class='flag-5'>啥</b>?

    自動駕駛中常的HMI是

    [首發于智駕最前沿微信公眾號]在自動駕駛汽車領域,HMI(Human–Machine Interface,人機交互界面)正成為很多車企相互競爭的一大領域。之所以如此,是因為在車輛從“人控”過渡到“機
    的頭像 發表于 06-22 13:21 ?2342次閱讀

    自動駕駛中常的“點云”是

    ?對自動駕駛何影響? 點云是? 點云(Point Cloud)是一種在三維空間中由大量離散點組成的數據集合,每個點包含自身的笛卡爾坐
    的頭像 發表于 05-21 09:04 ?1140次閱讀
    <b class='flag-5'>自動駕駛</b><b class='flag-5'>中常</b><b class='flag-5'>提</b>的“點云”是<b class='flag-5'>個</b><b class='flag-5'>啥</b>?

    自動駕駛中常的“NOA”是

    近年來,自動駕駛技術發展迅速,業界不斷探索如何在復雜交通場景中實現真正的無人駕駛。城市NOA作為自動駕駛的一項前沿技術,正成為各大廠商相互爭奪的關鍵技術。 何為NOA? NOA,全稱
    的頭像 發表于 04-09 09:03 ?3089次閱讀
    <b class='flag-5'>自動駕駛</b><b class='flag-5'>中常</b><b class='flag-5'>提</b>的“NOA”是<b class='flag-5'>個</b><b class='flag-5'>啥</b>?

    自動駕駛大模型中常的Token是?對自動駕駛何影響?

    、多模態傳感器數據的實時處理與決策。在這一過程中,大模型以其強大的特征提取、信息融合和預測能力為自動駕駛系統提供了有力支持。而在大模型的中,“Token”的概念,有些人看到后或許會問: Token是
    的頭像 發表于 03-28 09:16 ?1338次閱讀