[首發于智駕最前沿微信公眾號]今天繼續來回答小伙伴的提問,最近有一位小伙伴提問,VLA模型中的理解是不是也基于一些預置的規則指導行動的?其實這個問題非常值得討論,今天智駕最前沿就帶大家詳細聊一聊。

視覺-語言-動作(VLA)模型是什么?
在講今天的內容之前,要先把VLA講清楚。視覺-語言-動作模型(Vision-Language-Action Model,簡稱VLA)是近年來機器人和人工智能領域興起的一類模型。它的目標是讓一臺機器“看懂世界”、“理解任務指令”,然后自己去執行動作。

圖片源自:網絡
舉個例子,一臺機器人面對一個裝滿玩具的桌子,你用語言告訴它“把紅色球放進盒子里”,它就需要先“看見”桌子上的東西,分辨出哪個是紅色球和盒子;然后它要理解你說的這句話的意思;最后它得控制自己的機械臂抓起球并放到指定位置。VLA模型的意義就在于把這三個任務整合起來,而不是像傳統機械那樣把每個步驟拆開做。
一個典型的VLA模型會包括兩個核心部分,一個是視覺-語言編碼器(Vision-Language Encoder),負責把圖像和語言輸入映射成機器內部可以處理的表示;另一個是動作解碼器(Action Decoder),負責根據這種內部表示生成具體執行動作的命令。這樣的架構可以在一次前向計算中把視覺信息和語言指令結合起來,直接輸出機械動作或控制信號。
之所以會提出VLA模型,是因為傳統機器人系統會將視覺感知、語言理解和動作規劃拆成不同模塊,這種模塊化系統在復雜環境下很難協同,而且對場景變化的適應性較差。VLA模型的端到端方法試圖讓感知、理解和行動融成一個整體,從而具備更自然、更接近人類操作的能力。

VLA模型里所謂的“理解”到底是什么?
很多人聽到AI具備“理解能力”,就會自然而然聯想到傳統程序里如“如果看到紅色球,就執行抓取動作”這樣的規則判斷。這種規則式的思考可以讓行為動作有據可循,但VLA模型的理解并不是這種有明確規則的程序邏輯。恰恰相反,它沒有預定義的、用編程手寫的規則來指導每一次動作如何執行。它的理解來自于大量示例學習出來的關聯模式。
換句話說,VLA模型的“理解”不是提前寫好的指令集,而是一種端到端學習得到的內部能力。在訓練階段,模型會被喂入大規模的訓練數據,這些數據是由很多真實或模擬場景組成的三元組,即視覺輸入+自然語言指令+與之對應的動作軌跡。如在數據里可能有這樣的記錄,“圖像是桌面場景,語言是把杯子放進箱子,動作序列是機械手臂移動并完成抓取動作”。模型通過反復“看見+讀懂+對比正確動作”這樣的樣本,逐漸學習出視覺特征、語言表征和動作輸出之間的統計關系。
這種學習是統計意義上的,而不是邏輯規則式的。模型并沒有一個明確的代碼告訴它“紅色就是要抓取”,它只是從數據里看到在大量場景中,當出現“紅色球”和相關指令時,執行某些動作是合適的。
從這個角度看,“理解”在VLA中更像是一種統計上的推斷能力,模型不是在判斷一個明確的規則是否滿足,而是在根據它已經學到的多模態關聯進行預測。理解語言成分時,就類似人類語言模型的方式;理解視覺信息時,責利用視覺編碼器提取場景特征;動作的輸出則是在學習中形成的概率式策略。這種能力的組成是多種網絡層結構和訓練方法協同的結果,而不是單個模塊的規則引擎決定的。

VLA模型內部是怎么做到“理解”的?
為了更清楚地解釋VLA模型內部“理解”是怎么發生的,可以把VLA模型拆成幾個部分來簡單理解。
在視覺模塊,計算機視覺網絡會把攝像頭捕獲的畫面轉換成一組高維特征,這些特征描述了場景里物體的位置、顏色、形狀等信息,而且這種轉換過程不是通過預定義規則實現的,而是通過視覺編碼器(比如Transformer或深度學習某些架構)學習得到的。這些視覺編碼器能夠把像素轉換成更抽象、對任務有意義的表示,這是一種由數據學習出來的視覺理解能力。
語言模塊和現在流行的大語言模型類似,它會把自然語言指令轉換成機器內部可以處理的語義向量。語言模塊并不把指令拆成明確步驟,而是把語言映射成一種語義空間表示,在這個表示里任務目標、動作意圖等信息可以被進一步處理。這樣的語言編碼能力本身也是從大量文本和指令數據中學習出來的。
在視覺和語言的編碼結果都轉化成內部表示之后,模型內部有一個融合層或者共同的潛在空間表示,它把兩種不同模態的表示合并起來,使視覺信息和語言目標能夠結合成一個綜合的表示。在這一層,模型學習到視覺場景中的哪些對象和語義指令相關聯。就拿前文中機器人拿紅球的例子來簡單理解下,如果語言里提到了“紅色球”,視覺編碼器的特征里有一種與紅色物體相關的高維向量,模型就會將它們關聯起來。
融合后的內部表示會傳到動作解碼器,這一步負責將綜合表達轉化成具體的動作命令。動作解碼器的輸出可以是機器人關節的控制信號、路徑規劃參數等。在訓練時模型已經見過大量這樣的輸入—輸出對,所以它能學會在給定視覺和語言條件下如何輸出正確動作。這樣的輸出并不是由預設規則決定的,而是由模型內部網絡結構和權重計算得到的最優動作預測。
上面說的整個過程看上去像一個黑箱,輸入是一張圖像和一句話,輸出是一組動作命令,中間有大量的矩陣乘法和非線性變換在發生,而這些都是統計學習得到的映射關系。

最后的話
回到最初的問題,VLA模型里的理解是不是基于一些預置的規則來指導行動?
答案是:不是。VLA模型內部不依賴傳統意義上的預先寫好的規則。它的理解和動作生成能力來自于對大量視覺—語言—動作示例的學習過程。在學習結束后,模型能在看到新的圖像和語言指令時,通過內部的潛在空間表示和映射關系生成合理的動作輸出,這種能力更像是一種通過數據訓練出來的模式匹配和策略生成能力,而不是靠寫好的規則集合。
這樣的設計讓VLA模型具備了更強的泛化能力和適應性,但同時也意味著它不像規則驅動系統那樣容易解釋或明確驗證。這種“學習出來的理解”是一種統計形式的能力,這類模型有望在更多復雜任務中表現得越來越像我們所理解的“智能體”。
審核編輯 黃宇
-
模型
+關注
關注
1文章
3751瀏覽量
52099 -
Vla
+關注
關注
0文章
20瀏覽量
5893
發布評論請先 登錄
2500 TOPS!特斯拉HW5智駕算力怪獸突擊,國產VLA火速進化
已有VLM,自動駕駛為什么還要探索VLA?
Nullmax VLA算法深度賦能黑芝麻智能華山A2000芯片
黑芝麻智能華山A2000芯片與Nullmax VLA算法完成深度適配
全球首車搭載元戎啟行VLA模型,魏牌藍山智能進階版重磅上市
NVIDIA推動面向數字與物理AI的開源模型發展
VLA能解決自動駕駛中的哪些問題?
VLA和世界模型,誰才是自動駕駛的最優解?
自動駕駛上常提的VLA與世界模型有什么區別?
量產交付超10萬輛!元戎啟行攜DeepRoute IO 2.0平臺及VLA模型亮相德國IAA
基于大規模人類操作數據預訓練的VLA模型H-RDT
VLA,是完全自動駕駛的必經之路?
元戎啟行周光:VLA模型將于2025年第三季度量產
VLA模型是基于預置規則來指導行動嗎?
評論