[首發于智駕最前沿微信公眾號]最近發現越來越多小伙伴跨行到了具身智能領域,對于習慣了處理車輛縱向驅動與橫向轉向的汽車工程師來說,具身智能并不是一個完全陌生的領域,但也有很大的區別。
自動駕駛本質上是讓輪式平臺安全、平順地穿過結構化交通環境,而具身智能則要求智能體擁有能夠改變物理世界的身體。這意味著技術關注點從關注交通規則和障礙物包圍框轉向理解復雜的物理力學、精細的接觸反饋以及長程的任務邏輯。
汽車工業積累的量產經驗、線控底盤技術以及高并發仿真工具,正成為這一領域爆發的底層支撐。正如特斯拉將原本用于FSD的視覺算法直接遷移到Optimus機器人上,汽車工程師的技術背景在具身智能時代擁有天然的準入優勢。

感知系統,從看清環境到理解接觸
自動駕駛感知的核心任務是構建環境地圖并識別障礙物。工程師通常使用3D邊界框(Bounding Box)來標注車輛或行人的位置,目標是計算出足夠的安全冗余以實現避讓。
具身智能的感知邏輯則發生了質變,它不再只是為了躲避,而是為了交互。這意味著感知系統必須能夠識別物體的6D位姿,即不僅要知道物體在哪里,還要精準掌握它在空間中的旋轉角度和幾何細節。舉個例子,如果智能體感知不到杯子柄的具體斜率或瓶蓋的細微螺紋,后續的抓取與操作就無從談起。

圖片源自:網絡
具身智能還引入了觸覺感知,汽車除了安全氣囊相關的壓力感應外,幾乎不需要感知外部物體的物理接觸。但在具身智能領域,觸覺是閉環控制中不可或缺的一環。
Figure 03機器人指尖集成的觸覺傳感器就可以感知低至3克的壓力,這讓它能夠像人一樣捏起細小的紙夾或處理易碎的蛋殼。
這種“近場感知”要求工程師從關注激光雷達的遠距離建模,轉向關注RGB-D相機、掌心攝像頭以及觸覺陣列的多模態融合。
具身智能感知的維度從視覺語義擴展到了硬度、摩擦系數和質心位置等物理屬性。這種轉變要求不再將感知看作獨立的輸入模塊,而是將其與動作邏輯深度耦合,實現邊看邊動的實時反饋。

規劃系統,從軌跡搜索到語義任務的對齊
自動駕駛的規劃器主要在Frenet坐標系下解決路徑的平滑度與安全性問題,通過編寫復雜的狀態機或搜索算法來處理換道、路口通行等離散場景。
但在具身智能面對的非結構化環境(如家庭或車間)中,任務往往是長程且連續的,做的是從凌亂的桌面找出扳手并遞給人類這樣的工作。這種任務無法通過窮舉狀態機來實現,必須轉向基于視覺語言動作模型(VLA)的內生邏輯。
這意味著規劃系統走向了端到端語義執行方向。Figure AI的Helix系統已經實現了超過4分鐘的端到端自主執行,期間涵蓋了行走、平衡和雙臂協作,沒有任何人為預設的硬代碼跳轉。

圖片源自:網絡
對于汽車工程師而言,進入具身智能領域后,原本用于決策的路權邏輯正在被任務意圖所取代。需要關注的不再是車輛是否壓線,而是要關注智能體如何理解人類指令,并將其拆解為一系列符合物理常識的微動作。
在具身智能中,規劃不僅是軌跡的生成,更是全身重心的動態調配。不同于車輛穩定的四輪支撐,人形機器人或多足機器人在移動和操作時,任何肢體擺動都會劇烈改變系統質心。
特斯拉在研發Optimus時,將原本用于FSD的路徑規劃器改造成了能夠生成全身關節角度的生成模型,這種跨越業要求跨領域的小伙伴需要更多地理解物理世界的因果關系,而不僅僅是交通規則。

控制能力,從車輛穩定到全身動力學閉環
在控制領域,汽車工程師長期處理的是縱向加速和橫向轉向的解耦控制。電子穩定性控制等技術主要關注的是維持四輪附著力。
當執行器數量從車輛的幾個電機爆發到機器人的幾十個關節(如Optimus Gen 3的50個執行器)時,控制的復雜性呈現出指數級增長。這要求工程師掌握全身控制技術,在滿足平衡約束的前提下,實現多關節的協同作業。

圖片源自:網絡
具身智能的控制核心在于處理“非連續接觸”產生的物理沖擊。汽車行駛中輪胎與地面的接觸相對連續,但機器人在行走或抓取瞬間,物理方程會發生突變。
為了保證系統不崩潰,模型預測控制(MPC)成為了連接高層指令與底層扭矩執行的橋梁。通過高頻(通常大于500Hz)的閉環計算,系統可以預判并補償肢體接觸帶來的力矩波動。
這種精密度要求跨行的小伙伴從傳統的單變量PID控制轉向更復雜的動力學建模。例如,在處理靈巧手操作時,需要實時解算雅可比矩陣,以保證手指末端能以毫米級的精度施加毫牛級的力量。這不僅是軟件算法的挑戰,更是對線控執行器性能的極致壓榨。

想換行,汽車工程師需要補齊哪些板磚?
汽車工程師從自動駕駛轉往具身智能,并非從零開始,但很多技術重新學習。
最基礎的知識缺口在于“機器人運動學與動力學”。汽車工程中對車輛模型的簡化(如單軌模型或二自由度模型)在處理多關節機器人時完全失效。因此需要系統學習空間描述與變換、Denavit-Hartenberg (D-H) 參數法、以及通過雅可比矩陣建立關節速度與末端執行器速度之間的映射關系。
這是理解機器人如何“動起來”的基礎,也是從宏觀車輛動力學轉向精密機構動力學的必經之路。
具身智能對AI算法的依賴已經從簡單的目標檢測轉向了“多模態大模型”。汽車工程師習慣于處理規則代碼和小型神經網絡,而現在必須掌握Transformer架構、視覺語言模型(VLM)以及擴散模型在動作生成中的應用。
這意味著不僅要會寫C++,還要精通Python環境下的PyTorch或TensorFlow開發,并能理解如何在大規模分布式GPU集群上訓練和部署這些參數量巨大的模型。

圖片源自:網絡
對于端到端控制的理解,將成為區分平庸與卓越工程師的分水嶺。特斯拉Optimus的團隊之所以能快速迭代,很大程度上是因為他們將自動駕駛的視覺感知經驗與機器人的動作學習進行了跨界融合,這種“通用算法思維”是工程師必須建立的核心競爭力。
仿真工具鏈的掌握同樣是必修課。汽車工程師熟悉的場景仿真軟件(如Carla、Prescan)側重于交通流和傳感器物理特性,而機器人仿真則要求極高的物理引擎精度,能夠模擬接觸、摩擦、形變等細節。
因此需要熟練使用NVIDIA Isaac Sim、MuJoCo或PyBullet等工具。這些工具不僅是驗證算法的場所,更是生成訓練數據的工廠。理解如何通過Sim-to-Real技術將仿真中習得的策略安全地遷移到真實硬件,涉及復雜的領域適配和殘差學習,這對于習慣了實車測試的汽車工程師來說,是一個全新的挑戰。
硬件領域也需要從總成集成轉向底層自研。具身智能的競爭在很大程度上是硬件能效比的競爭。特斯拉Optimus的Gen 3版本之所以備受期待,原因在于其對執行器、電池包以及算力芯片的極致垂直整合。
對此需要理解無框力矩電機、諧波減速器、交叉滾子軸承等精密零部件的工作機理,并能參與到執行器驅動電路和RTOS通訊協議的底層優化中。
審核編輯 黃宇
-
自動駕駛
+關注
關注
794文章
14952瀏覽量
181104 -
具身智能
+關注
關注
0文章
445瀏覽量
902
發布評論請先 登錄
具身智能交流會
萬億級賽道:“具身智能十大觀察”報告
2025開放原子開發者大會具身智能分論壇成功舉辦
【「AI芯片:科技探索與AGI愿景」閱讀體驗】+具身智能芯片
商湯科技發布悟能具身智能平臺
英特爾? 具身智能大小腦融合方案發布:構建具身智能落地新范式
想轉行到具身智能,需要具備哪些新技能?
評論