本文來自 MathWorks 博客,Autonomous System 自主系統欄目。
作者:YJ Lim,MathWorks 機器人產品經理
翻譯:葉女士(人機版)
非常激動地和大家分享我們最近的一些酷炫成果:我們正在利用生成式 AI,讓機器人變得更加靈活,使用起來也更加便捷!
生成式 AI 已成為近年來最具影響力的技術趨勢之一,推動了像 deepseek,ChatGPT 這樣的工具,改變了我們的生活和工作方式。除此之外,生成式 AI 也正在重塑各行各業,機器人領域也不例外。在 MathWorks,我們非常期待探索這項技術如何簡化和提升機器人運行的方式,讓先進的機器人技術變得更加易用和多樣化。
該領域的一個典型例子是 Google’s Robotics Transformer 2 (RT-2) [1]。RT-2 展示了生成式AI的巨大潛力,使機器人具備了前所未有的感知、規劃和行動的適應能力。這些模型利用大規模網絡數據,幫助機器人泛化知識、在非結構化環境中執行任務,并且只需極少的針對性訓練。雖然前景令人振奮,但仍然面臨一些挑戰,比如如何將這些模型集成到現實世界的工作流程中——而這,正是 MathWorks 的用武之地。
從傳統到生成式 AI 方法的轉變
傳統上,自主系統通常由感知、規劃和控制等獨立模塊組成。雖然這些模塊能夠實現預期功能,但在集成和適應新環境時往往需要投入大量精力。

圖示:現有的機器人任務實現方式——在傳統機器人系統中,任務通常被分解為若干子任務,如目標檢測、抓取和運動規劃。感知模塊負責檢測并估算物體的姿態,而運動規劃模塊則計算任務執行所需的軌跡。在動態環境下,這些步驟往往需要多次重復執行,對于像放置多個物體這樣的多步驟任務,會導致系統變得復雜且效率低下。
以傳統的感知流程為例:
目標檢測:可以使用 YOLOv4 檢測器對圖像中的物體進行識別(示例[2])。
姿態估算:通過多步流程估算被檢測物體的三維位置和朝向(示例[3])。
訓練與部署:每添加一個新物體或更換環境,都需要重新訓練和配置系統,這不僅耗時,而且難以大規模推廣。

圖示:現有的姿態估算方法實現機器人任務(參見此示例[4])。在現有的感知流程中,主要目標是檢測圖像中的物體并估算其三維姿態,通常會用到 YOLOv4 檢測器。盡管這種方法有效,但需要大量的訓練和姿態估算步驟,因此在面對新物體或新環境時,擴展和應用起來既繁瑣又具有挑戰性。
生成式 AI 則改變了這一傳統做法,將感知、規劃和控制集成到一個端到端的系統中。VLA(視覺-語言-動作)模型能夠處理文本指令和攝像頭圖像,預測機器人動作,并根據反饋不斷優化這些動作。這類模型具備以下特點:
基于 transformer 架構——與 ChatGPT 等模型采用相同的技術基礎;
能夠結合視覺和語言輸入進行推理并生成相應動作;
作為“具身智能”系統,將抽象理解與實際物理動作相連接。
這種端到端的方法大大簡化了開發流程,使機器人更容易適應新的任務和環境。

圖示:基于 transformer 架構的機器人 VLA(視覺-語言-動作)模型能夠根據文本指令和攝像頭圖像,在一個簡化的步驟中預測機器人動作,這與傳統系統中任務分解、感知和運動規劃等多個獨立階段不同。這些模型通過視覺反饋不斷迭代優化動作,從而提升準確性,但在實際執行時仍需依賴底層控制器,并且在真實應用中需要安全層來保障可靠性。與 ChatGPT 和 DALL-E 等模型不同,VLA 模型通過將決策過程融入物理機器人系統,實現了“具身智能”。
生成式 AI 與機器人技術在 MathWorks 的結合
在 MathWorks,我們致力于將生成式 AI 領域的前沿研究與機器人實際應用之間的鴻溝彌合。我們 MATLAB 和 Simulink 中的工具為機器人基礎模型提供了有力補充,例如:
即插即用:可直接在 MATLAB 和 Simulink 中訪問和部署此類模型。
測試驗證:利用生成式模型的輸出,仿真機器人動力學、優化運動規劃和軌跡控制(通過 Robotics System Toolbox)。
三維可視化:逼真的3D動畫將機器人行為生動展現,便于在仿真環境中評估性能。
安全保障:為機器人系統的現實應用提供驗證和確認工具,確保安全關鍵型場景的可靠性。
真實部署:支持從仿真無縫過渡到實際部署,包括在資源受限設備上的測試或利用云端推理。
例如,我們開發了一個名為“RobotPolicy”的 Simulink 模塊,可與基礎模型集成,在閉環系統中展示其能力。該模塊能夠接收任務指令和視覺觀測,輸出機器人動作,并支持如 RT1-X 和 Octo 等預訓練的小型模型。

圖示:在 Simulink 中仿真和測試機器人基礎模型。Simulink 中的“RobotPolicy”模塊可以集成來自 HuggingFace 等平臺的基于 Python 的基礎模型。它能夠處理任務指令和觀測圖像,生成機器人動作,明確指定末端執行器的位置和姿態。整個工作流程包括自然運動的位姿控制、具有真實感的 3D 仿真環境,以及動作的迭代生成直至完成任務,從而實現生成式 AI 在機器人領域的無縫測試與部署。
現實應用與未來展望
結合 MATLAB 和 Simulink 的生成式 AI 為各類機器人應用領域帶來了令人興奮的新可能,例如:
零樣本部署:得益于基礎模型在多樣化數據集上的廣泛訓練,機器人能夠在從未見過的環境中執行任務。
涌現能力:不僅能執行基礎指令,機器人還可完成需要推理的復雜任務,比如挑選健康飲品或理解符號化指令。
仿真驅動開發:高保真仿真有助于優化模型和加速測試,縮小仿真與現實部署之間的差距。
針對特定任務的微調:借助基礎模型中學到的先驗知識,機器人僅需極少的數據就能適應新任務或新環境。例如,只需少量樣本,便可在數小時內完成對高精度操作或長時序任務的模型微調。
親自體驗
我們非常樂意幫助您探索生成式 AI 如何變革機器人工作流程。目前,我們準備在 GitHub 上發布示例,同時您也可以直接聯系我們,申請試用代碼的訪問權限。
這個示例將展示:
機器人基礎模型與 Simulink 的集成
機器人任務的仿真與可視化
如何將這些模型適配到具體應用中
歡迎聯系我們獲取試用代碼,親自體驗生成式 AI 帶來的各種可能。我們期待您的反饋和寶貴見解!
加入討論
生成式 AI 仍在不斷發展,提升成功率和實現可擴展性等問題仍需攻克。隨著更多數據和高保真仿真的出現,我們相信該領域將會快速進步。在 MathWorks,我們很高興能夠參與這一進程,并期待聽到您對生成式 AI 在機器人領域創造新機遇的看法。
歡迎分享您的想法,并親自試用 GitHub 上的示例,體驗這些創新應用的可能性:
您目前是否在探索生成式 AI 在機器人領域的應用?在您看來,生成式AI在哪些機器人應用中能夠產生重大影響?
機器人VLA基礎模型(如 Google 的 RT-X 和 Covariant 的 RFM-01)可以實現端到端的任務處理(涵蓋感知、規劃和執行)。您認為這些模型有可能取代傳統算法嗎?
機器人基礎模型在實際部署中仍需底層控制器、額外的安全機制和大量測試。您認為基于模型的設計(Model-Based Design)能否在保障這些模型功能安全方面發揮關鍵作用?
MATLAB/Simulink 為基礎模型的連接、仿真、測試和部署提供了便捷工具。您是否有興趣將 MATLAB/Simulink 用于這些用途?
-
matlab
+關注
關注
189文章
3020瀏覽量
237779 -
機器人
+關注
關注
213文章
30665瀏覽量
220041 -
MathWorks
+關注
關注
16文章
85瀏覽量
62076 -
AI
+關注
關注
90文章
38414瀏覽量
297708
原文標題:生成式 AI + 機器人 = 強!
文章出處:【微信號:MATLAB,微信公眾號:MATLAB】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
ADI Power Studio工作流程與工具概述
NVIDIA RTX AI PC為AnythingLLM加速本地AI工作流
云深處科技利用Arm架構打造AI機器人
明遠智睿SSD2351開發板:語音機器人領域的變革力量
生成式人工智能認證:重構AI時代的人才培養與職業躍遷路徑
工業機器人工作站的建設意義
《AI Agent 應用與項目實戰》閱讀心得2——客服機器人、AutoGen框架 、生成式代理
NX CAD軟件:數字化工作流程解決方案(CAD工作流程)

生成式AI如何變革機器人工作流程
評論