国产成人久久77777精品,天天插天天射天天日,久久久久国产精品一区二区

機器人操控系統在進入動態現實環境時，難以應對持續變化的物體、光照條件及接觸動力學。此外，仿真與現實之間的差距，以及未經過優化的抓手或工具，通常限制了機器人在多樣化任務中的泛化能力、長視距任務的執行能力，以及實現類人靈巧操作的可靠性。

本期 NVIDIA 機器人研發摘要 (R2D2) 探討了提升機器人操作技能的新方法。在本博客中，我們將介紹三項研究工作：利用推理大語言模型、仿真與現實協同訓練，以及視覺語言模型來設計操作工具。

ThinkAct：通過增強視覺潛在規劃實現視覺語言動作推理

用于仿真與現實策略聯合訓練的通用域自適應方法

RobotSmith：面向復雜操作技能獲取的生成式機器人工具設計

我們還將介紹如何利用 Cosmos Cookbook 中的數據增強及其他方法來提升機器人操作性能。該指南是一項開源資源，匯集了 NVIDIA Cosmos 在機器人與自動駕駛領域中的實際應用案例。

借助 ThinkAct 提升機器人推理與動作執行能力

在機器人開發中，視覺語言動作(VLA)模型能夠根據視覺信息和自然語言等多模態指令生成相應的機器人動作。一個高效的 VLA 模型應具備理解并執行動態環境中復雜多步驟操作的能力。然而，當前的機器人操作方法通常采用端到端的方式訓練 VLA，無需顯式的推理過程。這種方式使得模型在規劃長距離任務時面臨挑戰，也難以靈活適應多樣化的任務和環境。

ThinkAct 通過在雙系統框架中整合高級推理與低層動作執行，以縮小這一差距。該“先思考后行動”的框架由強化的視覺潛在規劃實現。

首先，多模態大語言模型(MLLM)經過訓練，能夠生成供機器人遵循的推理計劃。這些計劃通過強化學習生成，其中視覺獎勵機制促使 MLLM 制定出符合物理規律的執行路徑，以實現目標任務。為此，ThinkAct 利用人類與機器人操作的視頻數據，實現基于視覺觀察的推理。這種訓練方式確保了機器人所生成的規劃不僅在理論上合理，還能根據實際視覺反饋在物理環境中切實可行。這一過程構成了“思考”部分。

現在進入“行動”部分。推理過程中的中間步驟被壓縮為一條緊湊的潛在軌跡。該表征包含計劃中的核心意圖與上下文信息。隨后，潛在軌跡引導一個獨立的動作模型，使機器人能夠在不同環境中執行相應動作。通過這種方式，高層推理得以指導并優化現實場景中的底層機器人行為。

圖 1。ThinkAct 概述。

ThinkAct 已通過機器人操作和具身推理基準測試。在具身 AI 任務中，它成功實現了少樣本部署、長視距操作以及自校正功能。

圖 2。長視野操作任務的可視化展示。

使用 Sim-and-Real 策略進行聯合訓練

訓練機器人執行操作任務需要在不同任務、環境和對象配置之間收集數據。一種常用的方法是行為克隆，即在現實世界中采集專家演示。理論上，這種方法具有可行性，但實際應用中成本較高，難以大規模擴展。現實世界的數據采集依賴人工操作員手動提供演示或監控機器人運行，過程耗時且受限于機器人硬件的可用性。

一種解決方案是在仿真環境中收集演示，這種方式能夠實現自動化和并行化，從而高效便捷地獲取大量數據。然而，在模擬數據上訓練的策略往往難以有效遷移到現實場景中，其根本原因在于仿真與現實之間存在差距：仿真系統無法完全復現真實世界中物理特性、動力學行為、噪聲干擾以及反饋機制的復雜性。

仿真和現實策略協同訓練通過結合仿真環境與少量真實世界演示，學習通用的操作策略，從而彌合仿真與現實之間的差距。該方法構建了一個統一的仿真與現實協同訓練框架，旨在學習一個共享的潛在空間，使仿真觀察結果與真實世界數據實現對齊。該框架基于仿真與現實協同訓練的相關研究，并采用了更具表達能力的表示空間。這種表示方式不僅提升了對齊效果，還能夠捕捉與動作相關的信息。其核心思想是使觀察結果與其對應的動作保持一致，從而使策略能夠在仿真和真實環境中均有效運行。

這些表征是通過一種稱為最優傳輸 (OT) 的技術來學習的。OT 能幫助策略識別仿真與真實世界數據中的相似模式，確保無論輸入來自模擬還是真實環境，用于選擇操作的關鍵信息保持一致。由于模擬數據通常遠多于真實數據，因此可通過擴展至非平衡 OT (UOT) 框架來應對這種數據不均衡問題。UOT 采用特定的采樣方法，即使在數據集規模差異較大的情況下，也能使訓練過程更加高效。

圖 3。基于 OT 的仿真與現實策略協同訓練概述。

使用此框架訓練的策略能夠成功泛化至現實場景，即使這些場景僅在訓練數據的模擬部分中出現。在提升、堆疊立方體以及將箱子放入垃圾桶等機器人操作任務中，對該方法的仿真到仿真及仿真到現實的遷移能力進行了評估。

圖 4。通過仿真與現實協同訓練，該策略僅需最多 25 次演示即可學習長視野任務，例如將物體分類到封閉的抽屜中。

使用 RobotSmith 改進機器人工具設計

多數機器人操作任務涉及使用不同的工具和物體。使用工具是機器人與環境交互并執行復雜操作的關鍵功能。然而，為人類設計的工具因具有多樣且復雜的外形尺寸，導致機器人難以有效操作。當前的機器人工具設計方法通常依賴不可定制的預定義模板，或采用未針對此目的優化的3D生成技術。

RobotSmith 通過提供一種利用視覺語言模型(VLM)的自動工具設計框架來應對這一挑戰。VLM 擅長推理 3D 空間與物理交互，同時能夠理解在包含不同對象的環境中機器人可執行的動作。這些關鍵能力使其在高效的工具設計中發揮重要作用。

RobotSmith 將視覺語言模型(VLM)中的先驗知識與仿真環境中的聯合優化過程相結合，以生成面向特定任務的工具。其三大核心組件為：

Critic Tool Designer：兩個 VLM 智能體協作生成候選工具幾何圖形。

工具使用規劃器：依據設計的工具與場景生成操作軌跡，并在模擬中執行和評估候選軌跡及抓取效果。

“Joint Optimizer” (聯合優化器)：在仿真中聯合微調工具幾何圖形與軌跡參數，以盡可能提升性能。此過程對剔除可能導致任務失敗的次優工具與軌跡組合至關重要。

RobotSmith 以這種方式為推送、掃描或封閉等任務生成不同的工具設計方案。

圖 5。RobotSmith 迭代工具設計，確定高效的設計，并利用所設計的工具生成軌跡，以完成用戶任務。

在仿真環境和現實世界任務中對 RobotSmith 進行了評估，完整的實驗與結果詳見論文。制作煎餅作為一項實際測試任務，框架針對每個步驟(例如壓平和抹面)設計并使用了不同的工具，表明該框架能夠成功執行長距離任務。

圖 6。RobotSmith 設計并使用針對長視野操作場景中各子任務優化的專用工具。

通過 NVIDIA Cosmos Cookbook 縮小仿真與現實之間的差距

在本博客前面，我們探討了仿真與現實之間的差距，并介紹了如何利用合成數據訓練機器人策略。逼真且多樣化的合成數據集能夠生成可靠的策略，使其更好地適應現實世界。NVIDIA Cosmos 開放世界基礎模型(WFM)，特別是其中的 Cosmos Transfer，能夠通過單次模擬生成逼真且多樣化數據，從而擴展合成數據集。完整的流程可在Robotics Domain Adaption Gallery(機器人領域自適應圖庫)的示例中找到。

除了此工作流之外，NVIDIA Cosmos Cookbook 還提供了分步指導和后訓練腳本，幫助快速構建、定制和部署適用于機器人、自主系統及代理式系統的 Cosmos WFM。內容深入探討了以下示例與概念：

快速啟動推理示例以實現快速部署與運行。

高級后訓練工作流程，支持特定領域的精細微調。

經過驗證的可擴展、生產就緒的部署方案。

涵蓋基礎主題、核心技術、架構模式及工具文檔的核心概念。

Cosmos Cookbook 是物理 AI 社區分享 Cosmos WFM 實踐知識的資源平臺。我們歡迎各方通過 GitHub 貢獻內容，包括工作流、方法、優秀實踐以及針對特定領域的調整方案。

入門指南

在本博客中，我們探討了提升機器人操作能力的新工作流程。我們展示了 ThinkAct 如何通過“先思考后行動”的框架，對機器人動作進行推理與執行。接著，我們討論了如何在通用操作策略的訓練中結合使用模擬與真實數據。我們還分享了 RobotSmith 如何生成機器人工具設計，以優化完成復雜任務時的工具使用效率。最后，我們介紹了 Cosmos Cookbook 如何借助 Cosmos 模型，為物理 AI項目提供示例和共享空間。

查看以下資源，深入了解本博客中討論的工作：

ThinkAct：論文、項目網站

針對仿真與現實策略聯合訓練的通用領域適應性：論文、項目網站

RobotSmith：論文、項目網站

Cosmos Cookbook：網站、GitHub

NVIDIA 研究團隊在 NeurIPS 2025 上發表了多篇論文，涵蓋 ThinkAct、Generalizable Domain Adaptation 和 RobotSmith 等研究方向。

本文是 NVIDIA 機器人研發摘要 (R2D2) 的一部分，旨在幫助開發者深入了解 NVIDIA Research 在物理 AI 與機器人應用領域的最新突破。

關于作者

Asawaree Bhide 是 NVIDIA 的 AI 嵌入式工程實習生，致力于優化和部署邊緣設備上的深度學習模型。她目前正在喬治亞理工學院攻讀計算機科學碩士學位，她對解決由具體代理自主導航的復雜感知任務感興趣。Tomasz Lewicki 是 NVIDIA 的嵌入式工程實習生。他擁有圣何塞州立大學計算機工程碩士學位，華沙工業大學華沙工業大學機器人工程學學士學位。他的興趣集中在計算機視覺和機器人應用的深度學習上。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴