国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

如何利用NVIDIA Cosmos Cookbook提升機器人操作能力

NVIDIA英偉達企業解決方案 ? 來源:NVIDIA英偉達企業解決方案 ? 2025-12-31 16:05 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

機器人操控系統在進入動態現實環境時,難以應對持續變化的物體、光照條件及接觸動力學。此外,仿真與現實之間的差距,以及未經過優化的抓手或工具,通常限制了機器人在多樣化任務中的泛化能力、長視距任務的執行能力,以及實現類人靈巧操作的可靠性。

本期 NVIDIA 機器人研發摘要 (R2D2) 探討了提升機器人操作技能的新方法。在本博客中,我們將介紹三項研究工作:利用推理大語言模型、仿真與現實協同訓練,以及視覺語言模型來設計操作工具。

ThinkAct:通過增強視覺潛在規劃實現視覺語言動作推理

用于仿真與現實策略聯合訓練的通用域自適應方法

RobotSmith:面向復雜操作技能獲取的生成式機器人工具設計

我們還將介紹如何利用 Cosmos Cookbook 中的數據增強及其他方法來提升機器人操作性能。該指南是一項開源資源,匯集了 NVIDIA Cosmos 在機器人與自動駕駛領域中的實際應用案例。

借助 ThinkAct 提升機器人推理與動作執行能力

在機器人開發中,視覺語言動作(VLA)模型能夠根據視覺信息和自然語言等多模態指令生成相應的機器人動作。一個高效的 VLA 模型應具備理解并執行動態環境中復雜多步驟操作的能力。然而,當前的機器人操作方法通常采用端到端的方式訓練 VLA,無需顯式的推理過程。這種方式使得模型在規劃長距離任務時面臨挑戰,也難以靈活適應多樣化的任務和環境。

ThinkAct 通過在雙系統框架中整合高級推理與低層動作執行,以縮小這一差距。該“先思考后行動”的框架由強化的視覺潛在規劃實現。

首先,多模態大語言模型(MLLM)經過訓練,能夠生成供機器人遵循的推理計劃。這些計劃通過強化學習生成,其中視覺獎勵機制促使 MLLM 制定出符合物理規律的執行路徑,以實現目標任務。為此,ThinkAct 利用人類與機器人操作的視頻數據,實現基于視覺觀察的推理。這種訓練方式確保了機器人所生成的規劃不僅在理論上合理,還能根據實際視覺反饋在物理環境中切實可行。這一過程構成了“思考”部分。

現在進入“行動”部分。推理過程中的中間步驟被壓縮為一條緊湊的潛在軌跡。該表征包含計劃中的核心意圖與上下文信息。隨后,潛在軌跡引導一個獨立的動作模型,使機器人能夠在不同環境中執行相應動作。通過這種方式,高層推理得以指導并優化現實場景中的底層機器人行為。

wKgZO2lU2f-Ab7ZnAAo3JK05zTY533.png

圖 1。ThinkAct 概述。

ThinkAct 已通過機器人操作和具身推理基準測試。在具身 AI 任務中,它成功實現了少樣本部署、長視距操作以及自校正功能。

圖 2。長視野操作任務的可視化展示。

wKgZO2lU2j2AK7LNAAk7KqWg64s363.png

使用 Sim-and-Real 策略進行聯合訓練

訓練機器人執行操作任務需要在不同任務、環境和對象配置之間收集數據。一種常用的方法是行為克隆,即在現實世界中采集專家演示。理論上,這種方法具有可行性,但實際應用中成本較高,難以大規模擴展?,F實世界的數據采集依賴人工操作員手動提供演示或監控機器人運行,過程耗時且受限于機器人硬件的可用性。

一種解決方案是在仿真環境中收集演示,這種方式能夠實現自動化和并行化,從而高效便捷地獲取大量數據。然而,在模擬數據上訓練的策略往往難以有效遷移到現實場景中,其根本原因在于仿真與現實之間存在差距:仿真系統無法完全復現真實世界中物理特性、動力學行為、噪聲干擾以及反饋機制的復雜性。

仿真和現實策略協同訓練通過結合仿真環境與少量真實世界演示,學習通用的操作策略,從而彌合仿真與現實之間的差距。該方法構建了一個統一的仿真與現實協同訓練框架,旨在學習一個共享的潛在空間,使仿真觀察結果與真實世界數據實現對齊。該框架基于仿真與現實協同訓練的相關研究,并采用了更具表達能力的表示空間。這種表示方式不僅提升了對齊效果,還能夠捕捉與動作相關的信息。其核心思想是使觀察結果與其對應的動作保持一致,從而使策略能夠在仿真和真實環境中均有效運行。

這些表征是通過一種稱為最優傳輸 (OT) 的技術來學習的。OT 能幫助策略識別仿真與真實世界數據中的相似模式,確保無論輸入來自模擬還是真實環境,用于選擇操作的關鍵信息保持一致。由于模擬數據通常遠多于真實數據,因此可通過擴展至非平衡 OT (UOT) 框架來應對這種數據不均衡問題。UOT 采用特定的采樣方法,即使在數據集規模差異較大的情況下,也能使訓練過程更加高效。

wKgZPGlU2kuAVJy_AAjZfSLV5vA825.png

圖 3?;?OT 的仿真與現實策略協同訓練概述。

使用此框架訓練的策略能夠成功泛化至現實場景,即使這些場景僅在訓練數據的模擬部分中出現。在提升、堆疊立方體以及將箱子放入垃圾桶等機器人操作任務中,對該方法的仿真到仿真及仿真到現實的遷移能力進行了評估。

wKgZPGlU2myAWgpmAAoCeqQ8rOU985.png

圖 4。通過仿真與現實協同訓練,該策略僅需最多 25 次演示即可學習長視野任務,例如將物體分類到封閉的抽屜中。

使用 RobotSmith 改進機器人工具設計

多數機器人操作任務涉及使用不同的工具和物體。使用工具是機器人與環境交互并執行復雜操作的關鍵功能。然而,為人類設計的工具因具有多樣且復雜的外形尺寸,導致機器人難以有效操作。當前的機器人工具設計方法通常依賴不可定制的預定義模板,或采用未針對此目的優化的3D生成技術。

RobotSmith 通過提供一種利用視覺語言模型(VLM)的自動工具設計框架來應對這一挑戰。VLM 擅長推理 3D 空間與物理交互,同時能夠理解在包含不同對象的環境中機器人可執行的動作。這些關鍵能力使其在高效的工具設計中發揮重要作用。

RobotSmith 將視覺語言模型(VLM)中的先驗知識與仿真環境中的聯合優化過程相結合,以生成面向特定任務的工具。其三大核心組件為:

Critic Tool Designer:兩個 VLM 智能體協作生成候選工具幾何圖形。

工具使用規劃器:依據設計的工具與場景生成操作軌跡,并在模擬中執行和評估候選軌跡及抓取效果。

“Joint Optimizer” (聯合優化器):在仿真中聯合微調工具幾何圖形與軌跡參數,以盡可能提升性能。此過程對剔除可能導致任務失敗的次優工具與軌跡組合至關重要。

RobotSmith 以這種方式為推送、掃描或封閉等任務生成不同的工具設計方案。

wKgZO2lU2n2AC3AeAAmLhSmO_B4390.png

圖 5。RobotSmith 迭代工具設計,確定高效的設計,并利用所設計的工具生成軌跡,以完成用戶任務。

在仿真環境和現實世界任務中對 RobotSmith 進行了評估,完整的實驗與結果詳見論文。制作煎餅作為一項實際測試任務,框架針對每個步驟(例如壓平和抹面)設計并使用了不同的工具,表明該框架能夠成功執行長距離任務。

wKgZPGlU2oyAKvpkAAgrBBZ2YJQ015.png

圖 6。RobotSmith 設計并使用針對長視野操作場景中各子任務優化的專用工具。

通過 NVIDIA Cosmos Cookbook 縮小仿真與現實之間的差距

在本博客前面,我們探討了仿真與現實之間的差距,并介紹了如何利用合成數據訓練機器人策略。逼真且多樣化的合成數據集能夠生成可靠的策略,使其更好地適應現實世界。NVIDIA Cosmos 開放世界基礎模型(WFM),特別是其中的 Cosmos Transfer,能夠通過單次模擬生成逼真且多樣化數據,從而擴展合成數據集。完整的流程可在Robotics Domain Adaption Gallery(機器人領域自適應圖庫)的示例中找到。

除了此工作流之外,NVIDIA Cosmos Cookbook 還提供了分步指導和后訓練腳本,幫助快速構建、定制和部署適用于機器人、自主系統及代理式系統的 Cosmos WFM。內容深入探討了以下示例與概念:

快速啟動推理示例以實現快速部署與運行。

高級后訓練工作流程,支持特定領域的精細微調。

經過驗證的可擴展、生產就緒的部署方案。

涵蓋基礎主題、核心技術、架構模式及工具文檔的核心概念。

Cosmos Cookbook 是物理 AI 社區分享 Cosmos WFM 實踐知識的資源平臺。我們歡迎各方通過 GitHub 貢獻內容,包括工作流、方法、優秀實踐以及針對特定領域的調整方案。

入門指南

在本博客中,我們探討了提升機器人操作能力的新工作流程。我們展示了 ThinkAct 如何通過“先思考后行動”的框架,對機器人動作進行推理與執行。接著,我們討論了如何在通用操作策略的訓練中結合使用模擬與真實數據。我們還分享了 RobotSmith 如何生成機器人工具設計,以優化完成復雜任務時的工具使用效率。最后,我們介紹了 Cosmos Cookbook 如何借助 Cosmos 模型,為物理 AI項目提供示例和共享空間。

查看以下資源,深入了解本博客中討論的工作:

ThinkAct:論文、項目網站

針對仿真與現實策略聯合訓練的通用領域適應性:論文、項目網站

RobotSmith:論文、項目網站

Cosmos Cookbook:網站、GitHub

NVIDIA 研究團隊在 NeurIPS 2025 上發表了多篇論文,涵蓋 ThinkAct、Generalizable Domain Adaptation 和 RobotSmith 等研究方向。

本文是 NVIDIA 機器人研發摘要 (R2D2) 的一部分,旨在幫助開發者深入了解 NVIDIA Research 在物理 AI 與機器人應用領域的最新突破。

關于作者

Asawaree Bhide 是 NVIDIA 的 AI 嵌入式工程實習生,致力于優化和部署邊緣設備上的深度學習模型。她目前正在喬治亞理工學院攻讀計算機科學碩士學位,她對解決由具體代理自主導航的復雜感知任務感興趣。Tomasz Lewicki 是 NVIDIA 的嵌入式工程實習生。他擁有圣何塞州立大學計算機工程碩士學位,華沙工業大學華沙工業大學機器人工程學學士學位。他的興趣集中在計算機視覺和機器人應用的深度學習上。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 機器人
    +關注

    關注

    213

    文章

    31073

    瀏覽量

    222162
  • NVIDIA
    +關注

    關注

    14

    文章

    5592

    瀏覽量

    109711
  • 仿真
    +關注

    關注

    54

    文章

    4482

    瀏覽量

    138240

原文標題:R2D2:結合仿真與語言模型提升機器人操作能力

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    借助NVIDIA技術提升機器人的移動和全身控制能力

    我們通過在自身平臺上經過驗證的先進研究來應對這些挑戰。我們的方法將前沿研究與工程工作流相結合,并在我們的 AI 和機器人平臺(包括 NVIDIA Omniverse、Cosmos、Isaac Sim
    的頭像 發表于 04-27 15:14 ?1411次閱讀
    借助<b class='flag-5'>NVIDIA</b>技術<b class='flag-5'>提升機器人</b>的移動和全身控制<b class='flag-5'>能力</b>

    如何在NVIDIA Jetson Thor上提升機器人感知效率

    構建自主機器人需要具備可靠且低延遲的視覺感知能力,以實現在動態環境中的深度估計、障礙物識別、定位與導航。這些功能對計算性能有較高要求。NVIDIA Jetson 平臺雖為深度學習提供了強大的 GPU
    的頭像 發表于 12-24 10:14 ?4376次閱讀
    如何在<b class='flag-5'>NVIDIA</b> Jetson Thor上<b class='flag-5'>提升機器人</b>感知效率

    【「具身智能機器人系統」閱讀體驗】2.具身智能機器人大模型

    近年來,人工智能領域的大模型技術在多個方向上取得了突破性的進展,特別是在機器人控制領域展現出了巨大的潛力。在“具身智能機器人大模型”部分,作者研究并探討了大模型如何提升機器人能力,大
    發表于 12-29 23:04

    RK3576機器人核心:三屏異顯+八路攝像頭,重塑機器人交互與感知

    更多"、"互動更流暢"是開發者面臨的核心挑戰。傳統的單一屏幕和有限的視覺輸入已成為提升機器人智能化水平的瓶頸。而瑞芯微RK3576高性能處理器的出現
    發表于 10-29 16:41

    機器人視覺——機器人的“眼睛”

    目前產業機器人僅能在嚴格定義的結構化環境中執行預定指令動作,缺乏對環境的感知與應變能力,這極大地限制了機器人的應用。利用機器人的視覺控制,
    發表于 01-23 15:02

    華南機器人應用培訓中心工業機器人培訓班招生

    機器人技術有更加深入的認識和了解以及實際操作能力得到較大提高,具備機器人行業公司及相關單位對從業人員的技術條件要求。 3、工業機器人專業人才稀缺,就業優勢明顯。本專業人才全部依賴
    發表于 09-02 14:03

    NVIDIA Cosmos世界基礎模型平臺發布

    NVIDIA 宣布推出NVIDIA Cosmos,該平臺由先進的生成式世界基礎模型、高級 tokenizer、護欄和加速視頻處理管線組成,將推動自動駕駛汽車(AV)和機器人等物理 AI
    的頭像 發表于 01-08 10:39 ?1257次閱讀

    51Sim利用NVIDIA Cosmos提升輔助駕駛合成數據場景的泛化性

    51Sim 利用 NVIDIA Cosmos 的生成式世界基礎模型,對現有的合成數據進行大規模泛化,在確保物理真實性的前提下,大幅提升了數據的豐富度。同時依托
    的頭像 發表于 06-26 09:09 ?1390次閱讀

    通過NVIDIA Cosmos模型增強機器人學習

    通用機器人的時代已經到來,這得益于機械電子技術和機器人 AI 基礎模型的進步。但目前機器人技術的發展仍面臨一個關鍵挑戰:機器人需要大量的訓練數據來掌握諸如組裝和檢查之類的技能,而手動演
    的頭像 發表于 07-14 11:49 ?1077次閱讀
    通過<b class='flag-5'>NVIDIA</b> <b class='flag-5'>Cosmos</b>模型增強<b class='flag-5'>機器人</b>學習

    利用NVIDIA Cosmos模型訓練通用機器人

    機器人領域的一大核心挑戰在于如何讓機器人掌握新任務,而無需針對每個新任務和環境耗費大量精力收集和標注數據集。NVIDIA 的最新研究方案通過生成式 AI、世界基礎模型(如 NVIDIA
    的頭像 發表于 08-05 16:22 ?2107次閱讀
    <b class='flag-5'>利用</b><b class='flag-5'>NVIDIA</b> <b class='flag-5'>Cosmos</b>模型訓練通用<b class='flag-5'>機器人</b>

    NVIDIA通過全新 Omniverse庫、Cosmos物理AI模型及AI計算基礎設施,為機器人領域開啟新篇章

    NVIDIA 通過全新 Omniverse 庫、Cosmos 物理 AI 模型及 AI 計算基礎設施,為機器人領域開啟新篇章 ? ·?全新 NVIDIA Omniverse NuRec
    的頭像 發表于 08-12 11:29 ?1771次閱讀
    <b class='flag-5'>NVIDIA</b>通過全新 Omniverse庫、<b class='flag-5'>Cosmos</b>物理AI模型及AI計算基礎設施,為<b class='flag-5'>機器人</b>領域開啟新篇章

    NVIDIA三臺計算機解決方案如何協同助力機器人技術

    NVIDIA DGX、基于 NVIDIA RTX PRO 服務器的 Omniverse 和 Cosmos,以及 Jetson AGX Thor,正全面加速從人形機器人
    的頭像 發表于 08-27 11:48 ?2400次閱讀

    機器人看點:宇樹新專利可提升機器人表演效果 蔚來資本入股具身智能公司原力靈機 美信科技新設機器人

    給大家帶來一些機器人相關訊息: 宇樹新專利可提升機器人表演效果 據企查查APP信息顯示,宇樹科技股份有限公司“一種基于數字孿生的機器人運動控制方法和電子設備”專利公布;該新專利可提升機器人
    的頭像 發表于 09-01 16:55 ?1982次閱讀

    NVIDIA 利用全新開源模型與仿真庫加速機器人研發進程

    科研人員及開發者打造功能更強大、適應性更強的機器人。 ? 全新的 NVIDIA Isaac GR00T 開源基礎模型將為機器人賦予接近人類的推理能力,使其能夠拆解復雜指令,并借助已有知
    的頭像 發表于 09-30 09:52 ?3065次閱讀
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>利用</b>全新開源模型與仿真庫加速<b class='flag-5'>機器人</b>研發進程

    基于NVIDIA VLA模型打造通用人形機器人能力

    要讓人形機器人真正有用,它們需要具備認知能力和移動操作能力,涵蓋感知、規劃以及在動態環境中的全身控制。
    的頭像 發表于 01-14 09:53 ?1871次閱讀