隨著物理 AI 系統的不斷發展,對豐富標記數據集的需求正在急速增長,已經超出了在現實世界中通過人工采集所能滿足的范圍。世界基礎模型(WFMs)是經過訓練的生成式 AI 模型,能夠根據現實世界環境的動態,對未來的世界狀態進行仿真、預測和推理,這類模型有望幫助突破這一數據難題。
NVIDIA Cosmos是面向機器人及智能汽車等物理 AI 系統的世界基礎模型開發平臺。Cosmos 世界基礎模型包含三種可針對特定應用進行后訓練的模型類型:Cosmos Predict、Cosmos Transfer和Cosmos Reason。
Cosmos Predict 可根據圖像、視頻和文本提示生成關于“未來世界狀態”的視頻。Cosmos Transfer 使開發者能夠根據 2D 輸入和文本提示實現逼真的風格轉換。Cosmos Reason 作為視覺語言推理模型,可以對生成的數據進行篩選和標注,也可以通過后訓練,轉化為機器人視覺-語言-動作(VLA)模型。這些生成數據可用于訓練物理 AI 和工業視覺 AI,使其具備空間感知理解、運動軌跡規劃以及執行復雜任務的能力。
本期 NVIDIA 機器人研究與開發摘要(R2D2)探討了 NVIDIA 研究中心推出的 Cosmos 世界基礎模型及工作流。本文將深入探討以下模型在物理 AI 應用的合成數據生成(SDG)與數據管理過程中發揮的關鍵作用:
1. Cosmos Predict:
適用于輔助駕駛的 Single2MultiView
Cosmos-Drive-Dreams
NVIDIA Isaac GR00T-Dreams
DiffusionRenderder
加速視頻生成
2. Cosmos Transfer:
適用于輔助駕駛的 Cosmos Transfer
邊緣模型蒸餾
3. Cosmos Reason
Cosmos Predict:
NVIDIA 研究中心為機器人打造的未來仿真模型
Cosmos Predict 模型可以針對機器人和智能汽車等物理 AI 應用進行后訓練。該模型以文本、圖像或視頻的形式輸入,并生成連貫且物理準確的未來幀。這項技術顯著加速了合成數據生成(SDG)的進程,為后訓練 AI 模型執行復雜物理任務提供支持。下面分享后訓練的應用實例。
Single2MultiView
適用于輔助駕駛的 Single2MultiView,經過 Cosmos Predict 模型的后訓練,可從單一的前視輔助駕駛視頻生成多個連貫的攝像頭視角。該系統可為輔助駕駛開發提供同步的多視角攝像頭影像數據。
單視角輸入視頻的推理示例:
CUDA_HOME=$CONDA_PREFIXPYTHONPATH=$(pwd) python cosmos_predict1/diffusion/inference/video2world_view_extend_multiview.py --checkpoint_dir checkpoints --diffusion_transformer_dir Cosmos-Predict1-7B-Video2World-Sample-AV-Single2MultiView/t2w_model.pt --view_condition_video assets/diffusion/sv2mv_input_view.mp4 --num_input_frames 1 --condition_location"first_cam" --prompt"${PROMPT}" --prompt_left"${PROMPT_LEFT}" --prompt_right"${PROMPT_RIGHT}" --prompt_back"${PROMPT_BACK}" --prompt_back_left"${PROMPT_BACK_LEFT}" --prompt_back_right"${PROMPT_BACK_RIGHT}" --video_save_name diffusion-single2multiview-text2world
Cosmos-Drive-Dreams
Cosmos-Drive-Dreams 為輔助駕駛生成復雜駕駛場景的工作流。Cosmos Drive 模型經過駕駛領域的后訓練,可生成多視圖、高保真、時空一致的駕駛數據。使用經過后訓練的 Cosmos Transfer 模型對生成的多視角數據進行增強,以提高在低能見度條件下的泛化能力(如霧天、雨天),從而完成 3D 車道檢測、3D 物體檢測和駕駛策略學習等任務。
Isaac GR00T-Dreams
基于 DreamGen 的 Isaac GR00T-Dreams,是用于生成大規模人形機器人合成軌跡數據的藍圖,實現了從真實數據到真實數據的完整工作流。該架構使用 Cosmos Predict 技術,通過圖像和文本提示生成多樣化、逼真的機器人任務執行視頻,并從中提取被稱為“神經軌跡”的動作數據用于機器人策略訓練。這種方法能夠幫助機器人在最少人類參與的情況下學習新技能并適應不同環境。
在 GR1 數據集上對 GR00T 模型進行后訓練的示例如下:
EXP=predict2_video2world_training_2b_groot_gr1_480
torchrun--nproc_per_node=8--master_port=12341-m scripts.train --config=cosmos_predict2/configs/base/config.py -- experiment=${EXP}
DiffusionRenderer
DiffusionRenderer 是一款神經渲染框架,僅需單段視頻輸入,無需依賴顯式的 3D 幾何結構或光照數據,就能實現逼真的重新打光、材質編輯與物體植入功能。該框架借助視頻擴散模型估算場景屬性,進而生成真實感極強的新圖像。引入 Cosmos Predict 的擴散模型后,DiffusionRenderer 的光照處理能力得到顯著提升,能夠輸出精度更高、時間維度上更連貫的渲染結果。這一技術對物理 AI 仿真具有重要價值,能夠使場景編輯具備更高的效率與可控性。

圖 . DiffusionRenderer 方法概述
以下是視頻重新打光的示例命令。該命令通過逆向渲染器對幀序列應用新光照,并生成重新打光后的視頻幀:
CUDA_HOME=$CONDA_PREFIX PYTHONPATH=$(pwd) python cosmos_predict1/diffusion/inference/inference_forward_renderer.py --checkpoint_dir checkpoints --diffusion_transformer_dir Diffusion_Renderer_Forward_Cosmos_7B --dataset_path=asset/example_results/video_delighting/gbuffer_frames --num_video_frames 57 --envlight_ind 0123 --use_custom_envmap=True --video_save_folder=asset/example_results/video_relighting/
加速視頻生成
加速視頻生成模型 Cosmos-Predict2 現在通過鄰域注意力機制(NATTEN),提高了對相關視頻區域的聚焦能力。該注意力系統具有層級自適應性,可動態平衡全局和局部上下文,以實現速度和質量的最佳平衡。通過在模型層中實現稀疏注意力,可以最大限度地減少視頻生成過程中的冗余計算。鄰域注意力機制通過針對 NVIDIA 硬件優化的后端代碼進一步提升了效率。因此,在部分 NVIDIA GPU 上,視頻推理速度可提升 2 到 2.5 倍。
Cosmos Transfer:
用于機器人和智能汽車的可控合成數據生成方案
Cosmos Transfer 模型基于多種控制輸入生成世界仿真場景,包括分割圖、深度圖、邊緣圖、激光雷達掃描、關鍵點和高精地圖等。這些多模態控制方式使用戶在通過文本提示生成多樣化視覺特征的同時,能夠精準控制場景構成。該技術旨在增強合成數據集的視覺多樣性,全面提升機器人與智能汽車應用中從仿真到現實的遷移效果。
Cosmos Transfer 應用
現在,讓我們來看看使用 Cosmos Transfer 的一些工作流。
CosmosTransfer for AVs
Cosmos Transfer for AVs 能夠通過多樣化文本提示,從單一駕駛場景生成新的環境條件(如天氣、光照和地形)。該技術采用多模態控制作為輸入來增強數據多樣性,例如在 Cosmos Drive Dreams 應用場景中所示。這項技術對創建輔助駕駛訓練數據集具有重要意義,因為它能根據用戶文本提示,基于單一視頻實現大規模數據生成。
Cosmos Transfer 通過輸入同一段視頻并結合不同的文本提示(如“雪天”或“夜間場景”)生成各種條件和邊緣情況。
基于文本提示和高精地圖條件視頻,使用 Cosmos Transfer 生成 RGB 視頻的示例命令如下:
exportCUDA_VISIBLE_DEVICES="${CUDA_VISIBLE_DEVICES:=0}"
exportCHECKPOINT_DIR="${CHECKPOINT_DIR:=./checkpoints}"
exportNUM_GPU="${NUM_GPU:=1}"
PYTHONPATH=$(pwd) torchrun --nproc_per_node=$NUM_GPU--nnodes=1 --node_rank=0 cosmos_transfer1/diffusion/inference/transfer.py
--checkpoint_dir$CHECKPOINT_DIR
--video_save_folder outputs/example1_single_control_edge_distilled
--controlnet_specs assets/inference_cosmos_transfer1_single_control_edge.json
--offload_text_encoder_model
--offload_guardrail_models
--num_gpus$NUM_GPU
--use_distilled
邊緣模型蒸餾
邊緣模型蒸餾是 Cosmos Transfer 的改進版本。原始的 Cosmos Transfer 模型需要經過 70 次處理才能生成視頻,計算成本高昂。針對邊緣模式的模型蒸餾技術能夠產出更輕量的學生模型,該模型能夠在單一步驟中執行相同的任務,且生成質量與原始模型高度一致。其他控制模式(如深度圖、分割圖、高清地圖和激光雷達)也可以通過類似的方式進行性能提升。通過減少視頻生成所需的計算工作量,可實現更快、更經濟的部署??梢酝ㄟ^--use_distilled 參數啟用蒸餾版本。
Cosmos Reason:
面向物理 AI 的長時推理框架
Cosmos Reason 是專注于物理 AI 推理的世界基礎模型,能夠理解物理常識,并通過長鏈式思維推理生成適當的具體決策。該模型能深度理解動作序列與現實世界約束,因此在合成數據生成(SDG)過程中可作為評估器來篩選高質量訓練數據。該模型分兩個階段進行訓練:監督式微調(SFT)和強化學習。

圖 . Cosmos Reason 架構概述
監督微調(SFT)訓練可以提高CosmosReason 模型在特定任務上的性能。例如,使用 robovqa 數據集進行訓練可以提高機器人在視覺問答應用場景中的表現。以下是啟動監督微調訓練的示例命令:
cosmos-rl --config configs/cosmos-reason1-7b-fsdp2-sft.toml ./tools/dataset/cosmos_sft.py
本文是“NVIDIA 機器人研究與開發摘要(R2D2)”的一部分,旨在讓開發者更深入地了解 NVIDIA 研究中心在物理 AI 和機器人應用方面的最新突破。
-
機器人
+關注
關注
213文章
31079瀏覽量
222225 -
NVIDIA
+關注
關注
14文章
5594瀏覽量
109727 -
模型
+關注
關注
1文章
3752瀏覽量
52104
原文標題:R2D2:利用 NVIDIA 研究中心的世界基礎模型和工作流提升機器人訓練效率
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
借助NVIDIA技術提升機器人的移動和全身控制能力
如何在NVIDIA Jetson Thor上提升機器人感知效率
Al大模型機器人
【「具身智能機器人系統」閱讀體驗】2.具身智能機器人大模型
谷歌借助Gemini AI系統深化對機器人的訓練
NVIDIA Cosmos世界基礎模型平臺發布
英偉達推出基石世界模型Cosmos,解決智駕與機器人具身智能訓練數據問題
利用NVIDIA Cosmos模型訓練通用機器人
NVIDIA通過全新 Omniverse庫、Cosmos物理AI模型及AI計算基礎設施,為機器人領域開啟新篇章
NVIDIA三臺計算機解決方案如何協同助力機器人技術
NVIDIA 利用全新開源模型與仿真庫加速機器人研發進程
如何借助OpenUSD提升機器人開發流程效率
利用NVIDIA Cosmos開放世界基礎模型加速物理AI開發
NVIDIA Cosmos世界基礎模型如何塑造機器人未來
借助NVIDIA Cosmos模型提升機器人訓練效率
評論