要讓人形機(jī)器人真正有用,它們需要具備認(rèn)知能力和移動(dòng)操作能力,涵蓋感知、規(guī)劃以及在動(dòng)態(tài)環(huán)境中的全身控制。
構(gòu)建通用機(jī)器人需要一個(gè)統(tǒng)一的仿真、控制與學(xué)習(xí)工作流——讓機(jī)器人能夠在安全的環(huán)境中獲取復(fù)雜技能,然后再遷移到真實(shí)世界中。
在本文中,我們將介紹NVIDIA Isaac GR00T N1.6以及一套從仿真到現(xiàn)實(shí)的工作流,該工作流結(jié)合了在NVIDIA Isaac Lab中進(jìn)行的全身強(qiáng)化學(xué)習(xí)(RL)、通過(guò) COMPASS 利用合成數(shù)據(jù)訓(xùn)練的導(dǎo)航,以及使用 NVIDIA CUDA 加速的視覺(jué)映射與 SLAM 實(shí)現(xiàn)基于視覺(jué)的定位。
這些組件使機(jī)器人能夠?qū)崿F(xiàn)移動(dòng)操作、穩(wěn)健的導(dǎo)航以及環(huán)境感知行為,適用于多種機(jī)器人形態(tài)。
視覺(jué)–語(yǔ)言–動(dòng)作模型與推理
GR00T N1.6 是一個(gè)多模態(tài)視覺(jué)-語(yǔ)言-動(dòng)作(VLA)模型,能夠?qū)C(jī)器人自視角攝像頭流、機(jī)器人狀態(tài)以及自然語(yǔ)言指令整合為統(tǒng)一的策略表示。該模型使用NVIDIA Cosmos Reason等世界模型,將高級(jí)指令分解為基于場(chǎng)景理解的逐步動(dòng)作計(jì)劃,從而執(zhí)行真實(shí)世界任務(wù)。這種架構(gòu)允許 GR00T 執(zhí)行移動(dòng)和靈巧操作,通過(guò)端到端學(xué)習(xí)的表示完成控制。
GR00T N1.6 在上一版本基礎(chǔ)上進(jìn)行了多項(xiàng)增強(qiáng),進(jìn)一步提升能力和現(xiàn)實(shí)世界適用性:
增強(qiáng)推理與感知:使用 Cosmos-Reason-2B VLM 變體,支持原生分辨率,使機(jī)器人“看得更清楚”,并能更好地理解環(huán)境并轉(zhuǎn)化為更可靠的場(chǎng)景理解和任務(wù)分解能力。
流暢、自適應(yīng)的動(dòng)作:提升至 2 倍的 Diffusion Transformer(32 層)以及狀態(tài)相關(guān)動(dòng)作預(yù)測(cè),使動(dòng)作更平滑、抖動(dòng)更少,并能適應(yīng)位置變化。
優(yōu)化的跨形態(tài)性能:在數(shù)千小時(shí)多樣化遙操作數(shù)據(jù)(人形機(jī)器人、移動(dòng)機(jī)械臂、雙手機(jī)械臂)上訓(xùn)練,使模型在多種機(jī)器人形態(tài)上泛化能力更強(qiáng)。
GR00T N1.6 配備了預(yù)訓(xùn)練權(quán)重,可支持零樣本評(píng)估與驗(yàn)證基本操作原語(yǔ),但如果要針對(duì)特定機(jī)器人形態(tài)或任務(wù)部署 GR00T N1.6,仍建議對(duì)模型進(jìn)行微調(diào)以滿(mǎn)足具體需求。
CoRL 2025展示了 GR00T N1.6 在 G1 人形機(jī)器人上執(zhí)行移動(dòng)操作任務(wù)的效果。
全身RL訓(xùn)練與仿真到現(xiàn)實(shí)的遷移
RL 訓(xùn)練在仿真中為 GR00T N1.6 提供了可使用的底層運(yùn)動(dòng)智能,并通過(guò)高層 VLA 策略進(jìn)行協(xié)調(diào)。在 Isaac Lab 中通過(guò) RL 訓(xùn)練的全身控制器生成與人類(lèi)似、動(dòng)態(tài)穩(wěn)定的運(yùn)動(dòng)原語(yǔ),涵蓋行走、操作以及接觸密集型協(xié)調(diào)行為。
這些策略在 Isaac Lab 和 Isaac Sim 中進(jìn)行大規(guī)模訓(xùn)練和壓力測(cè)試,然后零樣本遷移到真實(shí)機(jī)器人上,最大限度減少針對(duì)特定任務(wù)的微調(diào),同時(shí)在各種環(huán)境和機(jī)器人形態(tài)中保持穩(wěn)健性。仿真到現(xiàn)實(shí)的流程允許 GR00T 的高層 VLA 專(zhuān)注于任務(wù)順序和場(chǎng)景感知決策,而無(wú)需操心底層運(yùn)動(dòng)的穩(wěn)定性。
GR00T-WholeBodyControl作為全身控制器,為 GR00T N1.6 提供底層的移動(dòng)操作層。使用該控制器即可形成完整棧:高層指令跟隨、中層行為組合、底層穩(wěn)健控制,所有環(huán)節(jié)在仿真中驗(yàn)證后再部署到硬件。
基于合成數(shù)據(jù)訓(xùn)練的導(dǎo)航
為了在全身控制基礎(chǔ)上實(shí)現(xiàn)目標(biāo)導(dǎo)向的導(dǎo)航,GR00T N1.6 通過(guò) COMPASS 在 Isaac Lab 生成的大規(guī)模合成數(shù)據(jù)集上微調(diào),實(shí)現(xiàn)點(diǎn)到點(diǎn)導(dǎo)航。在此流程中,COMPASS擔(dān)任導(dǎo)航專(zhuān)家,生成覆蓋不同場(chǎng)景和機(jī)器人形態(tài)的多樣軌跡,用于將 GR00T 從 VLA 模型轉(zhuǎn)化為強(qiáng)大的導(dǎo)航策略。
導(dǎo)航策略在仿真中訓(xùn)練,并通過(guò)簡(jiǎn)單速度命令控制全身控制器,而不是直接產(chǎn)生關(guān)節(jié)力矩。這樣,底層全身 RL 策略負(fù)責(zé)保持平衡與接觸處理,而導(dǎo)航頭專(zhuān)注于避障、路徑跟隨和導(dǎo)航-操作銜接。實(shí)驗(yàn)表明,這種純仿真訓(xùn)練流程實(shí)現(xiàn)了零樣本仿真到顯示的遷移,可在全新的物理環(huán)境中零樣本部署,無(wú)需額外針對(duì)特定任務(wù)采集數(shù)據(jù)。
COMPASS是一個(gè)開(kāi)發(fā)跨形態(tài)移動(dòng)策略的全新工作流,結(jié)合模仿學(xué)習(xí)、殘差 RL 和策略蒸餾,已在 Isaac Lab 中驗(yàn)證了 RL 微調(diào)和零樣本仿真到現(xiàn)實(shí)的有效性。
基于此,GR00T N1.6PointNav示例發(fā)布了逐步指南和代碼,幫助開(kāi)發(fā)者微調(diào)和評(píng)估使用COMPASS生成數(shù)據(jù)的導(dǎo)航策略,從而復(fù)現(xiàn)并將導(dǎo)航棧擴(kuò)展到不同機(jī)器人形態(tài)和場(chǎng)景。
基于視覺(jué)的定位
基于視覺(jué)的定位使 GR00T N1.6 能夠在大型真實(shí)世界環(huán)境中使用全身控制器和導(dǎo)航策略。在全身 RL 賦予機(jī)器人穩(wěn)健的移動(dòng)操作技能、并通過(guò) COMPASS 合成數(shù)據(jù)微調(diào)點(diǎn)到點(diǎn)導(dǎo)航后,系統(tǒng)仍需準(zhǔn)確估計(jì)機(jī)器人的位置,使命令和路徑點(diǎn)與真實(shí)坐標(biāo)對(duì)應(yīng)。
為此,視覺(jué)映射與定位棧利用搭載在邊緣端的攝像頭和預(yù)構(gòu)建地圖保持低漂移位姿估計(jì),使機(jī)器人命令能精確對(duì)應(yīng)機(jī)器人和物體坐標(biāo)。
視覺(jué)映射與定位棧基于NVIDIA Isaac 和NVIDIA CUDA-X 庫(kù)并采用以下立體深度模型構(gòu)建:
cuVSLAM:實(shí)時(shí)視覺(jué)-慣性 SLAM 與里程計(jì)庫(kù)。里程計(jì)提供平滑速度估計(jì),SLAM 后端生成低漂移位姿并支持閉環(huán)校正。
cuVGL:視覺(jué)全局定位庫(kù),在預(yù)構(gòu)建地圖中計(jì)算初始位姿,用于啟動(dòng) cuVSLAM。
FoundationStereo:立體深度基礎(chǔ)模型,在不同環(huán)境中實(shí)現(xiàn)強(qiáng)零樣本泛化。
nvblox:高效 3D 感知庫(kù),重建環(huán)境并生成 2D occupancy 圖,用于路徑規(guī)劃。
我們收集環(huán)境立體圖像并預(yù)構(gòu)建地圖,包括 cuVSLAM landmark 圖、cuVGL bag-of-words 圖以及 occupancy 圖。occupancy 圖中標(biāo)注廚房桌等語(yǔ)義位置,用于任務(wù)規(guī)劃。
運(yùn)行時(shí),cuVGL 從預(yù)構(gòu)建地圖檢索視覺(jué)相似圖像對(duì),并根據(jù)立體圖像對(duì)估計(jì)初始位姿。將該位姿作為先驗(yàn),cuVSLAM 匹配局部地標(biāo)進(jìn)行定位。定位成功后,cuVSLAM 持續(xù)跟蹤特征并執(zhí)行地圖優(yōu)化,保持導(dǎo)航中機(jī)器人位姿準(zhǔn)確。
我們?cè)?Isaac ROS 中開(kāi)發(fā)了離線(xiàn)地圖創(chuàng)建工作流,從 ROS bag 構(gòu)建地圖,并提供isaac_ros_visual_slam與isaac_ros_visual_global_localization包實(shí)現(xiàn)定位。使用立體攝像頭驅(qū)動(dòng)、圖像校正節(jié)點(diǎn)、occupancy 圖服務(wù)器、cuVSLAM 與 cuVGL 節(jié)點(diǎn),即可在 ROS2 中創(chuàng)建完整定位流程。
開(kāi)始開(kāi)發(fā)
從 HuggingFace 下載并試用Isaac GR00T N1.6 開(kāi)放模型。
使用 Isaac Lab 和 Newton 進(jìn)行 RL 與策略訓(xùn)練,并在Isaac Lab中使用COMPASS生成導(dǎo)航合成數(shù)據(jù)。
使用 Isaac ROS 中發(fā)布的 CUDA-X 視覺(jué)映射與定位庫(kù):
從校正立體圖像生成視覺(jué)與 occupancy 圖。
啟動(dòng) cuVSLAM 與 cuVGL 使用生成地圖實(shí)現(xiàn)對(duì)機(jī)器人的定位。
訂閱我們的新聞通訊,并在LinkedIn、Instagram、X和Facebook上關(guān)注NVIDIA Robotics,以獲取最新動(dòng)態(tài)。您還可以查閱NVIDIA文檔與YouTube頻道,或加入NVIDIA開(kāi)發(fā)者機(jī)器人論壇。若想開(kāi)啟機(jī)器人開(kāi)發(fā)之旅,歡迎立即報(bào)名參加我們免費(fèi)的NVIDIA機(jī)器人基礎(chǔ)課程。
關(guān)于作者
Edith Llontop 是 NVIDIA 的機(jī)器人解決方案架構(gòu)師。她擁有加州大學(xué)伯克利分校的電氣工程和計(jì)算機(jī)科學(xué)學(xué)位,并在伯克利人工智能研究實(shí)驗(yàn)室擁有機(jī)器人研究經(jīng)驗(yàn)。她現(xiàn)在致力于使用 NVIDIA 機(jī)器人平臺(tái) Isaac 為客戶(hù)提供支持。
Yan Chang 是 NVIDIA 的首席工程師兼高級(jí)工程經(jīng)理。她目前領(lǐng)導(dǎo)機(jī)器人移動(dòng)團(tuán)隊(duì)。在加入 NVIDIA 之前,她曾領(lǐng)導(dǎo) Zoox (亞馬遜開(kāi)發(fā)自動(dòng)駕駛汽車(chē)的子公司) 的行為基礎(chǔ)模型團(tuán)隊(duì)。她擁有密歇根大學(xué)的博士學(xué)位。
Yuchen Deng 是 NVIDIA 的軟件工程師,從事 GPU 加速感知和自主系統(tǒng)的研究。她擁有卡內(nèi)基梅隆大學(xué)電氣和計(jì)算機(jī)工程碩士學(xué)位,熱衷于構(gòu)建更智能、更強(qiáng)大的機(jī)器人。
-
機(jī)器人
+關(guān)注
關(guān)注
213文章
31073瀏覽量
222162 -
NVIDIA
+關(guān)注
關(guān)注
14文章
5592瀏覽量
109711 -
仿真
+關(guān)注
關(guān)注
54文章
4482瀏覽量
138238
原文標(biāo)題:CES 2026 | 使用 NVIDIA Isaac 和 GR00T N1.6 構(gòu)建通用人形機(jī)器人能力
文章出處:【微信號(hào):NVIDIA-Enterprise,微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
NVIDIA 發(fā)布三大利器,推動(dòng)人形機(jī)器人邁向新紀(jì)元
NVIDIA 利用全新開(kāi)源模型與仿真庫(kù)加速機(jī)器人研發(fā)進(jìn)程
ADI借助NVIDIA Jetson Thor平臺(tái)加速人形機(jī)器人研發(fā)進(jìn)程
利用NVIDIA Cosmos模型訓(xùn)練通用機(jī)器人
NVIDIA助力構(gòu)建人形機(jī)器人全身遙操作仿真平臺(tái)
通過(guò)NVIDIA Cosmos模型增強(qiáng)機(jī)器人學(xué)習(xí)
NVIDIA 通過(guò)云端至機(jī)器人計(jì)算平臺(tái)驅(qū)動(dòng)人形機(jī)器人技術(shù),賦能物理 AI
破解數(shù)據(jù)與泛化難題,通用人形機(jī)器人研發(fā)全面提速
NVIDIA發(fā)布GR00T N1基礎(chǔ)模型等方案,人形機(jī)器人開(kāi)發(fā)效率顯著提升
NVIDIA Isaac GR00T N1開(kāi)源人形機(jī)器人基礎(chǔ)模型+開(kāi)源物理引擎Newton加速機(jī)器人開(kāi)發(fā)
NVIDIA發(fā)布全球首個(gè)開(kāi)源人形機(jī)器人基礎(chǔ)模型Isaac GR00T N1
英偉達(dá)GROOT N1 全球首個(gè)開(kāi)源人形機(jī)器人基礎(chǔ)模型
機(jī)器人Blue亮相 搭載英偉達(dá)最新GR00T N1人形機(jī)器人通用基礎(chǔ)模型
深度解讀GR00T N1:英偉達(dá)開(kāi)源人形機(jī)器人功能模型的技術(shù)革新與行業(yè)影響
NVIDIA 發(fā)布全球首個(gè)開(kāi)源人形機(jī)器人基礎(chǔ)模型 Isaac GR00T N1——并推出加速機(jī)器人開(kāi)發(fā)的仿真框架
基于NVIDIA VLA模型打造通用人形機(jī)器人能力
評(píng)論