電子發(fā)燒友網(wǎng)報道(文/吳子鵬)在具身智能領(lǐng)域,人形機器人無疑是最值得期待的產(chǎn)品類別,有著更高的市場熱度和更大的發(fā)展?jié)摿ΑP聭?zhàn)略人形機器人產(chǎn)業(yè)研究所的統(tǒng)計數(shù)據(jù)顯示,截至 2025 年 4 月,全球人形機器人本體企業(yè)數(shù)量已超 300 家,中國企業(yè)數(shù)量占半壁江山。
隨著全球范圍內(nèi)越來越多企業(yè)涌入人形機器人賽道,市場預(yù)期持續(xù)攀升。根據(jù)高工機器人產(chǎn)業(yè)研究所(GGII)近期發(fā)布的《2025 年人形機器人產(chǎn)業(yè)發(fā)展藍皮書》,2025 年全球人形機器人市場銷量有望達 1.24 萬臺,市場規(guī)模 63.39 億元;2030 年銷量將接近 34 萬臺,市場規(guī)模超 640 億元;2035 年銷量將突破 500 萬臺,市場規(guī)模超 4000 億元。

數(shù)據(jù)來源:《2025 年人形機器人產(chǎn)業(yè)發(fā)展藍皮書》,電子發(fā)燒友網(wǎng)制圖
然而,要釋放人形機器人的市場潛力,研發(fā)企業(yè)仍需攻克諸多挑戰(zhàn)。尤其在數(shù)據(jù)與模型能力層面,人形機器人設(shè)計面臨多維度技術(shù)瓶頸,既涉及底層感知決策的精度問題,也關(guān)乎復(fù)雜物理系統(tǒng)與智能算法的協(xié)同效率。對于通用人形機器人而言,更需基于有限數(shù)據(jù)構(gòu)建接近甚至超越人類的通用模型,多任務(wù)耦合、物理約束與場景泛化等挑戰(zhàn)尤為突出。
在應(yīng)對上述挑戰(zhàn)的探索中,NVIDIA 發(fā)布的開源人形機器人基礎(chǔ)模型 Isaac GR00T N1 提供了高效解決方案。其在雙系統(tǒng)架構(gòu)、合成數(shù)據(jù)生成、仿真訓(xùn)練等方面的創(chuàng)新,大幅降低了通用人形機器人的開發(fā)門檻,標志著該領(lǐng)域進入全新發(fā)展階段。
數(shù)據(jù)多樣性與場景泛化的雙重桎梏
人形機器人產(chǎn)業(yè)有一句被廣泛認同的發(fā)展定律 ——“得數(shù)據(jù)者得天下”。這是因為人形機器人的智能化依賴 AI 大模型,而大模型的能力提升高度依賴數(shù)據(jù)規(guī)模與質(zhì)量。從這個角度看,數(shù)據(jù)堪稱人形機器人的 “靈魂”,但當(dāng)前產(chǎn)業(yè)正面臨數(shù)據(jù)匱乏的痛點。
首先,數(shù)據(jù)采集場景復(fù)雜。通用人形機器人需適應(yīng)家庭、工業(yè)、戶外等多元場景,不同場景的光照、地形、物體分布差異顯著,采集全場景數(shù)據(jù)需耗費大量時間與資源。現(xiàn)階段,多數(shù)機器人數(shù)據(jù)僅來源于實驗室環(huán)境下的簡單動作(如行走、抓取),缺乏工廠物料分揀、老人居家護理等復(fù)雜動態(tài)場景的實時交互數(shù)據(jù)。
其次,多模態(tài)數(shù)據(jù)采集門檻高。人形機器人需融合視覺、聽覺、觸覺等多模態(tài)數(shù)據(jù)感知環(huán)境,這要求多種傳感器同步工作并保證時序一致性,技術(shù)難度極大。與整機構(gòu)建不同,數(shù)據(jù)采集階段需依賴多模態(tài)感知系統(tǒng)保障質(zhì)量,醫(yī)療場景更需柔性傳感器,進一步制約了數(shù)據(jù)池擴展。
第三,數(shù)據(jù)標注難度與工作量雙高。標注人形機器人數(shù)據(jù)需掌握運動學(xué)、動力學(xué)及場景專業(yè)知識(如標注行走姿態(tài)需關(guān)節(jié)角度、運動軌跡等知識),標注人員需經(jīng)專業(yè)培訓(xùn)。此外,數(shù)據(jù)量龐大且關(guān)聯(lián)復(fù)雜,需標注動作、姿態(tài)及環(huán)境交互信息,導(dǎo)致標注工作量呈指數(shù)級增長。
最后,數(shù)據(jù)孤島與標準缺失問題突出。企業(yè)將數(shù)據(jù)視為核心競爭力,擔(dān)心共享導(dǎo)致技術(shù)泄露,形成 “數(shù)據(jù)孤島”;同時,不同機構(gòu)的數(shù)據(jù)采集設(shè)備、方法與格式缺乏統(tǒng)一標準,即便倡導(dǎo)開源,數(shù)據(jù)融合仍困難重重。
數(shù)據(jù)匱乏直接制約 AI 大模型性能提升。如上所述,通用人形機器人需覆蓋家庭、辦公、戶外等復(fù)雜場景,小規(guī)模數(shù)據(jù)難以捕捉場景多樣性,導(dǎo)致模型無法學(xué)習(xí)足夠模式,在新場景中表現(xiàn)欠佳。為保證安全性,開發(fā)人員不得不為機器人添加大量物理約束,將規(guī)范嵌入控制系統(tǒng),但這反而限制了場景泛化能力。
比數(shù)據(jù)缺乏更嚴峻的是數(shù)據(jù)質(zhì)量問題:錯誤標注、缺失值或偏差會使模型學(xué)習(xí)錯誤模式,導(dǎo)致機器人決策失誤。例如,在養(yǎng)老護理場景里,訓(xùn)練物體識別時,錯誤標注可能導(dǎo)致機器人拿錯藥物,引發(fā)嚴重后果。
為破解數(shù)據(jù)困局,機器人行業(yè)嘗試引入動作捕捉技術(shù) —— 通過高精度傳感器采集人類關(guān)節(jié)軌跡、肌肉發(fā)力模式,將人類動作轉(zhuǎn)化為機器人控制指令。這一技術(shù)試圖打通人類運動經(jīng)驗與機器人控制的壁壘,但仍存在局限:高精度動捕系統(tǒng)需在特定場地部署大量設(shè)備,成本高昂;視覺動捕易受光照與遮擋干擾,慣性動作捕捉可能受電磁干擾漂移;若 AI 模型基礎(chǔ)能力不足,示教動作可能引入誤差,限制復(fù)雜環(huán)境應(yīng)用。
GR00T N1為人形機器人帶來通用技能和推理
GTC 2025期間,NVIDIA 推出一系列全新技術(shù),助力人形機器人開發(fā),其中包括全球首個開源且完全可定制的基礎(chǔ)模型 NVIDIA Isaac GR00T N1。NVIDIA 創(chuàng)始人兼 CEO 黃仁勛表示,“借助 NVIDIA Isaac GR00T N1 以及新的數(shù)據(jù)生成和機器人學(xué)習(xí)框架,全球機器人開發(fā)者將開啟 AI 時代的全新篇章。”
GR00T N1是NVIDIA Isaac GR00T平臺推出的首個用于通用人形機器人推理和技能的可完全定制模型,其擁有兩大突出的優(yōu)勢:GR00T N1基于龐大的人形數(shù)據(jù)集訓(xùn)練而來,且創(chuàng)新性地采用了雙系統(tǒng)架構(gòu),可幫助解決當(dāng)前通用人形機器人開發(fā)遇到的挑戰(zhàn),保證了通用人形機器人性能的“基本盤”。
GR00T N1的訓(xùn)練數(shù)據(jù)既包含了真實獲取的數(shù)據(jù),也有使用 NVIDIA Isaac GR00T Blueprint 組件生成的合成數(shù)據(jù),以及互聯(lián)網(wǎng)級視頻數(shù)據(jù)。其中,用于合成運動生成的 NVIDIA Isaac GR00T Blueprint 是基于 NVIDIA Omniverse 和 NVIDIA Cosmos 構(gòu)建的參考工作流,它可以從少量的人類演示中創(chuàng)建大量的合成運動軌跡,用于機器人操作。列一組簡單的數(shù)據(jù)對比,GR00T Blueprint能夠在11 小時內(nèi)生成 780,000 個合成軌跡,相當(dāng)于 6,500 小時或連續(xù)九個月的人類演示數(shù)據(jù)。同時,GR00T Blueprint生成的數(shù)據(jù)還能夠和真實世界數(shù)據(jù)結(jié)合,進一步提升了數(shù)據(jù)的質(zhì)量和規(guī)模。

GR00T Blueprint工作流,圖源:NVIDIA
如此吸引人的訓(xùn)練數(shù)據(jù)集該如何獲取呢?NVIDIA也回應(yīng)了人形機器人開發(fā)人員關(guān)切的問題。GTC 2025上,該公司發(fā)布了大型開源數(shù)據(jù)集,助力構(gòu)建下一代物理 AI。初始數(shù)據(jù)集包含15 TB 數(shù)據(jù),有超過 320,000 條機器人訓(xùn)練軌跡,以及包含 SimReady 資源集合在內(nèi)的高達 1,000 個通用場景描述(OpenUSD)資源,開發(fā)人員可通過 Hugging Face 平臺下載。從數(shù)據(jù)規(guī)模來看,已發(fā)布的 GR00T N1 數(shù)據(jù)集是更大的開源物理 AI 數(shù)據(jù)集的一部分。事實上,這些高質(zhì)量數(shù)據(jù)不僅可用于預(yù)訓(xùn)練,也可用于后訓(xùn)練,以對AI模型進行調(diào)優(yōu)。
發(fā)展至今,GR00T N1背后的數(shù)據(jù)集和數(shù)據(jù)合成方法已經(jīng)不只是一個解決方案,而是一種適用于自主機器人或自動駕駛的數(shù)據(jù)生態(tài)。一方面,人形機器人公司、自動駕駛方案商和領(lǐng)先的科研機構(gòu)在積極使用這些數(shù)據(jù);另一方面這些機構(gòu)和單位也在基于此構(gòu)建新的數(shù)據(jù)和方法論。比如,智元機器人利用 GR00T-Teleop 打造了更加高效易用的仿真遙操作方法,GR00T-Teleop 是NVIDIA Project GR00T 的核心模塊之一,支持基于 Apple Vision Pro 的遠程操作。因此,用戶可以通過佩戴 VR 設(shè)備,利用手柄實時控制 Isaac Sim 中智元 AgiBot G1 機器人的手臂、腰部和底盤運動,然后再借助GR00T-Mimic,實現(xiàn)少量示教到海量數(shù)據(jù)的泛化,實現(xiàn)數(shù)據(jù)采集規(guī)模的指數(shù)級上升。這一方法,以及與之類似的方法實際上也解決了我們上述提到的動作捕捉技術(shù)的痛點和難點,以少量的人類示范就可以構(gòu)建大量人形機器人動作的“金標準”。

Genie Sim 基于 GR00T-Teleop 的仿真遠程操作架構(gòu),圖源:NVIDIA
除了龐大的數(shù)據(jù)支撐,GR00T N1模型還采用了雙系統(tǒng)架構(gòu),以提供類似人類大腦的認知模式。如下圖所示,系統(tǒng) 2是一個視覺-語言模型,基于 NVIDIA-Eagle 和 SmolLM-1.7B,是一個方法論思考系統(tǒng),通過視覺和語言指令解釋環(huán)境,使機器人能夠?qū)ζ洵h(huán)境和指令進行推理,并規(guī)劃正確的行動;系統(tǒng)1是擴散 Transformer,這個動作模型生成連續(xù)動作以控制機器人的運動,將系統(tǒng) 2 制定的動作計劃轉(zhuǎn)化為精確、連續(xù)的機器人運動,如在倉庫場景中,系統(tǒng)1能規(guī)劃自主導(dǎo)航路徑并完成多步驟貨物分揀。

GR00T N1模型的雙系統(tǒng)架構(gòu),圖源:NVIDIA
因此,GR00T N1模型能夠讓通用人形機器人開發(fā)人員從一開始就不必受到數(shù)據(jù)規(guī)模和場景泛化的牽絆,它可以輕松適應(yīng)和應(yīng)對各種通用任務(wù),比如單手或雙手抓取、移動物體,或者是將物品從一只手臂轉(zhuǎn)移到另一只手臂,當(dāng)然它也能夠勝任需要較長背景和常規(guī)技能組合的多步驟任務(wù),比較典型的場景是物料的搬運和檢查。
針對特定場景,開發(fā)人員還可以使用真實數(shù)據(jù)或合成數(shù)據(jù)對GR00T N1模型進行后訓(xùn)練,進一步提升人形機器人的場景適應(yīng)性;針對復(fù)雜任務(wù),開發(fā)人員也可以通過開源物理引擎 Newton提升人形機器人精度以處理復(fù)雜任務(wù)。該引擎基于 NVIDIA Warp 框架構(gòu)建,針對機器人學(xué)習(xí)進行優(yōu)化,并與 Google DeepMind MuJoCo 和 NVIDIA Isaac Lab 等仿真框架兼容。
正如1X Technologies 首席執(zhí)行官 Bernt B?rnich 所言,“人形機器人的未來開發(fā)重點在于適應(yīng)能力和學(xué)習(xí)能力。”GR00T N1模型的出現(xiàn)精準契合行業(yè)發(fā)展的大趨勢,通過高效、高質(zhì)量的數(shù)據(jù)集、預(yù)訓(xùn)練、后訓(xùn)練和推理,GR00T N1模型讓人形機器人研發(fā)全面換擋提速。當(dāng)前,優(yōu)先使用 GR00T N1 的領(lǐng)先機器人公司包括1X Technologies、Agility Robotics、波士頓動力、Mentee Robotics 和 NEURA Robotics等。
Blackwell 架構(gòu)為智能體提供強勁動能
如上所述,GR00T N1是NVIDIA 一系列可完全定制模型中的首個模型,也是GR00T平臺更新的重要成果。除了基礎(chǔ)模型和數(shù)據(jù)流水線,NVIDIA Jetson為人形機器人模型部署提供可擴展且性能強大的計算平臺。

GR00T工作流程圖,圖源:NVIDIA
NVIDIA Jetson平臺已有多款針對機器人部署的芯片方案。例如,Jetson Orin系列為不同規(guī)格的人形機器人模型提供 7 個具有相同架構(gòu)的模組,包括Jetson AGX Orin、Jetson Orin NX和Jetson Orin Nano等,最高可提供每秒高達 275 萬億次運算 (TOPS) 的算力,性能是上一代多模態(tài) AI 推理的 8 倍,可支持訓(xùn)練好的人形機器人模型進行快速推理。
更讓人形機器人開發(fā)者興奮的是最新的Jetson Thor系列,其是NVIDIA專為人形機器人設(shè)計的計算平臺。Jetson Thor集成高性能CPU、高算力內(nèi)核、功能安全模塊和100 GB以太網(wǎng)帶寬,使人形機器人能夠運行復(fù)雜的多模態(tài) AI 模型,高效處理實時的多模態(tài)傳感器數(shù)據(jù)并支持復(fù)雜處理任務(wù),是下一代通用人形機器人部署的理想平臺。此前,NVIDIA 機器人與邊緣計算副總裁Deepu Talla透露,Jetson Thor平臺計算性能可達到1050 TOPS。
Jetson Thor計算平臺的出色性能源于背后的NVIDIA Blackwell 架構(gòu)的強大支持,該架構(gòu)為生成式 AI 和加速計算帶來突破性進步。基于Blackwell 架構(gòu)的GPU具有 2080 億個晶體管,采用專門定制的臺積電 4NP 工藝制造。所有 NVIDIA Blackwell 產(chǎn)品均采用雙倍光刻極限尺寸的裸片,通過 10 TB/s 的片間互聯(lián)技術(shù)連接成一塊統(tǒng)一的 GPU。
除了計算性能的提升,Blackwell 架構(gòu)還有非常多的優(yōu)化,能夠提升基于該架構(gòu)的計算芯片在人形機器人市場的表現(xiàn)。比如,Blackwell 架構(gòu)搭載第二代 Transformer 引擎,該引擎將定制的 NVIDIA Blackwell Tensor Core 技術(shù)與 NVIDIA TensorRT-LLM 和 NeMo 框架的創(chuàng)新進行結(jié)合,加速大語言模型 (LLM) 和多專家模型 (MoE) 的推理和訓(xùn)練。GR00T N1數(shù)據(jù)集和模型等一系列新的方案發(fā)布之后,全球通用人形機器人在預(yù)訓(xùn)練、后訓(xùn)練和部署推理方面的芯片需求將顯著提升,而這些任務(wù)對算力芯片的算力精度和算力規(guī)模有著不一樣的要求,Blackwell Tensor Core 新增了由社區(qū)定義的新型微縮放格式作為新的精度選項,這一改進不僅提升了計算的準確性,還可在必要時輕松切換至更高的精度級別,這種能力保障了人形機器人的訓(xùn)練和推理。
對于第二代 Transformer 引擎,還有一點對于人形機器人是非常重要的,那就是微張量縮放的細粒度縮放技術(shù)。這項技術(shù)可以優(yōu)化性能和準確性,從而實現(xiàn) 4 位浮點 (FP4) AI。這一技術(shù)在保持高精度不變的同時,將內(nèi)存能夠支持的下一代模型的性能和規(guī)模均提升了 1 倍。這使得人形機器人能夠?qū)崟r處理視覺識別、自然語言交互、力控反饋等多維度數(shù)據(jù),決策能力顯著提升。同時,通過 FP4 精度和硬件級解壓縮引擎,Blackwell架構(gòu)可以降低人形機器人推理的功耗。通用人形機器人主要依賴電池供電,有限的身體空間導(dǎo)致電池容量無法像汽車一樣擴大,因此能效是非常重要的指標。
此外,Blackwell 內(nèi)置 NVIDIA 機密計算技術(shù),可通過基于硬件的強大安全性保護敏感數(shù)據(jù)和 AI 模型,使其免遭未經(jīng)授權(quán)的訪問,能夠增強人形機器人等AI智能體的數(shù)據(jù)安全特性。因此,Blackwell 架構(gòu)不僅是算力的升級,而是帶來了算力、效能、安全性等方面的全面提升,推動人形機器人從實驗室走向工業(yè)、服務(wù)、特種作業(yè)等場景。
結(jié)語
從數(shù)據(jù)孤島到生態(tài)協(xié)同,從場景局限到通用泛化,NVIDIA Isaac GR00T N1數(shù)據(jù)集和模型的出現(xiàn),使得研發(fā)通用人形機器人不再受困于數(shù)據(jù)缺失,并帶來了“數(shù)據(jù)合成 + 智能推理”的高效范式,僅需要少量的示范數(shù)據(jù)就能模擬人類大腦的決策邏輯,讓通用人形機器人在家庭服務(wù)、工業(yè)分揀、醫(yī)療護理等復(fù)雜場景中更快落地。在此過程中,Jetson AGX Thor 計算平臺與 Blackwell 架構(gòu)的創(chuàng)新賦能價值凸顯,為人形機器人裝上了高性能的“智能引擎”。
未來,隨著物理 AI 與生成式 AI 的深度耦合,人形機器人將從 “定制化工具” 邁向 “通用化智能體”,真正融入人類生活的每個角落,開啟人機協(xié)作的全新時代。
-
人形機器人
+關(guān)注
關(guān)注
7文章
958瀏覽量
18469
發(fā)布評論請先 登錄
人形機器人搶鏡車展,商業(yè)化拐點提速到來
從概念到落地:靈巧手為何是人形機器人產(chǎn)業(yè)化的決勝環(huán)節(jié)?
基于NVIDIA VLA模型打造通用人形機器人能力
最新發(fā)布!泰科機器人發(fā)布首款自研雙足人形機器人
ADI借助NVIDIA Jetson Thor平臺加速人形機器人研發(fā)進程
機器人競技幕后:磁傳感器芯片激活 “精準感知力”
藍思科技:今年承接智元機器人全系列多款人形機器人業(yè)務(wù)
Robotous加速人形機器人研發(fā)與全球合作布局
NVIDIA 通過云端至機器人計算平臺驅(qū)動人形機器人技術(shù),賦能物理 AI
世強硬創(chuàng)解決方案破局人形機器人量產(chǎn)難題
EtherCAT科普系列(4):EtherCAT技術(shù)在人形機器人靈巧手領(lǐng)域應(yīng)用
NVIDIA發(fā)布全球首個開源人形機器人基礎(chǔ)模型Isaac GR00T N1
機器人Blue亮相 搭載英偉達最新GR00T N1人形機器人通用基礎(chǔ)模型
AgiBot World Colosseo:構(gòu)建通用機器人智能的規(guī)模化數(shù)據(jù)平臺
破解數(shù)據(jù)與泛化難題,通用人形機器人研發(fā)全面提速
評論