具身智能照進現(xiàn)實，物理 AI 解人形機器人量產(chǎn)困局

CES 2025上，人形機器人新品密集發(fā)布，成為展會最大亮點之一。透過CES 2025不難看出，今年將成為全球人形機器人發(fā)展的關(guān)鍵之年，一大批人形機器人項目將開始規(guī)模化量產(chǎn)，產(chǎn)品功能豐富多元。

?
目前，已經(jīng)有包括Walker S1在內(nèi)的人形機器人入廠實習(xí)，也有非常多的陪伴型人形機器人進入場景調(diào)試的關(guān)鍵環(huán)節(jié)。在這個過程中，如何讓人形機器人更好地理解真實的物理世界，成為產(chǎn)業(yè)爆發(fā)需要補齊的最后一環(huán)，也是NVIDIA的Isaac GR00T Blueprint、Cosmos世界基礎(chǔ)模型（WFM）和Jetson Thor芯片引起業(yè)界廣泛關(guān)注的原因。
?

人形機器人重點市場分析和技術(shù)前沿探索

隨著技術(shù)和產(chǎn)品逐漸成熟，全球人形機器人市場發(fā)展迸發(fā)出澎湃的動能。高盛在報告中預(yù)測稱，到2035年全球人形機器人出貨量將達140萬臺，市場規(guī)模約380億美元。這一預(yù)測相較于該機構(gòu)約兩年前的預(yù)測（約60億美元）增長了6倍多。根據(jù)中國信息通信研究院發(fā)布的《人形機器人產(chǎn)業(yè)研究報告（2024版）》，人形機器人發(fā)展大致分為5個階段，分別是：
·Lv1基礎(chǔ)能力實現(xiàn)：具備穩(wěn)定地走、跑、跳功能和初步的交互能力；
·Lv2初級智能實現(xiàn)：特定場景下的特定功能，結(jié)構(gòu)化任務(wù)，泛化能力較弱；
·Lv3場景智能實現(xiàn)：特定場景下能夠完成大部分非結(jié)構(gòu)化任務(wù)，具備一定泛化能力；
·Lv4多場景適配：在多個場景均能夠完成大部分非結(jié)構(gòu)化的任務(wù)，不少于3個場景；
·Lv5全面智能實現(xiàn)：實現(xiàn)真正的具身智能，通過簡單的學(xué)習(xí)即可完成各類任務(wù)。
?
如下圖所示，當(dāng)?shù)竭_Lv5階段時，全球人形機器人的部署規(guī)模將超過1億臺，市場規(guī)模將達到約10萬億元，其中工業(yè)和服務(wù)場景是主要的落地領(lǐng)域。NVIDIA 機器人與邊緣計算副總裁Deepu Talla表示，“在我的觀念里，機器人是人工智能最大的應(yīng)用方向之一?！庇腥笸苿右蛩刈寵C器人變得不可或缺，包括工作演變和職業(yè)選擇造成的勞動力短缺，礦工等工種依然在危險環(huán)境中進行作業(yè)，以及人類壽命延長和社會老齡化帶來的養(yǎng)老問題。毫無疑問，在這些場景里，人形機器人作為目前最智慧的機器人形態(tài)，有著更好的通用性，也有著光明的市場前景。
?

人形機器人發(fā)展階段分析，圖源：中國信息通信研究院

?
目前，全球人形機器人發(fā)展主要處于Lv1和Lv2階段，進入實習(xí)階段、應(yīng)用于工業(yè)場景的人形機器人產(chǎn)品大都處于Lv2階段，代表著產(chǎn)業(yè)技術(shù)的最前沿。人形機器人對于“人形”的追求主要是為了塑造等同于人類的通用能力，從“專機專用”逐步走向“一機多用”。從事工業(yè)制造的人形機器人將從封閉式的工位逐步擴展到整個工廠；從事服務(wù)類型的人形機器人將會邁出家門走向全社會。
?
要實現(xiàn)人形機器人的通用能力需要強化機器人的“大腦”“小腦”和“肢體”能力，這些功能單元分別負(fù)責(zé)人形機器人的任務(wù)調(diào)度、運動控制和感知執(zhí)行。Deepu Talla認(rèn)為，當(dāng)前全球人形機器人市場爆發(fā)主要受益于技術(shù)的進步和仿真環(huán)境的改進，涉及人形機器人的模型訓(xùn)練、環(huán)境感知和最終部署。因此，打造人形機器人需要用到“三臺計算機”：
·第一臺計算機用于訓(xùn)練：訓(xùn)練通常在云端、數(shù)據(jù)中心或NVIDIA DGX這樣的強大平臺上進行，是構(gòu)建機器人“大腦”的關(guān)鍵步驟。比如開發(fā)人員可以在NVIDIA DGX平臺上使用NVIDIA NeMo來訓(xùn)練和微調(diào)生成式AI模型，讓人形機器人變得更加智慧。
?
·第二臺計算機用于仿真：仿真平臺和模擬環(huán)境讓訓(xùn)練完成的人形機器人避免進行效率低、成本高、風(fēng)險高的物理測試。通過“數(shù)字孿生”的方式，開發(fā)人員可以在NVIDIA OVX服務(wù)器上運行的NVIDIA Omniverse里構(gòu)建一個仿真層，在虛擬環(huán)境中完成人形機器人的功能測試。仿真允許在大規(guī)模、快速且安全的條件下運行數(shù)千種場景測試，而無需受到真實世界時間和成本的限制。開發(fā)人員還可以使用NVIDIA Isaac Lab，這個開源的機器人學(xué)習(xí)框架能夠顯著提升人形機器人訓(xùn)練和調(diào)優(yōu)的效率。
?

開發(fā)人員可以在極其逼真的虛擬環(huán)境下進行人形機器人測試，圖源：NVIDIA

?
·第三臺計算機用于部署：訓(xùn)練和測試完成的模型和系統(tǒng)需要部署到人形機器人內(nèi)部，作為機器人的“大腦”。比如，NVIDIA Jetson Thor計算機系統(tǒng)便是NVIDIA專門為人形機器人打造的緊湊型計算平臺。
?
從目前產(chǎn)業(yè)發(fā)展現(xiàn)狀來看，用于訓(xùn)練、仿真和部署的高性能計算系統(tǒng)，在性能提高上可謂是高歌猛進，但如何利用好這些硬件進行訓(xùn)練、仿真還存在一些不足，且已經(jīng)逐漸演化為人形機器人產(chǎn)業(yè)發(fā)展的瓶頸。其中一個很突出的產(chǎn)業(yè)痛點是用于模仿學(xué)習(xí)的專家數(shù)據(jù)，無論是獲取效率還是數(shù)據(jù)量都不能很好地滿足當(dāng)前人形機器人爆發(fā)對于參考演示數(shù)據(jù)集的需求。
?
具體而言，多角度對人模仿是人形機器人功能實現(xiàn)的主要技術(shù)邏輯，然而目前作為人形機器人“大腦”的AI大模型普遍采用的是基于視覺或語音的感知模態(tài)，對于真實物理環(huán)境的理解存在著非常大的限制，尤其是泛化能力方面，現(xiàn)階段的人形機器人在應(yīng)對新環(huán)境和新任務(wù)時的表現(xiàn)往往不盡如人意。
?
模仿學(xué)習(xí)是人形機器人訓(xùn)練和測試調(diào)優(yōu)的關(guān)鍵所在，主要方式包括行為克?。˙ehavior Cloning）、逆向強化學(xué)習(xí)（Inverse Reinforcement Learning）等實現(xiàn)方式，無論是哪種方式都需要大量的數(shù)據(jù)作為參考。為了提升基于有限數(shù)據(jù)訓(xùn)練算法模型的效果，開發(fā)人員在開發(fā)模仿學(xué)習(xí)算法模型時，很多時候會選擇DAgger（人類對不好效果進行重新演示）或模仿給定策略（通過獎勵網(wǎng)絡(luò)盡量擬合提供的示教數(shù)據(jù)）等措施，不過這些措施都有一些先天的不足。
?
比如，DAgger依賴人工去調(diào)優(yōu)一些不好的訓(xùn)練結(jié)果，這種方式效率很低，且很多機器人要實現(xiàn)的策略是人類無法實現(xiàn)的，像超高精度的手部控制，六軸陀螺儀動作校準(zhǔn)等；GAIL（Generative Adversarial Imitation Learning）便是逆向強化學(xué)習(xí)中一種示例模擬算法，不過這些策略也可能會因為專家數(shù)據(jù)不足而導(dǎo)致無法收斂的情況，得不到滿意的調(diào)優(yōu)結(jié)果。
?

DAgger算法示例，圖源：騰訊云開發(fā)人員社區(qū)

?
并且，之前各種訓(xùn)練和仿真機制實際上都不能反饋出人形機器人對物理世界的真實反饋，在實際部署過程中會出現(xiàn)大量超出訓(xùn)練和測試范疇的情況。過往，人形機器人需要在漫長的實習(xí)期內(nèi)進行大量的反復(fù)校準(zhǔn)，以盡可能去突破真實工作環(huán)境造成的行為約束，這種方式費時費力。因而，將物理AI引入人形機器人訓(xùn)練和仿真環(huán)節(jié)已經(jīng)刻不容緩。
?

Isaac GR00T Blueprint讓人形機器人更好地理解物理世界

作為物理學(xué)與AI技術(shù)相互交融的前沿領(lǐng)域，物理AI是生成式AI下一步發(fā)展的重點方向之一。根據(jù)NVIDIA官網(wǎng)的術(shù)語解讀，物理AI是指使用運動技能理解現(xiàn)實世界并與之進行交互的模型，通常封裝在機器人或自動駕駛汽車等自主機器中。
?
如上所述，傳統(tǒng)的AI大模型是基于互聯(lián)網(wǎng)上現(xiàn)有的文本和圖片訓(xùn)練而得，訓(xùn)練數(shù)據(jù)類型讓這些模型具有驚人的邏輯、概念和語言能力，但對真實物理世界的了解卻非常有限。當(dāng)部署到智能手機、PC等終端時，這些AI大模型會有很好的效果，不過人形機器人需要作為智能體從事制造和服務(wù)等工作，與現(xiàn)實世界之間有大量的交互，此時傳統(tǒng)AI大模型作為人形機器人“大腦”就會受到大量的規(guī)則約束，自主性非常低。
?
物理AI通過3D訓(xùn)練數(shù)據(jù)和強化學(xué)習(xí)策略，為人形機器人的發(fā)展帶來了基于物理世界的強大模擬功能，提供安全受控的環(huán)境訓(xùn)練。有了物理世界的“數(shù)字孿生”，人形機器人等自主機器能夠在模擬物理環(huán)境下通過數(shù)千甚至數(shù)百萬次試錯行為，安全快速地學(xué)習(xí)技能，顯著提升人形機器人在真實物理世界中的自主性，并增強人形機器人執(zhí)行任務(wù)的效率和準(zhǔn)確性。這便是CES 2025上NVIDIA推出Isaac GR00T Blueprint給人形機器人產(chǎn)業(yè)帶來的巨大價值。
?
Isaac GR00T Blueprint是專門用于合成運動軌跡生成的工作流，如下圖所示，Isaac GR00T Blueprint融合GR00T-Teleop工作流、GR00T-Mimic工作流和GR00T-Gen工作流，這一完整的工作流使得開發(fā)人員只需要少量人類示范，就能輕松生成海量的合成數(shù)據(jù)集。
?

Isaac GR00T Blueprint工作流，圖源：NVIDIA

?
Isaac GR00T Blueprint工作流解決了人形機器人訓(xùn)練和仿真環(huán)節(jié)的核心痛點——數(shù)據(jù)獲取成本高、效率低，以及3D數(shù)據(jù)集缺失。在數(shù)據(jù)獲取環(huán)節(jié)，開發(fā)人員可以通過 GR00T-Teleop工作流和虛擬現(xiàn)實設(shè)備進行動作示范，和DAgger等算法模型采用的人工反復(fù)調(diào)優(yōu)不同，GR00T-Teleop工作流能夠記錄下開發(fā)人員少量的示范動作，并作為模仿學(xué)習(xí)的“金標(biāo)準(zhǔn)”，然后讓人形機器人在虛擬環(huán)境下進行大量試錯，最終達成規(guī)范動作。
?
Deepu Talla指出，和自動駕駛能夠通過現(xiàn)有車輛獲取數(shù)據(jù)不同，現(xiàn)階段機器人的數(shù)量還不足以產(chǎn)生如此大的數(shù)據(jù)量，作為新興產(chǎn)品的人形機器人就更是如此了。因此，數(shù)據(jù)的稀缺性造成了傳統(tǒng)人形機器人訓(xùn)練和仿真的局限性，合成數(shù)據(jù)生成變得至關(guān)重要。GR00T-Mimic工作流和GR00T-Gen工作流則著重解決了這一難題，其中GR00T-Mimic工作流通過捕捉人類的示范動作，可以擴展生成更大的合成運動數(shù)據(jù)集；然后GR00T-Gen工作流借助NVIDIA Omniverse和NVIDIA Cosmos平臺，通過域隨機化和3D提升技術(shù)，進一步指數(shù)級擴展這一數(shù)據(jù)集。
?
在整個工作流中，NVIDIA最新推出的Cosmos是一個用于加速物理AI開發(fā)的平臺，包含一系列開放的預(yù)訓(xùn)練世界基礎(chǔ)模型，可以預(yù)測和生成虛擬環(huán)境未來狀態(tài)的物理感知視頻的神經(jīng)網(wǎng)絡(luò)。Cosmos平臺的推出解決了人形機器人環(huán)境數(shù)據(jù)稀缺的問題，支持開發(fā)人員直接使用Cosmos模型生成符合物理學(xué)規(guī)律的合成數(shù)據(jù)，或利用NVIDIA NeMo框架，根據(jù)自己的視頻對模型進行微調(diào)，以實現(xiàn)特定物理AI設(shè)置，在仿真環(huán)境中調(diào)優(yōu)各種人形機器人功能。根據(jù)NVIDIA官方分享的數(shù)據(jù)，Cosmos平臺已基于2000萬小時的真實世界人類互動、環(huán)境、工業(yè)、機器人和駕駛數(shù)據(jù)，訓(xùn)練了9000萬億個token。因此，Cosmos平臺為開發(fā)人員帶來倍增的工作效率，相較于目前先進的tokenizer，Cosmos tokenizer的總壓縮率高8倍，處理速度快12倍。
?

Cosmos世界基礎(chǔ)模型，圖源：NVIDIA

?
通過Isaac GR00T Blueprint工作流和Cosmos世界基礎(chǔ)模型，NVIDIA幫助開發(fā)人員鋪平了人形機器人從實驗室走向真實物理世界的道路，克服了人形機器人因部署量小而造成的數(shù)據(jù)短缺問題。同時，憑借NVIDIA Isaac GR00T、Omniverse和Cosmos等平臺，NVIDIA提供了全球領(lǐng)先的人形機器人生態(tài)系統(tǒng)，擁有數(shù)量龐大的人形機器人合作伙伴群體。比如，波士頓動力、Figure和銀河通用等人形機器人公司正在使用Isaac GR00T開發(fā)自己的人形機器人系統(tǒng)；1X、Agile Robots、Agility、Uber等公司已經(jīng)開始使用Cosmos世界基礎(chǔ)模型。
?

高性能計算芯片是實現(xiàn)物理AI的關(guān)鍵

綜上所述，物理AI的融入將進一步激發(fā)人形機器人的發(fā)展?jié)撃?，Isaac GR00T Blueprint工作流和Cosmos世界基礎(chǔ)模型的推出，解決了人形機器人訓(xùn)練數(shù)據(jù)短缺問題，尤其是讓人形機器人更好地理解現(xiàn)實世界的3D數(shù)據(jù)集短缺問題，打通了人形機器人規(guī)模化落地的“最后一公里”。
?
想要更好地使用Isaac GR00T Blueprint工作流和Cosmos世界基礎(chǔ)模型，離不開NVIDIA提供的豐富的硬件資源。比如，在Isaac GR00T Blueprint工作流中，Cosmos世界基礎(chǔ)模型和NVIDIA Omniverse的配合實現(xiàn)了數(shù)據(jù)集指數(shù)級擴展，這個過程中，運轉(zhuǎn)Cosmos就需要強大的NVIDIA計算芯片作為支撐。根據(jù)測試數(shù)據(jù)，在等效功耗的CPU系統(tǒng)上處理2000萬小時視頻數(shù)據(jù)將需要3年以上的時間，而在NVIDIA Hopper GPU運轉(zhuǎn)Cosmos平臺僅用40天就能處理2000萬小時的數(shù)據(jù)，如果是采用NVIDIA Blackwell GPU，這一數(shù)字將進一步縮短至14天。
?
實際上，NVIDIA在打造人形機器人所需要的三臺計算機方面，都能夠提供高性能計算系統(tǒng)。在訓(xùn)練方面，開發(fā)人員可以基于NVIDIA DGX平臺使用NVIDIA NeMo來訓(xùn)練和微調(diào)自己的人形機器人算法模型；在仿真方面，NVIDIA OVX服務(wù)器上運轉(zhuǎn)的NVIDIA Omniverse提供了開發(fā)平臺和模擬環(huán)境，Cosmos平臺的加入進一步強化了這種能力；在部署方面，NVIDIA Jetson機器人計算機為人形機器人提供高算力和高效能的平臺。
?
Jetson是NVIDIA專為機器人等邊緣AI應(yīng)用打造的緊湊型計算平臺，提供豐富的硬件以及預(yù)構(gòu)建和云原生軟件服務(wù)。其中，開發(fā)人員現(xiàn)階段可選的Jetson模組包括Jetson AGX Orin系列、Jetson Orin NX系列和Jetson AGX Xavier系列等。
?
Jetson Thor系列是NVIDIA即將推出的新一代專為人形機器人打造的緊湊型計算平臺，基于NVIDIA Thor系統(tǒng)級芯片。根據(jù)Deepu Talla透露，Jetson Thor平臺性能可達到1050 TOPS，功耗最高可達120瓦，是現(xiàn)階段最強大的人形機器人部署平臺。人形機器人需要應(yīng)對的環(huán)境和任務(wù)是復(fù)雜多樣的，開發(fā)人員為此創(chuàng)建了許多不同的 VLA（視覺、語言和動作）模型，Jetson Thor系列能夠為這些模型提供充足的算力支持。
?
之所以能夠形成產(chǎn)品如此豐富的硬件矩陣，原因在于每一代GPU架構(gòu)都大致相同，這種架構(gòu)一致性確保了人形機器人等AI應(yīng)用在云端和端側(cè)部署的無縫連接和靈活性，讓人形機器人能夠應(yīng)對更多的場景和任務(wù)。當(dāng)然，每一代GPU架構(gòu)迭代也都會帶來巨大的芯片性能提升，NVIDIA Thor系統(tǒng)級芯片背后的Blackwell架構(gòu)便是該芯片成為最強大人形機器人部署平臺的關(guān)鍵因素之一。
?
對于Blackwell架構(gòu)大家已經(jīng)非常熟悉，作為NVIDIA最新一代GPU架構(gòu)，基于多代NVIDIA技術(shù)構(gòu)建，包括第二代 Transformer 引擎、Blackwell Tensor Core技術(shù)、NVIDIA TensorRT-LLM技術(shù)、NVIDIA機密計算技術(shù)、NVLink技術(shù)、解壓縮引擎等。同時，基于Blackwell架構(gòu)的GPU都采用先進的制造工藝，包括專門定制的臺積電4NP工藝和雙倍光刻極限尺寸的裸片，并通過10 TB/s的片間互聯(lián)技術(shù)連接成一塊統(tǒng)一的GPU。這些關(guān)鍵的架構(gòu)創(chuàng)新讓Jetson Thor平臺有著出色的算力和能效表現(xiàn)，為搭載最領(lǐng)先模型的人形機器人提供硬件性能保障。
?

Blackwell架構(gòu)創(chuàng)新，圖源：NVIDIA

結(jié)語

正如Deepu Talla所言，目前人形機器人技術(shù)發(fā)展日新月異，還沒有哪一種VLA模型被行業(yè)認(rèn)定為是通用人形機器人落地的最佳方案。不過，人形機器人在發(fā)展初期，訓(xùn)練數(shù)據(jù)缺失的痛點是非常明顯的，尤其是提升環(huán)境交互能力的3D數(shù)據(jù)。由于缺乏這些數(shù)據(jù)，傳統(tǒng)人形機器人開發(fā)面臨人工調(diào)優(yōu)工作量大、強化學(xué)習(xí)模型不易收斂等問題，成為產(chǎn)業(yè)發(fā)展的掣肘。
?
通過推出Isaac GR00T Blueprint工作流和Cosmos世界基礎(chǔ)模型，NVIDIA幫助開發(fā)人員完善了模擬學(xué)習(xí)和強化學(xué)習(xí)工作流。通過多樣化的參考架構(gòu)，針對特定任務(wù)提供不同的Blueprints，以及全球領(lǐng)先的NVIDIA Omniverse 3D仿真環(huán)境，Isaac GR00T Blueprint最大程度地縮小了訓(xùn)練數(shù)據(jù)和現(xiàn)實世界之間的不一致，幫助人形機器人適應(yīng)真實的任務(wù)場景。
?
在這些工作流、世界基礎(chǔ)模型和仿真環(huán)境背后，NVIDIA提供豐富的硬件資源，覆蓋了人形機器人開發(fā)所需的“三臺計算機”需求，即將推出的Jetson Thor系列為各種技術(shù)路徑的人形機器人落地提供充足的算力支持。有了這些軟硬件資源，10萬億的全球人形機器人市場規(guī)模有望提前達成。
?

閱讀全文

機器人(220833) 機器人(220833)

搜索歷史

具身智能照進現(xiàn)實，物理 AI 解人形機器人量產(chǎn)困局

評論