成人精品久久久,在线国产一区二区三区,精品一区二区久久久久久按摩

機器人領域的一大核心挑戰在于如何讓機器人掌握新任務，而無需針對每個新任務和環境耗費大量精力收集和標注數據集。NVIDIA 的最新研究方案通過生成式 AI、世界基礎模型（如NVIDIA Cosmos）以及數據生成藍圖（如Isaac GR00T-Mimic與GR00T-Dreams）來克服這一挑戰。

本期 NVIDIA 機器人研究與開發摘要 (R2D2) 將介紹如何通過世界基礎模型實現可擴展的合成數據生成與機器人模型訓練工作流，具體包括：

DreamGen：Isaac GR00T-Dreams blueprint的研究基礎。

GR00T N1：開源基礎模型，使機器人能夠通過真實數據、人類演示和合成數據學習跨任務與形態的通用技能。

通過視頻進行潛在動作預訓練：無監督的學習方法，無需人工動作標注，就能從大規模視頻中學習機器人相關動作。

仿真與現實協同訓練：結合仿真環境與真實世界機器人數據的訓練方法，可構建更具魯棒性和適應性的機器人策略。

機器人世界基礎模型

NVIDIA Cosmos 世界基礎模型經過數百萬小時真實世界數據訓練，能夠預測未來世界狀態，并基于單張輸入圖像生成視頻序列。這項技術使機器人和自動駕駛車輛具備預判未來事件的能力，這種預測能力對于合成數據生成流程至關重要，有助于快速創建多樣化、高保真的訓練數據。這一方法大幅加速了機器人的學習過程，提升了模型的魯棒性，并將原本需要數月人工投入的開發時間縮短至僅數小時。

DreamGen

DreamGen 是一種合成數據生成流程。機器人學習需要收集大規模人類遠程操作數據，成本高昂且耗費人力，而 DreamGen 就有助于解決這一問題，它是 Isaac GR00T-Dreams 的基礎，這一藍圖可借助世界基礎模型生成海量的合成機器人軌跡數據。

傳統的機器人基礎模型在面對每一項新任務和新環境時，都需要大量人工演示，這種方式不具備可擴展性。而基于仿真的替代方案則經常受到“仿真到現實”差距的困擾，且需要大量人工工程投入。

DreamGen 通過世界基礎模型突破這些限制，僅需極少量人工干預即可生成高真實性、多樣化的訓練數據。該方法實現了機器人學習的規模化擴展，并能在不同行為模式、環境場景及機器人形態間實現泛化。

圖 1. 通過 DreamGen 實現泛化

DreamGen 技術流程包含四個核心步驟：

1. 世界基礎模型的后訓練：

利用少量真實演示數據，將Cosmos-Predict2等世界基礎模型適配至目標機器人。Cosmos-Predict2 能夠通過文本生成高質量圖像（文本到圖像），并通過圖像或視頻生成視覺仿真內容（視頻到世界）。

2. 生成合成視頻：

基于經過后訓練的模型，通過圖像和語言提示，為新任務與新環境創建多樣化、逼真的機器人視頻。

3. 提取偽動作：

應用潛在動作模型或逆動力學模型 (IDM)，將這些視頻轉換為帶標簽的動作序列（神經軌跡）。

4. 訓練機器人策略：

利用生成的合成軌跡訓練視覺運動策略，使機器人能夠執行新行為，并能泛化至未見過的場景。

圖 2. DreamGen 工作流概覽

DreamGen Bench

DreamGen Bench 是一個專門設計的基準測試，用于評估視頻生成模型在適配特定機器人形態時的效果，同時考察這些模型對剛體物理規律的內化程度，以及向新物體、新行為和新環境的泛化能力。該基準測試對四個領先的世界基礎模型進行測試，分別是 NVIDIA Cosmos、WAN 2.1、混元和 CogVideoX，并衡量兩項關鍵指標：

指令遵循：評估生成視頻是否準確反映任務指令（如"拿起洋蔥"），采用 Qwen-VL-2.5 等視覺語言模型和人工標注進行雙重驗證。

物理規律遵循：通過 VideoCon-Physics 和 Qwen-VL-2.5 等工具量化物理真實性，確保視頻符合真實世界物理規律。

如圖 3 所示，我們發現，在 DreamGen 基準測試中得分較高的模型（即能夠生成更真實且符合指令的合成數據的模型），在用于機器人真實操作任務的訓練和測試時，也有更優的性能表現。這種正相關關系表明，投入研發更強大的世界基礎模型，不僅能提升合成訓練數據的質量，還能直接轉化為實際應用中能力更強、適應性更優的機器人。

圖 3. DreamGen Bench 與 RoboCasa 之間的性能正相關

Isaac GR00T-Dreams

基于 DreamGen 研究的 Isaac GR00T-Dreams，是一套用于生成大規模機器人動作合成軌跡數據集的工作流。這些數據集可用于實體機器人的訓練，與收集真實世界動作數據相比，能節省大量時間和人力投入。

GR00T-Dreams 借助 Cosmos Predict2 世界基礎模型和Cosmos Reason來為不同任務和環境生成數據。Cosmos Reason 模型包含多模態大型語言模型，能針對用戶提示生成基于物理原理的響應。

通用機器人訓練模型與工作流

視覺語言動作 (VLA) 模型可以通過世界基礎模型生成的數據進行后訓練，從而在未知環境中實現新的行為和操作。

NVIDIA 研究中心使用 GR00T-Dreams blueprint 生成合成訓練數據，僅用 36 小時就開發出了GR00T N1的升級版本GR00T N1.5。如果采用人工收集數據的方式，這個過程需要近三個月時間。

GR00T N1 是全球首個面向通用人形機器人的開源基礎模型，標志著機器人和 AI 領域的重大突破。該模型采用受人類認知啟發的雙系統架構，統一了視覺、語言和動作，使機器人能夠理解指令、感知環境并執行復雜的多步驟任務。

GR00T N1 以通過視頻進行潛在動作預訓練 (LAPA) 等技術為基礎，能夠從無標簽的人類視頻中學習，同時它還采用了仿真與現實協同訓練等方法，通過融合合成數據與真實世界數據來增強模型的泛化能力。本文后續將詳細介紹 LAPA 和仿真與現實協同訓練技術。通過整合這些創新成果，GR00T N1 不僅能夠遵循指令、執行任務，更在復雜且不斷變化的環境中，為通用人形機器人的能力設立了新標桿。

GR00T N1.5 是基于 GR00T N1 升級的通用人形機器人開源基礎模型，其特點是采用了經過優化的視覺語言模型，該模型訓練數據包括真實數據、仿真數據和 DreamGen 生成的合成數據的多樣化組合。

通過架構優化與數據質量提升，GR00T N1.5 實現了三大核心突破：提升任務成功率、增強語言理解能力、增強對新物體與任務的泛化能力，從而成為更穩定可靠、適應性更強的先進機器人操作解決方案。

通過視頻進行潛在動作預訓練

通過視頻進行潛在動作預訓練 (LAPA) 是一種用于視覺-語言-動作 (VLA) 模型預訓練的無監督方法，無需使用成本高昂且需人工標注的機器人動作數據。LAPA 不依賴大規模帶標注的數據集，這類數據集的收集既昂貴又耗時，而是利用超過 181,000 個未標注的互聯網視頻來學習有效的特征表示。

這種方法在真實世界任務中，相比先進模型實現了 6.22% 的性能提升，且預訓練效率提高了 30 倍以上，這使得具備可擴展性和穩健性的機器人學習變得更加便捷高效。

LAPA 工作流分為三個階段：

潛在動作量化：Vector Quantized Variational AutoEncoder (VQ-VAE) 模型通過分析視頻幀之間的轉換，學習離散的“潛在動作”，從而構建一套基礎行為詞匯（例如抓取、傾倒）。潛在動作是低維度的習得表征，可概括復雜的機器人行為或運動，便于對高維度動作進行控制或模仿。

潛在預訓練：利用行為克隆對 VLM 進行預訓練，使其能基于視頻觀察結果和語言指令，預測第一階段得到的這些潛在動作。行為克隆是一種模型學習方法，通過將觀察結果映射到動作，利用演示數據中的示例來復制或模仿動作。

機器人后訓練：之后，使用小型帶標簽數據集對預訓練模型進行后訓練，使其適配實體機器人，將潛在動作映射為物理指令。