DIPO
雙狀態約束×復雜數據驅動應用于具身智能仿真的3D鉸鏈物體生成新范式
在具身智能從理解環境向與環境交互進化的當下,構建真實且可交互的仿真環境是重要路徑。單一剛體生成已難滿足需求,機器人需要面對的是柜門、抽屜、微波爐等大量具有物理約束的鉸鏈物體。受限于復雜的運動學結構,高質量3D鉸鏈物體資產極為稀缺。
地平線與合作者們提出DIPO,創新性地利用“靜止+活動”雙狀態圖像作為條件,結合思維鏈(Chainof Thought)圖推理,僅需兩張圖片實現結構合理、運動一致、可供機器人交互操作的鉸鏈3D資產生成。此外,還打造了自動化鉸鏈資產構建鏈路,開源了大規模復雜鉸鏈物體數據集PM-X。為機器人操作和通用場景仿真下的鉸鏈物體生成開啟了新的范式。該成果已被學術頂會NeurIPS2025錄用。
?技術報告:
https://arxiv.org/abs/2505.20460
?Huggingface Demo:
https://huggingface.co/spaces/HorizonRobotics/DIPO
?PM-X數據集:
https://huggingface.co/datasets/HorizonRobotics/DIPO-Dataset
? 項目主頁:
https://rq-wu.github.io/projects/DIPO
行業痛點:3D鉸鏈物體的資產荒
邁向通用具身智能,需要機器人需要在仿真環境中與冰箱、烤箱等復雜鉸鏈(可活動關節)物體進行深度交互訓練。然而此類資產的構建面臨“采集難、建模慢、數據簡”的挑戰:真實物體的關節參數與運動范圍測量成本極高;人工逐件裝配與URDF標注耗時費力;主流數據集(如 PartNet-Mobility)平均部件數不足5個,其低復雜度結構滯后于真實世界的物理多樣性,嚴重制約了智能體的場景泛化能力。
模型方案:雙狀態輸入+思維鏈推理
DIPO摒棄了“單圖猜結構”的傳統路徑,開辟了一條新的技術路線:通過輸入物體“靜止狀態圖”與“關節活動狀態圖”這一對雙狀態圖像,顯式編碼關鍵的運動信息。

提出了一個雙狀態注入模塊,通過注意力機制讓模型學習“靜止”與“活動”兩張圖像之間的差異,捕捉圖像對間的關聯特征,從而生成可靠的部件布局與關節參數。為了解決復雜物體部件連接關系(如多層抽屜、雙開門)的識別難題,DIPO引入了基于思維鏈的圖推理器。 這個推理器模擬了人類的認知過程,分步驟進行邏輯推斷,大幅提升了模型對復雜拓撲結構的理解的準確性。
數據引擎:自動化構建復雜資產
為了增強模型對復雜物體的泛化能力,靠現有的簡單數據集(如 PartNet-Mobility)是遠遠不夠的。為此,DIPO提出了一套全自動的數據集構建流程。

基于此流程,發布了大規模數據集PM-X。該數據集單個鉸鏈物體平均部件數達到19.4個,現有數據集僅為5-8個,極大地豐富了訓練數據的結構多樣性與生成模型的泛化性。

實驗結果:SOTA 性能表現
實驗表明,DIPO在多項指標上均超越了現有最先進方法,在PartNet-Mobility測試集與分布外的ACD測試集上,重建指標與圖預測準確率均顯著高于基線方法。


DIPO與基線模型的可視化對比。 涵蓋PM、ACD數據集及真實場景樣本,展示了基于雙狀態圖像輸入的連接圖預測與鉸鏈生成結果,紅框標記了基線方法的連接錯誤。

總結與展望
DIPO通過引入雙狀態圖像這一低成本、高信息的輸入模態,結合思維鏈推理與自動化數據工廠,解決復雜鉸鏈物體生成的難題。這項工作不僅大幅提升了生成資產的結構合理性與運動一致性,更為具身智能仿真環境的快速構建提供了一種高效、可擴展的新范式。DIPO的代碼與PM-X數據集已向社區開源,持續推動3D生成與具身智能仿真領域的技術發展。
-
機器人
+關注
關注
213文章
31069瀏覽量
222162 -
仿真
+關注
關注
54文章
4482瀏覽量
138232 -
具身智能
+關注
關注
0文章
388瀏覽量
857
原文標題:開發者說|DIPO:應用于具身智能仿真的3D鉸鏈物體生成新范式
文章出處:【微信號:horizonrobotics,微信公眾號:地平線HorizonRobotics】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
基于3D數據卷積神經網絡的物體識別
英特爾? 具身智能大小腦融合方案發布:構建具身智能落地新范式
《具身智能機器人系統》第1-6章閱讀心得之具身智能機器人系統背景知識與基礎模塊
【「具身智能機器人系統」閱讀體驗】+初品的體驗
【「具身智能機器人系統」閱讀體驗】1.初步理解具身智能
【「具身智能機器人系統」閱讀體驗】2.具身智能機器人的基礎模塊
【「AI芯片:科技探索與AGI愿景」閱讀體驗】+具身智能芯片
全場應變測量與仿真優化分析系統MatchID-2D/3D
PYNQ框架下如何快速完成3D數據重建
人工智能系統VON,生成最逼真3D圖像
華為基于AI技術實現3D圖像數字服務
PLC如何應用于建筑的3D打印?
3D人體生成模型HumanGaussian實現原理
DIPO框架實現應用于具身智能仿真的3D鉸鏈物體生成新范式
評論