近日,兩大頂級學術會議錄用結果相繼揭曉,地平線憑借在機器人算法領域的深度鉆研,共有5篇論文從全球數萬份投稿中脫穎而出,分別入選NeurIPS 2025與AAAI 2026。
作為人工智能領域公認的CCF A類頂會,NeurIPS與AAAI是全球算法創新的“風向標”。NeurIPS側重神經計算與機器人自主學習,AAAI聚焦人工智能全領域突破,二者錄用率常年維持在25%以下,AAAI 2026最終錄用率僅17.6%,競爭強度空前。此次地平線5篇論文入選,是其技術實力的又一力證。其中,聚焦多模態融合技術的IGFuse論文更以卓越創新性斬獲AAAI 2026 Oral資格。
地平線此次入選的論文,均圍繞機器人在虛擬數據生成、導航和通用操作的核心難題展開,覆蓋可交互重建、3D生成、具身思維鏈和人類數據預訓練等領域的前瞻技術,為推動具身智能的發展和應用做出貢獻。
IGFuse
“補全”被遮擋的世界,重建可交互3D空間(入選AAAI 2026 Oral)
? 論文名稱:
IGFuse: Interactive 3D Gaussian Scene Reconstruction via Multi-Scans Fusion
? 論文鏈接:
https://arxiv.org/pdf/2508.13153
? 項目主頁:
https://whhu7.github.io/IGFuse/
在計算機視覺和機器人領域,如何完整、真實地重建一個可交互的三維場景,一直是一個難題。傳統方法往往依賴復雜的多階段流程,比如先做分割,再進行背景補全或修復,或者需要對每個物體進行密集掃描。這些方式不僅成本高、容易出錯,而且很難擴展到大規模的應用場景。
我們提出的IGFuse提供了一種新的思路:通過多次場景掃描的融合來重建三維高斯場景。在不同掃描中,物體布局的自然移動能夠“揭示”那些在單次掃描里被遮擋的區域,從而幫助恢復完整的場景。為了保證重建的質量,我們構建了分割感知的高斯場,并在不同掃描之間保持光度和語義上的一致。同時,我們設計了一種偽中間場景狀態來解決多次掃描之間的對齊問題,并通過協同剪枝策略不斷優化幾何結構。

得益于這些設計,IGFuse可以在不依賴密集觀測和繁瑣流程的情況下,實現高保真的渲染和物體級別的場景交互。大量實驗驗證了它在不同場景下的泛化能力,也展示了在真實三維重建和從真實到仿真的遷移中強大的應用潛力。
未來,該方法將作為一種融合式重建的范式持續演進,重點拓展到更加復雜和多樣的場景中,特別是面向長序列觀測下的高質量融合重建。這不僅為真實環境中的持續感知與狀態合成提供了堅實基礎,也為具身智能體在長期交互和復雜任務中的應用開辟了新的可能。
更多可閱讀:《“補全”被遮擋的世界:IGFuse利用場景變化照片重建可交互3D空間》
DIPO
雙狀態圖像可控生成活動關節3D資產(入選NeurIPS 2025)
? 論文題目:
DIPO: Dual-State Images Controlled Articulated Object Generation Powered by Diverse Data
? 論文鏈接:
https://arxiv.org/abs/2505.20460
?項目主頁:
https://rq-wu.github.io/projects/DIPO/
活動關節3D資產是具身智能仿真交互場景的核心組成部分,然而受限于其運動學關系的復雜性,高質量可用資產極為稀缺。DIPO旨在借助3D生成技術,以低成本、高可控的方式獲取多樣化活動關節3D資產,破解這一行業痛點。
現有方法普遍依賴單圖像輸入,難以有效捕捉物體部件間的運動關聯,導致生成結果在結構合理性與運動一致性上存在明顯短板,無法滿足復雜場景的應用需求。為此,我們提出的DIPO方案開辟新的解決路徑:通過輸入物體“靜止狀態圖”與“關節活動狀態圖”這一對雙態圖像,編碼關鍵運動信息。設計雙圖像擴散模型,精準捕捉圖像對間的關聯特征,進而生成可靠的部件布局與關節參數。同時引入基于思維鏈 (CoT) 的圖推理器,推斷部件間的鉸鏈關系,大幅提升結構理解的準確性。為增強模型對復雜物體的泛化能力,我們構建了自動化數據集增廣流程,并發布了大規模數據集PM-X,為模型訓練提供充足支撐。

實驗表明,DIPO在活動關節3D資產生成任務中顯著超越現有基準模型,僅需兩張圖像即可實現高保真、高可控的關節式3D物體生成。該方法為具身智能仿真領域提供了高效的鉸鏈3D物體生成解決方案,尤其適用于需精準控制部件運動的核心場景。
更多可閱讀:《DIPO:應用于具身智能仿真的3D鉸鏈物體生成新范式》
AuxThink
視覺語言導航任務的推理范式(入選NeurIPS 2025)
? 論文題目:
Aux-Think: Exploring Reasoning Strategies for Data-Efficient Vision-Language Navigation
? 論文鏈接:
https://arxiv.org/abs/2505.11886
?項目主頁:
https://horizonrobotics.github.io/robot_lab/aux-think/index.html
視覺語言導航 (VLN) 任務的核心挑戰,是讓機器人在復雜環境中聽懂指令、看懂世界,并果斷行動。我們系統性地引入推理任務,探索其在導航策略學習中的作用,并首次揭示了VLN中的“推理崩塌”現象。研究發現:無論是行動前推理 (Pre-Think) ,還是行動后推理 (Post-Think) ,一旦在測試階段顯式生成推理鏈,反而更容易讓機器人迷失方向。
Aux-Think提出一種更實用的路徑:在訓練階段引入推理任務作為輔助監督,引導模型習得更清晰的決策邏輯;而在測試階段,則徹底省去推理生成,直接進行動作預測。把推理用在該用的地方,模型在任務中反而更快、更準、更省。Aux-Think不僅有效避免了測試階段的推理幻覺,也為“推理應在何時、如何使用”提供了清晰答案,進一步拓展了數據高效導航模型的能力邊界。

Aux-Think為解決測試階段推理引發的導航問題提供了新的思路。通過在訓練階段引入推理指導,在測試階段去除推理負擔,Aux-Think能夠讓機器人更加專注于任務執行,從而提高其導航穩定性和準確性。實驗表明,Aux-Think在數據效率與導航表現方面優于當前領先方法。這一突破性進展將為機器人在實際應用中的表現奠定更為堅實的基礎,也為具身推理策略提供了重要啟示。
更多可閱讀:《Aux-Think:為什么測試時推理反而讓機器人「誤入歧途」?》
MonoDream
視覺語言導航任務的想象力機制(入選AAAI 2026)
? 論文題目:
MonoDream: Monocular Vision-Language Navigation with Panoramic Dreaming
? 論文鏈接:
https://arxiv.org/abs/2508.02549
?項目主頁:
https://horizonrobotics.github.io/robot_lab/monodream/
傳統VLN方法普遍依賴全景RGB-D傳感器,以獲得全方位視野和幾何線索,但這種方案成本高、功耗大、系統復雜。相比之下,單目相機雖然普及易部署,卻長期被認為“能力不足”。MonoDream提出了另一條路徑——不靠增強傳感器,而是激發大模型中潛藏的“時空想象力”。這一思路與認知科學高度契合:預測編碼理論與神經影像研究都指出,人類能憑局部視覺主動重建不可見空間,并用于規劃行動。
MonoDream通過統一導航表征 (UNR) 與隱式全景想象 (Latent Panoramic Dreaming,LPD) ,在訓練過程中逼迫模型僅憑單目畫面推測出完整的RGB-D潛特征,形成全景結構理解與未來路徑預測。關鍵在于,這種“想象”并不是額外生成模塊,而是直接融入導航決策邏輯,成為模型內部的結構認知。進入部署階段后,MonoDream無需全景、無需深度、無需顯式重建——僅用一枚普通相機即可決策。

實驗表明,MonoDream在R2R-CE與RxR-CE中以單目取得SOTA表現,顯著縮小與全景方案的差距,證明單目瓶頸不在傳感器,而在想象力的缺失。MonoDream重新定義了單目能力邊界,并指出一種未來路徑:具身智能將不一定需要依賴傳感器增強,而通過內在世界模型與想象推演也能實現自主決策與探索。
更多可閱讀:《MonoDream:機器人僅憑單目相機,也能通曉全景、洞悉深度和預見未來》
H-RDT
基于人類操作數據的跨本體機器人學習(入選AAAI 2026)
? 論文題目:H-RDT: Human Manipulation Enhanced Bimanual Robotic Manipulation
? 論文鏈接:
https://arxiv.org/abs/2507.23523
?項目主頁:
https://embodiedfoundation.github.io/hrdt
機器人操作領域的VLA模型普遍基于跨本體機器人數據集預訓練,這類方法存在兩大局限:不同機器人本體和動作空間的差異導致統一訓練困難;現有大規模機器人演示數據稀缺且質量參差不齊。得益于近年來VR/AR頭顯和3D視覺技術的顯著進步,當前只需極低成本即可采集大量帶有精確人手關節標注的第一人稱人類操作視頻。
為此,我們提出基于大規模人類操作數據預訓練的VLA模型H-RDT (Human to Robotics Diffusion Transformer) 。H-RDT是一個具有20億參數的擴散Transformer,使用流匹配來建模雙臂機器人的復雜動作分布。H-RDT采用兩階段訓練范式:1)在大規模第一人稱人類數據上預訓練;2)通過模塊化動作編解碼器在機器人數據上進行微調,實現跨本體遷移。實驗表明,H-RDT在仿真和真實場景中的多種本體上表現優異,對比主流VLA模型具有明顯優勢。

H-RDT模型的跨本體遷移能力與少樣本學習效率,為機器人在不同場景下的快速適應與高效操作提供了可能,有望推動智能家居、工業制造、醫療護理等多領域的智能化應用升級。H-RDT模型曾參加CVPR 2025 RoboTwin雙臂機器人比賽獲真機賽冠軍。
更多可閱讀:《H-RDT:基于人類操作數據的跨本體機器人學習》
關于地平線機器人實驗室
地平線機器人實驗室是地平線三大創新實驗室之一,聚焦具身智能基礎算法和框架的研發,推動通用機器人的實現。團隊具有Manipulation、Mobility和Real2Sim三個主要研究方向,致力于探索機器人技術的工業化落地。
團隊在CVPR、NeurIPS、IROS、AAAI等頂尖學術會議發表論文20余篇,已開源的代碼庫獲收藏超1000次。曾獲張江國際人形機器人技巧挑戰賽雙臂協作仿真賽第一名,CVPR2025 RoboTwin雙臂協作真機賽第一名。
-
機器人
+關注
關注
213文章
31079瀏覽量
222267 -
計算機
+關注
關注
19文章
7807瀏覽量
93203 -
地平線
+關注
關注
0文章
460瀏覽量
16353
原文標題:機器人算法新突破,地平線5篇論文被學術頂會NeurIPS 2025、AAAI 2026錄用
文章出處:【微信號:horizonrobotics,微信公眾號:地平線HorizonRobotics】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
后摩智能4篇論文入選人工智能頂會ICLR 2026
地平線與行深智能達成戰略合作
四維圖新亮相2025地平線技術生態大會
知行科技亮相2025地平線技術生態大會
地平線HSD量產先鋒品鑒會圓滿落幕
Nullmax端到端軌跡規劃論文入選AAAI 2026
思必馳與上海交大聯合實驗室五篇論文入選NeurIPS 2025
地平線五篇論文入選NeurIPS 2025與AAAI 2026
評論