MapDream
地圖不再是專家設(shè)計的產(chǎn)物
而是在任務(wù)目標(biāo)下學(xué)習(xí)出的決策參考
在視覺語言導(dǎo)航(VLN)中,地圖長期作為獨立模塊構(gòu)建,并通過固定接口交由導(dǎo)航策略使用。無論是BEV網(wǎng)格、拓?fù)鋱D還是語義記憶模塊,這些表示大多脫離策略學(xué)習(xí)而設(shè)計。結(jié)果是,機器人即使掌握場景的信息,也仍可能繞行甚至偏離目標(biāo),因為地圖中編碼的,并不一定是決定導(dǎo)航成功的關(guān)鍵信息。
我們認(rèn)為,VLN邁向長期可靠決策的關(guān)鍵一步,是讓地圖表示進(jìn)入訓(xùn)練閉環(huán),由任務(wù)目標(biāo)在學(xué)習(xí)階段主導(dǎo)其形成方式,而不再停留在固定規(guī)則或外部模塊的層面。
MapDream正是沿著這一方向提出的:我們將地圖構(gòu)建納入端到端訓(xùn)練框架,在大規(guī)模數(shù)據(jù)支撐下,通過監(jiān)督預(yù)訓(xùn)練與強化學(xué)習(xí)聯(lián)合微調(diào),使空間表示在訓(xùn)練階段始終圍繞導(dǎo)航目標(biāo)展開,并與策略決策緊密耦合,從而形成真正服務(wù)于長程指令執(zhí)行的核心中間表示。
? 論文題目:
MapDream: Task-Driven Map Learning for Vision-Language Navigation
?論文鏈接:
https://arxiv.org/abs/2602.00222
? 項目主頁:
https://horizonrobotics.github.io/robot_lab/mapdream
從專家設(shè)計到任務(wù)主導(dǎo)
傳統(tǒng)VLN系統(tǒng)中的地圖通常依賴專家規(guī)則或獨立建圖模塊生成,其語義與幾何結(jié)構(gòu)在訓(xùn)練過程中保持固定。導(dǎo)航策略只能被動消費這些表示,無法反向影響地圖該強調(diào)哪些空間線索。MapDream打破了這一結(jié)構(gòu):我們在大規(guī)模數(shù)據(jù)支撐下,將地圖構(gòu)建納入端到端訓(xùn)練框架,通過監(jiān)督預(yù)訓(xùn)練與強化學(xué)習(xí)聯(lián)合微調(diào),使空間表示直接圍繞導(dǎo)航目標(biāo)學(xué)習(xí)。VLN中真正重要的,并非完整復(fù)原環(huán)境,而是為當(dāng)前任務(wù)生成最有價值的空間接口。

MapDream將地圖表示納入訓(xùn)練閉環(huán),由任務(wù)直接塑造,而非專家預(yù)設(shè)。
在MapDream中,地圖被重新定義為一種可學(xué)習(xí)的中間表示。系統(tǒng)接收多幀單目觀測與自然語言指令,自回歸生成任務(wù)相關(guān)的BEV表示,僅保留三類與決策高度相關(guān)的要素——可通行結(jié)構(gòu)、目標(biāo)相關(guān)距離以及語義錨點。這種緊湊表達(dá)被輸入到VLN策略中用于多步動作預(yù)測,并在強化學(xué)習(xí)階段與策略同步優(yōu)化,使最終得到的地圖分布與成功導(dǎo)航行為保持一致。
兩階段訓(xùn)練
讓地圖真正進(jìn)入學(xué)習(xí)閉環(huán)
MapDream采用兩階段訓(xùn)練流程,使地圖從專家先驗出發(fā),最終由任務(wù)目標(biāo)決定。

MapDream采用兩階段訓(xùn)練:先建立建圖—控制接口,再以強化學(xué)習(xí)聯(lián)合優(yōu)化,使地圖服務(wù)于導(dǎo)航?jīng)Q策而非幾何重建。
第一階段是監(jiān)督預(yù)訓(xùn)練。通過輕量化的任務(wù)驅(qū)動BEV監(jiān)督,模型學(xué)習(xí)基礎(chǔ)空間抽象,同時訓(xùn)練策略學(xué)會使用這些地圖進(jìn)行決策,從而建立穩(wěn)定的“建圖—控制”接口。
第二階段是強化學(xué)習(xí)聯(lián)合微調(diào)。地圖模塊與VLN策略在統(tǒng)一導(dǎo)航獎勵下同步更新。此時地圖不再僅追求幾何一致性,而是被任務(wù)回報直接牽引,系統(tǒng)性地調(diào)整為最有利于完成指令的空間表達(dá)。
通過這一閉環(huán)過程,地圖真正成為由任務(wù)目標(biāo)主導(dǎo)學(xué)習(xí)的核心表示。
任務(wù)決定地圖
改變機器人的導(dǎo)航方式
當(dāng)?shù)貓D表示進(jìn)入學(xué)習(xí)閉環(huán)后,機器人的行為模式發(fā)生了顯著變化。在長程指令執(zhí)行中,它不再僅依賴局部觀測,而是借助生成的BEV抽象形成更穩(wěn)定的全局方向感。路徑更加貼近示范軌跡,回溯與繞行明顯減少,整體執(zhí)行呈現(xiàn)出更強的空間連貫性。

MapDream僅憑單目生成緊湊BEV地圖,緊貼真實路徑,優(yōu)于在模糊路口易偏離的無地圖基線。
在標(biāo)準(zhǔn)VLN基準(zhǔn)中,MapDream在單目設(shè)置下取得領(lǐng)先結(jié)果,并在跨數(shù)據(jù)集泛化與真實機器人實驗中保持穩(wěn)定表現(xiàn)。這表明,由任務(wù)目標(biāo)塑造的地圖能夠捕捉具有遷移性的空間結(jié)構(gòu),而不僅僅適配單一環(huán)境。

在R2R-CE與RxR-CE Val-Unseen上,MapDream單目性能最佳,路徑效率優(yōu)于全景方法。
總結(jié)與展望
MapDream重新界定了視覺語言導(dǎo)航中“地圖”的角色。它不再是專家規(guī)則主導(dǎo)的靜態(tài)模塊,而是一種在訓(xùn)練階段由任務(wù)目標(biāo)塑造、并與決策系統(tǒng)端到端耦合的生成式空間接口。機器人在決定“下一步往哪走”之前,先通過地圖理解當(dāng)前最關(guān)鍵的空間關(guān)系,從而形成更高效、更穩(wěn)定的長程決策能力。
未來,我們希望將這一任務(wù)驅(qū)動地圖學(xué)習(xí)范式擴(kuò)展到更長期的空間記憶、更復(fù)雜的交互任務(wù)以及真實環(huán)境中的自主探索,為具身智能構(gòu)建真正以任務(wù)目標(biāo)為核心的空間認(rèn)知系統(tǒng)。
-
機器人
+關(guān)注
關(guān)注
213文章
31073瀏覽量
222162 -
導(dǎo)航
+關(guān)注
關(guān)注
7文章
577瀏覽量
43914 -
地圖
+關(guān)注
關(guān)注
0文章
43瀏覽量
13982
原文標(biāo)題:開發(fā)者說|MapDream:讓導(dǎo)航任務(wù)決定地圖如何生成,而不應(yīng)由專家預(yù)設(shè)
文章出處:【微信號:horizonrobotics,微信公眾號:地平線HorizonRobotics】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
iMLite AI Map 2.1 正式上線:智能穿戴迎來嵌入式離線地圖導(dǎo)航新體驗
沒有地圖,純視覺自動駕駛就只能摸瞎嗎?
隱式地圖:自動駕駛的“數(shù)字直覺“
AGV視覺導(dǎo)航:智能物流的“智慧之眼”
Aux-Think打破視覺語言導(dǎo)航任務(wù)的常規(guī)推理范式
UI開發(fā)概述
鴻蒙5開發(fā)寶藏案例分享---一多開發(fā)實例(地圖導(dǎo)航)
高德地圖攜手雷鳥創(chuàng)新打造新一代AI+AR智能導(dǎo)航解決方案
詳細(xì)介紹機場智能指路機器人的工作原理
【「# ROS 2智能機器人開發(fā)實踐」閱讀體驗】視覺實現(xiàn)的基礎(chǔ)算法的應(yīng)用
【「# ROS 2智能機器人開發(fā)實踐」閱讀體驗】+ROS2應(yīng)用案例
一種實時多線程VSLAM框架vS-Graphs介紹
高德地圖推出全球首個AI導(dǎo)航智能體
圓周率智能發(fā)布全新嵌入式離線地圖引擎:小存儲大能量賦能多場景智能導(dǎo)航
?VLM(視覺語言模型)?詳細(xì)解析
面向視覺語言導(dǎo)航的任務(wù)驅(qū)動式地圖學(xué)習(xí)框架MapDream介紹
評論