精品成人久久,97人妻精品一区二区三区免费,97精品人妻一区二区三区香蕉

人們在陌生的建筑物中走動時，會利用大量的視覺、空間和語義線索來有效地鎖定目標位置。例如，即使在陌生的房子中，如果你看到餐飲區，就可以大致推測廚房和休息區域的位置，進而推斷出常見家用物品的位置。對于機器人智能體來說，在陌生建筑中利用語義線索和統計規律的難度較大。典型的解決方法是隱式學習這些線索，通過端到端的無模型強化學習，了解這些線索的細節以及如何用于導航任務。不過，通過這種方式學習導航線索的學習成本太高，不便于檢測，而且必須從頭開始學習才能在其他智能體中重復使用。

無模型強化學習

https://ai.facebook.com/blog/near-perfect-point-goal-navigation-from-25-billion-frames-of-experience/

對于機器人導航和規劃智能體來說，一種有吸引力的替代方法是使用世界模型封裝周圍環境中豐富且有意義的信息，讓智能體可針對其所處環境中的具體情況預測出可靠結果。此類模型在機器人科學、模擬和強化學習中獲得廣泛關注，并已取得不錯的結果，包括發現已知首個針對模擬 2D 賽車任務的解決方案，以及在 Atari 游戲中實現接近人類水平的表現。不過，與復雜而多元的真實環境相比，游戲環境仍然相對簡單。

已知首個針對模擬 2D 賽車任務的解決方案

https://worldmodels.github.io/

在發表于 ICCV 2021 上的“Pathdreamer：室內導航的世界模型（Pathdreamer： A World Model for Indoor Navigation）”一文中，我們推出了一個世界模型，該模型使用非常有限的觀察結果和擬定的導航軌跡，為建筑內智能體看不到的區域生成高分辨率 360o 視覺觀察結果。如下方視頻中所示，Pathdreamer 模型可以合成單個視角的沉浸式場景，預測智能體移動至新視野或完全陌生的區域（例如轉角）的觀察結果。除了可用于視頻編輯和生成動態照片，解決此任務可以整理關于人類環境的信息，以便幫助機器智能體在現實環境中完成導航任務。例如，要查找特定房間或陌生環境中物體的機器人，可以使用此世界模型執行模擬，以便在實際執行搜索任務前識別物體可能出現的位置。Pathdreamer 這一類的世界模型還可通過在模型中訓練智能體，提升訓練數據量以供智能體使用。

Pathdreamer：室內導航的世界模型

https://arxiv.org/abs/2105.08756

只需借助單個觀察結果（RGB、深度圖像和語義分割），并輸入擬定導航軌跡，Pathdreamer 就能合成距離原始地點遠至 6-7 米的位置（包括轉角）的高分辨率 360o 觀察結果。如需獲得更多結果，請參考完整視頻

完整視頻

https://www.youtube.com/watch？v=StklIENGqs0

Pathdreamer 的工作原理

Pathdreamer 會將一個或多個先前觀察結果作為輸入，生成對未來地點的軌跡預測。這些預測可能提供到前臺，或由智能體將其與返回的觀察結果交互迭代后提供。輸入和預測均由 RGB、語義分割（Semantic segmentation）和深度圖像（Depth map）組成。具體來說，Pathdreamer 會使用 3D 點云代表環境中的表面。云中的點均添加了其 RGB 色彩值以及語義分割類，例如 wall、chair 或 table。

為預測新地點中的視覺觀察結果，點云會首先在新地點以 2D 方式呈現，以便提供“指導”圖像，Pathdreamer 可利用這些圖像生成逼真的高分辨率 RGB、語義分割和深度圖像。隨著模型不斷“移動”，新的觀察結果（無論是真實或預測結果）均在點云中積累。使用點云作為記憶的一個優勢在于時間一致性，再次訪問的區域將以同一方式根據先前觀察結果進行渲染。

時間一致性

https://nvlabs.github.io/wc-vid2vid/

為了將指導圖像轉換為逼真可信的輸出，Pathdreamer 工作方式分為兩個階段：第一階段是結構生成器創建語義分割和深度圖像；第二階段是圖像生成器將這些圖像渲染到 RGB 輸出中。概念上來說，第一階段可提供場景的高水平可信語義表示，第二階段將把這些表示渲染為逼真的彩色圖像。兩個階段均基于卷積神經網絡。

多種生成結果

在很難確定的區域（例如預測可能為轉角的區域或未探測過的房間），生成的場景可能性差異很大。結合隨機視頻生成中的概念，Pathdreamer 中的結構生成器根據噪聲變量進行調節，該變量表示指導圖像中未捕獲的下個地點的隨機信息。通過對多個噪音變量進行采樣，Pathdreamer 可以合成多種場景，讓智能體能對給定軌跡的多個可信結果進行采樣。這些不同結果不僅反映在第一階段輸出（語義分割和深度圖像）中，也反映在生成的 RGB 圖像中。

隨機視頻生成

https://arxiv.org/abs/1802.07687

Pathdreamer 能夠為很難確定的區域生成多種可信圖像。最左列的指導圖像表示智能體先前檢測到的像素。黑色像素表示先前未檢測到的區域，Pathdreamer 會通過對多個隨機噪音向量進行采樣為此類區域渲染出多種輸出。在實踐中，生成的輸出可利用智能體探索環境時新觀察到的結果

將圖像和來自 Matterport3D 的 3D 環境重構數據進行訓練，Pathdreamer 能夠合成逼真圖像以及連續的視頻序列。因為輸出圖像為高分辨率 360o 格式，可以立即由現有導航智能體轉換，用于任意相機視野范圍。如需獲取更多詳情并親自試用 Pathdreamer，歡迎查看我們的開放源代碼。

Matterport3D

https://niessner.github.io/Matterport/

連續的視頻序列

https://www.youtube.com/watch？v=HNAmsdk7lJ4

開放源代碼

https://github.com/google-research/pathdreamer

應用于視覺導航任務

作為視覺世界模型，Pathdreamer 顯示了改善下游任務的巨大潛能。為了證明這一點，我們將 Pathdreamer 應用于 Vision-and-Language Navigation （VLN）任務，在執行任務時，具身智能體必須遵循自然語言的指示，在逼真 3D 環境中導航到新地點。借助 Room-to-Room （R2R）數據庫，我們開展了一項實驗，實驗中智能體跟隨指令提前規劃路線：模擬穿過環境的多種導航軌跡可能，并根據導航指示對每種軌跡進行排名，選擇最佳軌跡作為行進路線。此過程中需要考慮三個場景：Ground-Truth 場景中，智能體會通過與真實環境的互動（例如移動）進行路線規劃；Baseline 場景中，智能體會通過與導航圖（其中編碼了建筑物中的可導航路線，但不提供任何視覺觀察結果）的互動提前規劃路線，不會移動；在 Pathdreamer 場景中，智能體通過與導航圖的互動提前規劃路線（不會移動），并且會接收 Pathdreamer 生成的相應視覺觀察結果。

Room-to-Room

https://bringmeaspoon.org/

在 Pathdreamer 場景中，以三步的距離（約 6 米）進行提前規劃時，VLN 智能體可實現 50.4% 的導航成功率，遠高于基線場景中不借助 Pathdreamer 時40.6% 的導航成功率。這表明， Pathdreamer 會對關于室內真實環境有用且可訪問的視覺、空間和語義線索進行編碼。作為完美世界模型的能力上限，在 Ground-Truth 場景中（通過移動進行路線規劃），智能體的成功率為 59%，盡管我們注意到此場景需要智能體花大量時間和資源用于真實探索多種軌跡，而這在真實場景中由于代價太高而幾乎不可行。

我們使用 Room-to-Room （R2R）數據庫評估了跟隨指示的智能體的若干規劃場景。使用導航圖，并借助 Pathdreamer 合成的相應視覺觀察結果提前規劃路線，比單獨使用導航圖（Baseline 場景）提前規劃路線更有效，可以達到使用完美符合現實的世界模型（Ground-Truth 場景）提前規劃路線時約一半的效果

結論和未來展望

這些結果顯示了將 Pathdreamer 等世界模型用于復雜具身導航任務的潛力。我們希望 Pathdreamer 能夠提供一些基于模型的方法，幫助您應對具身導航任務（例如導航至指定物體和 VLN）難題。

將 Pathdreamer 應用于其他具身導航任務（例如 Object-Nav、連續 VLN 和街道導航）是未來的發展方向。

Object-Nav

https://arxiv.org/abs/2006.13171

連續 VLN

https://arxiv.org/abs/2004.02857

街道導航

https://ai.googleblog.com/2020/02/enhancing-research-communitys-access-to.html

我們還設想未來進一步優化 Pathdreamer 模型的架構和建模方向，并使用更多數據庫進行測試，包括但不限于戶外環境。如希望深入探索 Pathdreamer，請訪問我們的 GitHub 代碼庫。

GitHub 代碼庫

https://github.com/google-research/pathdreame

致謝

此項目是 Jason Baldridge、Honglak Lee 和 Yinfei Yang 的協作成果。我們感謝 Austin Waters、Noah Snavely、Suhani Vora、Harsh Agrawal、David Ha 和在項目過程中提供反饋的其他人。我們還感謝 Google Research 團隊的全面支持。最后，我們感謝 Tom Small 創建了第三張圖片中的動畫。

責任編輯：haq

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴