国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

ICCV 2023 | 面向視覺-語言導航的實體-標志物對齊自適應預訓練方法

智能感知與物聯網技術研究所 ? 來源:未知 ? 2023-10-23 09:40 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

本文是 ICCV 2023 入選 Oral 論文 Grounded Entity-Landmark Adaptive Pre-training for Vision-and-Language Navigation 的解讀。本論文是某智能人機交互團隊在視覺-語言導航(Vision-and-Language Navigation, VLN)領域的最新工作。該工作構建了 VLN 中首個帶有高質量實體-標志物對齊標注的數據集,并提出實體-標志物對齊的自適應預訓練方法,從而顯著提高了智能體的導航性能。

ICCV 是“計算機視覺三大頂級會議”之一,ICCV 2023 于今年 10 月 2 日至 6 日在法國巴黎舉行,本屆會議共收到全球 8260 篇論文投稿,2161 篇被接收,接收率為 26.16%,其中 152 篇論文被選為口頭報告展示(Oral Presentation),Oral 接收率僅為 1.8%。

wKgZomU10DKADan6AAHijJ9FR38163.png

論文題目:

Grounded Entity-Landmark Adaptive Pre-training for Vision-and-Language Navigation

論文地址:

https://arxiv.org/abs/2308.12587

開源數據集:

https://pan.baidu.com/s/12WTzZ05T8Uxy85znn28dfQ?pwd=64t7

代碼地址:

https://github.com/csir1996/vln-gela

wKgZomU10DKAfgAhAAAl6LOgh3c680.png

引言

視覺-語言導航(Vision-and-Language Navigation, VLN)任務旨在構建一種能夠用自然語言與人類交流并在真實 3D 環境中自主導航的具身智能體。自提出以來,VLN 越來越受到計算機視覺、自然語言處理和機器人等領域的廣泛關注。 如圖 1 所示,將自然語言指令中提過的標志物(物體或者場景)對應到環境中能夠極大的幫助智能體理解環境和指令,由此跨模態對齊是 VLN 中的關鍵步驟。然而,大多數可用的數據集只能提供粗粒度的文本-圖像對齊信號,比如整條指令與整條軌跡的對應或者子指令與子路徑之間的對應,而跨模態對齊監督也都停留在句子級別(sentence-level)。因此,VLN 需要更細粒度(entity-level)的跨模態對齊數據和監督方法以促進智能體更準確地導航。

為解決以上問題,我們提出了一種面向 VLN 的實體-標志物自適應預訓練方法,主要工作與貢獻如下:

1. 我們基于 Room-to-Room(R2R)數據集 [1] 標注實體-標志物對齊,構建了第一個帶有高質量實體-標志物對齊標注的 VLN 數據集,命名為 GEL-R2R;

2. 我們提出一種實體-標志物自適應預訓練 (Grounded Entity-Landmark Adaptive,GELA) 方法,利用 GEL-R2R 數據集顯式監督 VLN 模型學習實體名詞和環境標志物之間的細粒度跨模態對齊;

3. 我們構建的 GELA 模型在兩個 VLN 下游任務上取得了最佳的導航性能,證明了我們數據集和方法的有效性和泛化性。 wKgZomU10DKAHMgwAAy1Xi4UNy4383.png▲圖1. 具身智能體在3D真實環境中的導航示例 wKgZomU10DOARN_dAAAuhh9-KLM163.png

GEL-R2R數據集

為了建立指令中實體短語與其周圍環境中相應標志物之間的對齊,我們在 R2R 數據集的基礎上進行了實體-標志物對齊的人工標注,整個流程包括五個階段:

1. 原始數據準備。我們從 Matterport3D 模擬器中采集每個可導航點的全景圖。為了提高標注的效率和準確性,我們在全景圖中標注下一個動作方向,并根據 FG-R2R 數據集 [2] 將每個全景圖與相應的子指令進行對應;

2. 標注工具開發。我們基于 Label-Studio 開發了一個跨模態標注平臺,如圖 2 所示;

3. 標注指南建立。為確保標注的一致性,我們經過預標注之后建立了四個準則來標準化標注指南:

  • 對齊準則:指令中的實體短語應與全景圖中的標志物準確匹配

  • 自由文本準則:標注自由文本而不是類別

  • 文本共指準則:指代相同標志物的實體短語用相同的標簽標注

  • 唯一標志物準則:對于一個實體短語,在全景圖中只應標注一個對應的標志物

4. 數據標注與修訂;

5. 數據整合與處理。

wKgZomU10DOAbfPKAAh8T1fXP9Q036.png

▲圖2. GEL-R2R數據集標注界面如圖 3 所示,GEL-R2R 數據集共包含:71467 個實體短語,其中訓練集 57788 個,已見環境驗證集 4196 個,未見環境驗證集 9483 個;150183 個標志物,其中訓練集 121146 個,已見環境驗證集 8741 個,未見環境驗證集 20296 個。

wKgZomU10DOAaVXnAAIx1uvi4R8766.png▲圖3. GEL-R2R數據集統計分析 wKgZomU10DOAdwO2AAAtJ0fTuoM459.png

GELA方法

wKgZomU10DOADXdrAARjJLZ30i8478.png圖4. GELA方法概覽

如圖 4 所示,方法流程分為三個階段:預訓練(pre-training)、自適應預訓練(adaptive pre-training)和微調(fine-tuning)。我們直接在預訓練模型 HAMT [3] 的基礎上進行自適應預訓練,HAMT 模型由文本編碼器、圖像編碼器、歷史編碼器和跨模態編碼器構成。我們將跨模態編碼器輸出的文本向量、歷史向量和圖像向量分別記為 Z、Y 和 S。我們設計了三種自適應預訓練任務:

1. 實體短語預測。在這個任務中,我們通過標注的環境標志物預測其對應的實體短語在指令中的位置。首先將人工標注的實體位置轉化為 L+1 維的掩碼向量 (與 維度相同),并將人工標注的標志物邊界框轉化為 37 維的掩碼向量 (與 維度相同)。然后,我們將標志物圖像 patch 的特征平均化,并將其輸入一個兩層前饋網絡(Feedforward Network, FFN)中,預測指令序列中 token 位置的概率分布,用掩碼向量 作監督,具體損失函數為:

wKgZomU10DOAJKS2AAAX-lg11Os006.png

wKgZomU10DSAezOmAAAX-6i6ifg222.png

2. 標志物邊界框預測。在這個任務中,我們通過標注的實體名詞預測其對應的標志物邊界框坐標。首先平均實體短語 token 的特征向量,然后將其輸入兩層 FFN 和 Sigmoid 函數預測坐標 :

wKgZomU10DSAEijaAAAVifzwXqI883.png

最后,將人工標注的 box=(x,y,w,h) 和 box’ 作 smooth-l1 損失和 GIoU 損失:

wKgZomU10DSAahFTAAAUW23ODXc548.png

3. 實體-標志物語義對齊。上述兩個單向預測任務使用位置信息來匹配實體和標志物,而此任務在跨模態編碼器輸出端強制對齊相對應的標志物和實體的特征向量。這個任務的約束比上面兩個單向預測任務更強,因為它直接作用于表示,而不是僅僅基于位置信息。具體損失函數如下:

wKgZomU10DSANVDoAAB0Xlwcdgw449.png自適應預訓練最終的損失函數為:

wKgZomU10DSABFrEAAAP7deVISE239.png

經過自適應預訓練后,我們利用模仿學習 (Imitation Learning,IL) 和強化學習 (Reinforcement Learning,RL) 訓練策略對 GELA 模型在兩個 VLN 下游任務(R2R 和 CVDN)上進行微調。IL 監督智能體克隆專家的行為,RL 鼓勵智能體根據學習策略探索軌跡。 wKgZomU10DWAZwyjAAAr2pbNr48702.png ?

實驗結果

如圖 5 所示,GELA 模型在 R2R 數據集上與先前 SOTA 模型的性能進行比較。GELA 模型在所有子集上的主要指標(SR 和 SPL)均優于所有其他模型。具體地,在已知驗證集上,GELA 的性能與 HAMT 模型相當,而在未知驗證集和測試集上,GELA 模型分別取得了 5% 、2% (SR) 和 4% 、2% (SPL) 的提高。因此,GELA 模型具有更好的未知環境泛化能力,這主要是由于 GELA 模型在學習實體-標志物對齊后,具有較強的語義特征捕捉能力。 wKgZomU10DWAfcr3AAMjz4D3vq4782.png 圖5. R2R數據集上的性能對比 我們同樣在 CVDN 數據集上對比了 GELA 模型與先前 SOTA 模型的性能,如圖 6 所示,該數據集使用以米為單位的目標進度 (Goal Progress,GP) 作為關鍵性能指標。結果表明,GELA 模型在驗證集和測試集上的性能都明顯優于其他模型。因此,GELA 模型對不同的 VLN 下游任務具有良好的泛化能力。

wKgZomU10DWAPX-AAADJrBWOOD4487.png圖6. CVDN數據集上的性能對比

wKgZomU10DWANcWFAAAC0jQz1zo582.jpg

參考文獻

wKgZomU10DWANcWFAAAC0jQz1zo582.jpg ?

[1] Peter Anderson, Qi Wu, Damien Teney, Jake Bruce, Mark Johnson, Niko S ? underhauf, Ian D. Reid, Stephen Gould, and Anton van den Hengel. Vision-and-language navigation: Interpreting visually-grounded navigation instructions in real environments. In CVPR, pages 3674–3683, 2018.

[2] Yicong Hong, Cristian Rodriguez Opazo, Qi Wu, and Stephen Gould. Sub-instruction aware vision-and-language navigation. In EMNLP, pages 3360–3376, 2020.

[3] Shizhe Chen, Pierre-Louis Guhur, Cordelia Schmid, and Ivan Laptev. History aware multimodal transformer for vision-and-language navigation. In NeurIPS, pages 58345847, 2021.

·


原文標題:ICCV 2023 | 面向視覺-語言導航的實體-標志物對齊自適應預訓練方法

文章出處:【微信公眾號:智能感知與物聯網技術研究所】歡迎添加關注!文章轉載請注明出處。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 物聯網
    +關注

    關注

    2945

    文章

    47819

    瀏覽量

    414841

原文標題:ICCV 2023 | 面向視覺-語言導航的實體-標志物對齊自適應預訓練方法

文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯網技術研究所】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    面向視覺語言導航的任務驅動式地圖學習框架MapDream介紹

    視覺語言導航(VLN)中,地圖長期作為獨立模塊構建,并通過固定接口交由導航策略使用。無論是BEV網格、拓撲圖還是語義記憶模塊,這些表示大多脫離策略學習而設計。結果是,機器人即使掌握場
    的頭像 發表于 03-02 10:40 ?327次閱讀
    <b class='flag-5'>面向</b><b class='flag-5'>視覺</b><b class='flag-5'>語言</b><b class='flag-5'>導航</b>的任務驅動式地圖學習框架MapDream介紹

    摩爾線程新一代大語言模型對齊框架URPO入選AAAI 2026

    近日,摩爾線程在人工智能前沿領域取得重要突破,其提出的新一代大語言模型對齊框架——URPO統一獎勵與策略優化,相關研究論文已被人工智能領域的國際頂級學術會議AAAI 2026收錄。這一成果標志著摩爾線程在大模型基礎技術探索上邁出
    的頭像 發表于 11-17 16:03 ?481次閱讀
    摩爾線程新一代大<b class='flag-5'>語言</b>模型<b class='flag-5'>對齊</b>框架URPO入選AAAI 2026

    電磁干擾自適應抑制系統平臺全面解析

    電磁干擾自適應抑制系統平臺全面解析
    的頭像 發表于 09-17 16:12 ?669次閱讀
    電磁干擾<b class='flag-5'>自適應</b>抑制系統平臺全面解析

    基于大規模人類操作數據訓練的VLA模型H-RDT

    近年來,機器人操作領域的VLA模型普遍基于跨本體機器人數據集訓練,這類方法存在兩大局限:不同機器人本體和動作空間的差異導致統一訓練困難;現有大規模機器人演示數據稀缺且質量參差不齊。得
    的頭像 發表于 08-21 09:56 ?1096次閱讀
    基于大規模人類操作數據<b class='flag-5'>預</b><b class='flag-5'>訓練</b>的VLA模型H-RDT

    谷歌如何打造卓越自適應應用

    Android 用戶的 Google 應用以及更多應用的更新,還有 6 月份的 Pixel Drop。我們還總結了所有 Google I/O 的相關更新,幫助 Android 開發者構建出色的自適應 Android 應用。
    的頭像 發表于 07-30 16:39 ?1036次閱讀

    基于FPGA LMS算法的自適應濾波器設計

    自適應濾波是近幾十年發展起來的信號處理理論的的新分支。隨著人們在該領域研究的不斷深入,自適應處理的理論和技術日趨完善,其應用領域也越來越廣泛。自適應濾波在通信、控制、語言分析和綜合、地
    的頭像 發表于 07-10 11:25 ?3447次閱讀
    基于FPGA LMS算法的<b class='flag-5'>自適應</b>濾波器設計

    無刷直流電機自適應模糊PID控制系統

    摘要:針對無刷直流電機傳統PID控制存在精度低、抗于抗能力差及模糊控制穩態精度不高等問題,研究了一種自適應模糊PID控制方法。論文分析了直流無刷電機的工作原理,建立了直流無刷電機自適應模期PID
    發表于 07-09 14:18

    CYW43907使用AP功能時是否具有自適應功能?

    我們想在我們的產品中使用這種芯片來獲得 CE 注冊證書,CE 需要自適應功能,但是我們在數據表和源包中找不到任何消息。functions 要執行如下: 啟動時自動掃描并選擇干擾較小的頻道,遇到干擾
    發表于 07-09 08:21

    無刷直流電機雙閉環模糊自適應控制方法研究

    純分享帖,點擊下方附件免費獲取完整資料~~~ *附件:無刷直流電機雙閉環模糊自適應控制方法研究.pdf 【免責聲明】本文系網絡轉載,版權歸原作者所有。本文所用視頻、圖片、文字如涉及作品版權問題,請第一時間告知,刪除內容,謝謝!
    發表于 07-08 18:35

    暨南大學:鐵電極化調控的自供電、高靈敏PEC型腫瘤標志物傳感技術

    ? 惡性腫瘤的早期診斷與精準監測是臨床醫學與基礎研究的核心挑戰。癌胚抗原(CEA)作為結直腸癌、胃癌及乳腺癌等多種實體瘤的關鍵腫瘤標志物,其濃度異常升高與腫瘤負荷及進展顯著相關。實現CEA的超靈敏
    的頭像 發表于 07-08 17:27 ?5448次閱讀
    暨南大學:鐵電極化調控的自供電、高靈敏PEC型腫瘤<b class='flag-5'>標志物</b>傳感技術

    格靈深瞳六篇論文入選ICCV 2025

    近日,國際頂級會議ICCV 2025(計算機視覺國際大會)公布論文錄用結果,格靈深瞳團隊共有6篇論文入選。
    的頭像 發表于 07-07 18:23 ?1551次閱讀

    理想汽車八篇論文入選ICCV 2025

    近日,ICCV 2025(國際計算機視覺大會)公布論文錄用結果,理想汽車共有8篇論文入選,其中5篇來自自動駕駛團隊,3篇來自基座模型團隊。ICCV作為計算機視覺領域的頂級學術會議,每兩
    的頭像 發表于 07-03 13:58 ?1111次閱讀

    永磁同步電機自適應高階滑模Type-2模糊控制

    針對永磁同步電機數學模型不確定問題,提出一種自適應高階滑模Type-2模糊控制方法。采用積分滑模面二階滑模控制律,保持傳統滑模控制的魯棒性并實現不含不確定高階輸入輸出有限時間穩定;不需要預先確定干擾
    發表于 03-27 11:54

    用PaddleNLP為GPT-2模型制作FineWeb二進制訓練數據集

    作者:算力魔方創始人/英特爾創新大使劉力 《用PaddleNLP在4060單卡上實踐大模型訓練技術》發布后收到讀者熱烈反響,很多讀者要求進一步講解更多的技術細節。本文主要針對大語言模型的
    的頭像 發表于 03-21 18:24 ?4299次閱讀
    用PaddleNLP為GPT-2模型制作FineWeb二進制<b class='flag-5'>預</b><b class='flag-5'>訓練</b>數據集

    GLAD應用:大氣像差與自適應光學

    概述 激光在大氣湍流中傳輸時會拾取大氣湍流導致的相位畸變,特別是在長距離傳輸的激光通信系統中。這種畸變會使傳輸激光的波前劣化。通過在系統中引入自適應光學系統,可以對激光傳輸時拾取的低頻畸變進行校正
    發表于 03-10 08:55