国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

一種在視覺語言導航任務中提出的新方法,來探索未知環境

電子工程師 ? 來源:lp ? 2019-03-05 09:38 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

CVPR 2019 接收論文編號公布以來,AI科技大本營開始陸續為大家介紹一些優秀論文。今天推薦的論文,將與大家一起探討一種在視覺語言導航任務中提出的新方法,來探索未知環境。

作者

這篇論文是 UC Santa Barbara 大學(加州大學圣巴巴拉分校)與微軟研究院、Duke 大學合作完成,第一作者系 UC Santa Barbara 大學的王鑫。

據 UC Santa Barbara 計算機科學系助理教授王威廉在其個人微博上發表的喜訊,這篇論文的一作是其組內的成員,獲得了 3 個 Strong Accept,在 5165 篇投稿文章中審稿得分排名第一,并且這篇論文已經確定將在 6 月的 CVPR 會議上進行報告。

這篇論文解決的任務 vision-language navigation(VLN)我們之前介紹的并不多,所以,這次營長會先給大家簡單介紹 VLN,然后從這項任務存在的難點到解決方法、實驗效果等方面為大家介紹,感興趣的小伙伴們可以從文末的地址下載論文,詳細閱讀。

什么是 VLN?

視覺語言導航(vision-language navigation, VLN)任務指的是引導智能體或機器人在真實三維場景中能理解自然語言命令并準確執行。結合下面這張圖再形象、通俗一點解釋:假如智能體接收到“向右轉,徑直走向廚房,然后左轉,經過一張桌子后進入走廊...”等一系列語言命令,它需要分析指令中的物體和動作指令,在只能看到一部分場景內容的情況下,腦補整個全局圖,并正確執行命令。所以這是一個結合 NLP 和 CV 兩大領域,一項非常有挑戰性的任務。

難點

雖然我們理解這項任務好像不是很難,但是放到 AI 智能體上并不像我們理解起來那么容易。對 AI 智能體來說,這項任務通常存在三大難點:

難點一:跨模態的基標對準(cross-modal grounding);簡單解釋就是將NLP 的指令與 CV 場景相對應。

難點二:不適定反饋(ill-posed feedback);就是通常一句話里面包含多個指令,但并不是每個指令都會進行反饋,只有最終完成任務才有反饋,所以難以判斷智能體是否完全按照指令完成任務。

難點三:泛化能力問題;由于環境差異大,VLN 的模型難以泛化。

那這篇論文中,作者又做了哪些工作,獲得了評委們的一致青睞,獲得了 3 個 Strong Accept 呢?方法來了~

方法

1、RCM(Reinforced Cross-Modal Matching)模型

針對第一和第二難點,論文提出了一種全新的強化型跨模態匹配(RCM)方法,用強化學習方法將局部和全局的場景聯系起來。

RCM 模型主要由兩個模塊構成:推理導航器和匹配度評估器。如圖所示,通過訓練其中綠色的導航器,讓它學會理解局部的跨模態場景,推斷潛在的指令,并生成一系列動作序列。另外,論文還設置了匹配度評估器(Matching Critic)和循環重建獎勵機制,用于評價原始指令與導航器生成的軌跡之間的對齊情況,幫助智能體理解語言輸入,并且懲罰不符合語言指令的軌跡。

以上的方法僅僅是解決了第一個難點,所以論文還提出了一個由環境驅動的外部獎勵函數,用于度量每個動作成功的信合和導航器之間的誤差。

2、SIL(Self-supervised Imitation Learning)方法

為了解決第三個難點,論文提出了一種自監督模仿學習(Self-supervised Imitation Learning, SIL),其目的是讓智能體能夠自主的探索未知的環境。其具體做法是,對于一個從未見過的語言指令和目標位置,導航器會得到一組可能的軌跡并將其中最優的軌跡(采用匹配度評估器)保存到緩沖區中,然后匹配度評估器會使用之前介紹的循環重建獎勵機制來評估軌跡,SIL方法可以與多種學習方法想結合,通過模仿自己之前的最佳表現來得到更優的策略。

測試結果

1、測試集:R2R(Room-to-Room)Dataset;視覺語言導航任務中一個真實 3D環境的數據集,包含 7189 條路徑,捕捉了大部分的視覺多樣性,21567 條人工注釋指令,其平均長度為 29 個單詞。

2、評價指標

PL:路徑長度(Path Length)

NE:導航誤差(Navigation Error)

OSR:Oracle 成功率(Oracle Success Rate

SR:成功率( Success Rate)

SPL:反向路徑長度的加權成功率(Success rate weighted by inverse Path Length)

3、實驗對比:與 SOTA 進行對比,此前在 R2R 數據集上效果最優的方法。

Baseline:Random、seq2seq、RPA 和 Speaker-Follower。

測試結果顯示,RCM 模型的效果在 SPL 指標上明顯優于當前的最優結果。

并且在 SIL 方法學習后,學習效率也有明顯的提高,在見過和未見過的場景驗證集上,并可視化了其內部獎勵指標。

論文地址:

https://arxiv.org/pdf/1811.10092.pdf

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 智能體
    +關注

    關注

    1

    文章

    476

    瀏覽量

    11604
  • 自然語言
    +關注

    關注

    1

    文章

    292

    瀏覽量

    13986
  • nlp
    nlp
    +關注

    關注

    1

    文章

    491

    瀏覽量

    23280

原文標題:CVPR 2019審稿滿分論文:中國博士提出融合CV與NLP的視覺語言導航新方法

文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    面向視覺語言導航任務驅動式地圖學習框架MapDream介紹

    視覺語言導航(VLN)中,地圖長期作為獨立模塊構建,并通過固定接口交由導航策略使用。無論是BEV網格、拓撲圖還是語義記憶模塊,這些表示大多
    的頭像 發表于 03-02 10:40 ?323次閱讀
    面向<b class='flag-5'>視覺</b><b class='flag-5'>語言</b><b class='flag-5'>導航</b>的<b class='flag-5'>任務</b>驅動式地圖學習框架MapDream介紹

    用于窄帶匹配高速射頻ADC的全新方法

    本期,為大家帶來的是《用于窄帶匹配高速射頻 ADC 的全新方法》,介紹了一種用于窄帶匹配高速射頻 ADC 的全新方法,以解決高中間頻率系統中 ADC 前端窄帶匹配的設計難題,可在 ADC 額定帶寬內應用,能提升 ADC 性能、減
    的頭像 發表于 01-04 15:56 ?6244次閱讀
    用于窄帶匹配高速射頻ADC的全<b class='flag-5'>新方法</b>

    海康威視榮獲2025年中國創新方法大賽總決賽金獎

    近日,2025年中國創新方法大賽圓滿落幕。海康威視憑借《工業聽診師——超長距離皮帶運輸機托輥聲紋監測系統》項目脫穎而出,斬獲全國總決賽唯金獎。
    的頭像 發表于 12-04 10:55 ?490次閱讀

    AGV視覺導航:智能物流的“智慧之眼”

    獲取移動物體空間中所處的位置、方向和其他環境信息,并用定的算法對所獲信息進行處理,建立環境模型,進而尋找條最優或近似最優的無碰路徑,實
    的頭像 發表于 11-04 15:54 ?559次閱讀
    AGV<b class='flag-5'>視覺</b><b class='flag-5'>導航</b>:智能物流的“智慧之眼”

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+第二章 實現深度學習AI芯片的創新方法與架構

    計算 閃存的新穎方法代表了一種多用途的管理模型權重的策略,它根據輸入的性質提升性能,從而增強所提出的方案各種大模型場景中的有效性、可用性和實用性。 3、基于GPU的大模型計算 3.
    發表于 09-12 17:30

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+內容總覽

    ,其中第章是概論,主要介紹大模型浪潮下AI芯片的需求與挑戰。第二章和第三章分別介紹實現深度學習AI芯片的創新方法和架構。以及些新型的算法和思路。第四章是全面介紹半導體芯產業的前沿技術,包括新型晶體管
    發表于 09-05 15:10

    基于直接反電動勢法的無刷直流電機準確換相新方法

    或滯后換相的情況,通過設置合理的延遲時間實現最佳換相,針對實際電機存在反電動勢過零點分布不均勻的情況,根據過零點間隔時間存在著周期性規律,提出一種新的延遲時間設置方法,使換相點位于相
    發表于 08-07 13:40

    基于硬件的無位置傳感器無刷直流電機啟動新方法

    針對傳統的無位置傳感器無刷直流電機控制的起動需采用復雜的軟件、成本高、定位不準確、容易堵轉的缺陷,提出一種通過檢測線電壓差獲得轉子位置的方法提出
    發表于 08-07 13:30

    基于直接反電動勢法的無刷直流電機準確換相新方法

    運行時存在超前換相或滯后換相的情況,通過設置合理的延遲時間實現最佳換相,針對實際電機存在反電動勢過零點分布不均勻的情況,根據過零點間隔時間存在著周期性規律,提出一種新的延遲時間設置方法
    發表于 07-30 16:00

    芯片制造中高精度膜厚測量與校準:基于紅外干涉技術的新方法

    環境光干擾及薄膜傾斜等因素限制,測量精度難以滿足高精度工業需求。為此,本研究提出一種融合紅外干涉與激光校準的薄膜厚度測量新方法,旨在突破傳統技術瓶頸,實現更精準、
    的頭像 發表于 07-21 18:17 ?2891次閱讀
    芯片制造中高精度膜厚測量與校準:基于紅外干涉技術的<b class='flag-5'>新方法</b>

    無刷直流電機轉矩脈動抑制新方法

    轉矩脈動是影響無劇直流電機高精度伺服系統中應用的主要原因。提出一種基于a-p變換和Lyapunov函數的轉矩脈動抑制直接功率控制方法。該方法
    發表于 07-09 14:12

    Aux-Think打破視覺語言導航任務的常規推理范式

    視覺語言導航(VLN)任務的核心挑戰,是讓機器人在復雜環境中聽懂指令、看懂世界,并果斷行動。我們系統性地引入推理
    的頭像 發表于 07-08 10:00 ?634次閱讀
    Aux-Think打破<b class='flag-5'>視覺</b><b class='flag-5'>語言</b><b class='flag-5'>導航</b><b class='flag-5'>任務</b>的常規推理范式

    無刷直流電機滑模觀測器參數優化設計方法

    摘要:滑模反電勢觀測器的增益參數會影響觀測器的收斂速度以及動態響應性能,常見的設計方法是基于觀測器穩定性理論進行設計。提出一種利用遺傳算法穩定域內搜索觀測誤差最小的增益參數的
    發表于 06-27 16:48

    無刷直流電機反電勢過零檢測新方法

    摘 要:無位置傳感器無刷直流電機高速段時反電勢信號過大,容易造成檢測電路無法正常工作其至損壞,而在較低速段時,反電勢信號又難以有效檢測。針對反電勢過零檢測極端速段的問題,提出一種
    發表于 06-26 13:50

    ?VLM(視覺語言模型)?詳細解析

    視覺語言模型(Visual Language Model, VLM)是一種結合視覺(圖像/視頻)和語言(文本)處理能力的多模態人工智能模型,
    的頭像 發表于 03-17 15:32 ?8823次閱讀
    ?VLM(<b class='flag-5'>視覺</b><b class='flag-5'>語言</b>模型)?詳細解析