国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

淺析ECCV18 DeepMind論文《Look, Listen and Learn》

張康康 ? 2018-10-25 19:44 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

作者 | Video++極鏈科技AI實驗室張奕

整理 | 包包

背景

聲音和圖像是視頻中最重要的兩類基礎信息,能反映視頻中出現的主要內容。以往大量的視頻內容分析研究都是基于聲音和視覺特征來展開,其中很多研究工作會基于聲音視覺多模態特征來進行語義建模。人們清楚地意識到聲音和視覺特征直接存在著某種對應關系,因為當某種語義內容在視頻中出現時,其相應的視覺圖像和聲音必然相伴出現,那么該如何利用這個對應關系來幫助我們進行視頻語義內容分析與識別呢?

讓我們先來看看當前機器學習與視頻分析研究的痛點。機器學習按照對樣本的標注要求不同可分為有監督和無監督兩大類。隨著深度學習的興起,基于大量標注樣本訓練的深度網絡模型在各領域中都取得了遠超其它模型的準確率,確立了主流地位。但是這一方法最大的缺點是需要大量的標注樣本,樣本標注是一項很高成本的工作,需要耗費大量的人力資源,使人工智能成為真正基于“人工”的智能。在視頻內容分析領域,為了達到識別視頻內容的目的,也需要對視頻進行大量的樣本標注,這些標注包括目標、語義在時間空間上出現的位置、類別標簽等,非常繁瑣。如何能夠減少對標注數據的依賴一直是一個機器學習的重要研究方向。

回到先前的問題,既然視頻中的視覺和聲音之間存在著對應關系,那么是否可以用這個對應關系來解決數據的標注問題,從而減少對人工標注的依賴呢?DeepMind大膽的提出了這一設想,通過視覺和聲音的對應實現它們之間的互標注,不需要人工標注,就可以獲得大量的帶有自標注對應關系的聲音視覺樣本,提供給深度網絡進行訓練,從而實現視頻中相關事件的檢測識別。

方法


1540455999859b7947c71c8



數據

以上網絡通過如下的方式產生正負樣本對:負樣本對來自于兩段不同視頻中隨機選取的圖像幀和聲音片段,正樣本對來自于聲音片段和同一視頻中對應該聲音時間中點處的圖像幀。訓練數據集規模為40萬段時長為10秒的視頻,來自于Flickr-SoundNet和Kinetics-Sounds數據集。

實驗結果

15404559963591c914eb0d8


154045599801135808fe0c8


作者還給出了訓練聲音視覺對應網絡中得到的視覺子網絡和聲音子網絡模型在視覺分類和聲音分類任務中的性能,并與現有算法進行了比較。在聲音分類benchmark數據集ESC-50和DCASE上本文的聲音子網絡取得了最好的結果,如表2所示。圖像分類在benchmark數據集ImageNet上本文的視覺子網絡取得了與當前最好的自監督學習算法相同的結果,如表3所示。

1540455996666443d1b9635


1540455997609c368b67ebf


通過以上網絡和學習方式,究竟學到了什么內容?作者給出了直觀的實例,選取視覺子網絡pool4層響應最高的各類的5個樣本(圖3),并將對應的conv_2層響應熱力圖顯示出來(圖4),可見網絡能夠在視覺概念相關區域獲得高響應,表明學習是有效的,并且該網絡對聲音源具有定位能力。



結論與討論

本文利用聲音視覺對應關系提出了一種深度網絡,可免除對樣本的標注,通過自監督學習,實現視頻內容的檢測分類。實驗表明其在聲音分類上的效果超越其他算法,在圖像分類上的效果與以往最佳自監督算法持平。

本文算法在聲音分類上的優異表現表明,視覺特征在聲音特征的相關性使其在描述聲音特征中起到了幫助作用。同時本文算法在圖像分類上的表現也表明聲音特征對圖像特征描述也存在有效的幫助。目前視覺特征僅采用了聲音片段對應的圖像序列中的一個采樣幀作為輸入,尚無法完全反映聲音和圖像之間在時間上的對應關系,如能利用聲音對應的整個圖像序列作為視覺輸入,將可能進一步利用聲音和視覺之間的并發性,提升模型效果。


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 機器學習
    +關注

    關注

    66

    文章

    8553

    瀏覽量

    136948
  • 視頻分析
    +關注

    關注

    0

    文章

    47

    瀏覽量

    11199
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    小鵬汽車與北京大學研究論文成功入選AAAI 2026

    近日,AAAI 2026公布了論文錄用結果,該會議是人工智能領域的國際頂級會議之一。據悉,AAAI 2026共收到23,680份論文投稿,其中4,167篇論文被錄用,錄用率僅為17.6%。
    的頭像 發表于 01-04 11:22 ?621次閱讀
    小鵬汽車與北京大學研究<b class='flag-5'>論文</b>成功入選AAAI 2026

    DS92LV1818位總線LVDS串行器/解串器的深度解析

    DS92LV1818位總線LVDS串行器/解串器的深度解析 在電子設計領域,數據傳輸的高效性和穩定性一直是工程師們關注的重點。TI推出的DS92LV18 18位總線LVDS串行器/解
    的頭像 發表于 12-30 10:05 ?304次閱讀

    Nullmax端到端軌跡規劃論文入選AAAI 2026

    11月8日,全球人工智能頂會 AAAI 2026 公布論文錄用結果,Nullmax 研發團隊的端到端軌跡規劃論文成功入選。該論文創新提出一種由粗到精的軌跡預測框架——DiffRefiner,能夠實現更為靈活、精準的軌跡預測。
    的頭像 發表于 11-12 10:53 ?861次閱讀

    智芯公司榮獲ICEPT 2025優秀論文

    近日,第26屆電子封裝技術國際會議(ICEPT 2025)在上海舉行。智芯公司提交的論文“WBLGA SiP High-Reliability and High-Thermal
    的頭像 發表于 08-26 11:22 ?1247次閱讀

    你發文,我獎勵!Aigtek安泰電子新周期論文獎勵活動正式開啟!

    Aigtek論文獎勵活動為了回饋廣大工程師長久以來對Aigtek安泰電子的深厚信賴,也為了鼓勵更多科研工作者用自主創新技術探索科學領域的無限可能,Aigtek安泰電子新周期論文獎勵活動正式上線,誠邀
    的頭像 發表于 07-31 19:07 ?750次閱讀
    你發文,我獎勵!Aigtek安泰電子新周期<b class='flag-5'>論文</b>獎勵活動正式開啟!

    格靈深瞳六篇論文入選ICCV 2025

    近日,國際頂級會議ICCV 2025(計算機視覺國際大會)公布論文錄用結果,格靈深瞳團隊共有6篇論文入選。
    的頭像 發表于 07-07 18:23 ?1554次閱讀

    理想汽車八篇論文入選ICCV 2025

    近日,ICCV 2025(國際計算機視覺大會)公布論文錄用結果,理想汽車共有8篇論文入選,其中5篇來自自動駕駛團隊,3篇來自基座模型團隊。ICCV作為計算機視覺領域的頂級學術會議,每兩年舉辦一次
    的頭像 發表于 07-03 13:58 ?1113次閱讀

    同步電機失步淺析

    純分享帖,需要者可點擊附件免費獲取完整資料~~~*附件:同步電機失步淺析.pdf【免責聲明】本文系網絡轉載,版權歸原作者所有。本文所用視頻、圖片、文字如涉及作品版權問題,請第一時間告知,刪除內容!
    發表于 06-20 17:42

    基于STM32藍牙控制小車系統設計(硬件+源代碼+論文)下載

    基于STM32藍牙控制小車系統設計(硬件+源代碼+論文)推薦下載!
    發表于 05-29 21:45

    基于STM32的智能水產養殖系統電路+代碼+論文實例打包下載

    基于STM32的智能水產養殖系統電路+代碼+論文實例打包,推薦下載!
    發表于 05-29 21:40

    基于STM32的音樂播放器電路+PCB源文件+源碼+論文等打包下載

    基于STM32的音樂播放器電路+PCB源文件+源碼+論文等打包,推薦下載!
    發表于 05-29 21:37

    云知聲四篇論文入選自然語言處理頂會ACL 2025

    近日,第63屆國際計算語言學年會ACL 2025(Annual Meeting of the Association for Computational Linguistics,簡稱ACL)論文接收
    的頭像 發表于 05-26 14:15 ?1316次閱讀
    云知聲四篇<b class='flag-5'>論文</b>入選自然語言處理頂會ACL 2025

    FK10-18S18E2C3 FK10-18S18E2C3

    電子發燒友網為你提供AIPULNION(AIPULNION)FK10-18S18E2C3相關產品參數、數據手冊,更有FK10-18S18E2C3的引腳圖、接線圖、封裝手冊、中文資料、英文資料,FK10-18S18E2C3真值表,
    發表于 03-20 18:49
    FK10-<b class='flag-5'>18S18</b>E2C3 FK10-<b class='flag-5'>18S18</b>E2C3

    PFD6-18D18E2(C)3 PFD6-18D18E2(C)3

    電子發燒友網為你提供AIPULNION(AIPULNION)PFD6-18D18E2(C)3相關產品參數、數據手冊,更有PFD6-18D18E2(C)3的引腳圖、接線圖、封裝手冊、中文資料、英文資料,PFD6-18D18E2(C
    發表于 03-20 18:47
    PFD6-<b class='flag-5'>18D18</b>E2(C)3 PFD6-<b class='flag-5'>18D18</b>E2(C)3

    FK6-18D18E2C3 FK6-18D18E2C3

    電子發燒友網為你提供AIPULNION(AIPULNION)FK6-18D18E2C3相關產品參數、數據手冊,更有FK6-18D18E2C3的引腳圖、接線圖、封裝手冊、中文資料、英文資料,FK6-18D18E2C3真值表,FK6
    發表于 03-20 18:40
    FK6-<b class='flag-5'>18D18</b>E2C3 FK6-<b class='flag-5'>18D18</b>E2C3