国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

研究者提出了一項新的視聽分割任務

電子工程師 ? 來源:量子位 ? 作者:量子位 ? 2022-08-08 16:45 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

聽到“唔哩——唔哩——”的警笛聲,你可以迅速判斷出聲音來自路過的一輛急救車。

能不能讓AI根據(jù)音頻信號得到發(fā)聲物完整的、精細化的掩碼圖呢?

來自合肥工業(yè)大學、商湯、澳國立、北航、英偉達、港大和上海人工智能實驗室的研究者提出了一項新的視聽分割任務(Audio-Visual Segmentation, AVS)。

視聽分割,就是要分割出發(fā)聲物,而后生成發(fā)聲物的精細化分割圖。

相應的,研究人員提出了第一個具有像素級標注的視聽數(shù)據(jù)集AVSBench。

465bf528-16c2-11ed-ba43-dac502259ad0.png

Audio-Visual Segmentation

論文地址:

https://arxiv.org/abs/2207.05042

GitHub地址:

https://github.com/OpenNLPLab/AVSBench

項目主頁:

https://opennlplab.github.io/AVSBench/

新任務、新的數(shù)據(jù)集,搞算法的又有新坑可以卷了。

467d6fa0-16c2-11ed-ba43-dac502259ad0.png

據(jù)最新放榜結果,該論文已被ECCV 2022接受。

精準鎖定發(fā)聲物

聽覺和視覺是人類感知世界中最重要的兩個傳感器。生活里,聲音信號和視覺信號往往是互補的。

視聽表征學習(audio-visual learning)已經(jīng)催生了很多有趣的任務,比如視聽通信(AVC)、視聽事件定位(AVEL)、視頻解析(AVVP)、聲源定位(SSL)等。

這里面既有判定音像是否描述同一事件/物體的分類任務,也有以熱力圖可視化大致定位發(fā)聲物的任務。

但無論哪一種,離精細化的視聽場景理解都差點意思。

469cc1de-16c2-11ed-ba43-dac502259ad0.png

△AVS 任務與 SSL 任務的比較

視聽分割“迎難而上”,提出要準確分割出視頻幀中正在發(fā)聲的物體全貌——

即以音頻為指導信號,確定分割哪個物體,并得到其完整的像素級掩碼圖。

AVSBench 數(shù)據(jù)集

要怎么研究這個新任務呢?

鑒于當前還沒有視聽分割的開源數(shù)據(jù)集,研究人員提出AVSBench 數(shù)據(jù)集,借助它研究了新任務的兩種設置:

1、單聲源(Single-source)下的視聽分割
2、多聲源(Multi-sources)下的視聽分割

數(shù)據(jù)集中的每個視頻時長5秒。

單聲源子集包含23類,共4932個視頻,包含嬰兒、貓狗、吉他、賽車、除草機等與日常生活息息相關的發(fā)聲物。

46b6a4be-16c2-11ed-ba43-dac502259ad0.png

△AVSBench單源子集的數(shù)據(jù)分布

多聲源子集則包含了424個視頻。

結合難易情況,單聲源子集在半監(jiān)督條件下進行,多聲源子集則以全監(jiān)督條件進行。

研究人員對AVSBench里的每個視頻等間隔采樣5幀,然后人工對發(fā)聲體進行像素級標注。

對于單聲源子集,僅標注采樣的第一張視頻幀;對于多聲源子集,5幀圖像都被標注——這就是所謂的半監(jiān)督和全監(jiān)督。

46c54e24-16c2-11ed-ba43-dac502259ad0.png

△對單聲源子集和多聲源子集進行不同人工標注

這種像素級的標注,避免了將很多非發(fā)聲物或背景給包含進來,從而增加了模型驗證的準確性。

一個簡單的baseline方法

有了數(shù)據(jù)集,研究人員還拋磚引玉,在文中給了個簡單的baseline。

吸收傳統(tǒng)語義分割模型的成功經(jīng)驗,研究人員提出了一個端到端的視聽分割模型。

46e44a22-16c2-11ed-ba43-dac502259ad0.png

△視聽分割框架圖

這個模型遵循編碼器-解碼器的網(wǎng)絡架構,輸入視頻幀,最終直接輸出分割掩碼。

另外,還有兩個網(wǎng)絡優(yōu)化目標。

一是計算預測圖和真實標簽的損失。

而針對多聲源情況,研究人員提出了掩碼視聽匹配損失函數(shù),用來約束發(fā)聲物和音頻特征在特征空間中保持相似分布。

部分實驗結果

光說不練假把式,研究人員進行了廣泛實驗。

首先,將視聽分割與相關任務的6種方法進行了比較,研究人員選取了聲源定位(SSL)、視頻物體分割(VOS)、顯著性物體檢測(SOD)任務上的各兩個SOTA方法。

實驗結果表明,視聽分割在多個指標下取得了最佳結果。

47032ec4-16c2-11ed-ba43-dac502259ad0.png

△和來自相關任務方法進行視聽分割的對比結果

其次,研究人員進行了一系列消融實驗,驗證出,利用TPAVI模塊,單聲源和多聲源設置下采用兩種backbone的視聽分割模型都能得到更大的提升。

4712b006-16c2-11ed-ba43-dac502259ad0.png

△引入音頻的TPAVI模塊,可以更好地處理物體的形狀細節(jié)(左圖),并且有助于分割出正確的發(fā)聲物(右圖)

對于新任務的視聽匹配損失函數(shù),實驗還驗證了其有效性。

47260c28-16c2-11ed-ba43-dac502259ad0.png

△視聽匹配損失函數(shù)的有效性

One More Thing

文中還提到,AVSBench數(shù)據(jù)集不僅可以用于所提出的視聽分割模型的訓練、測試,其也可以用于驗證聲源定位模型。

研究人員在項目主頁上表示,正在準備比AVSBench大10倍的AVSBench-v2。

一些視頻的分割demo也上傳在主頁上。感興趣的話可以前往查看~

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 機器視覺
    +關注

    關注

    165

    文章

    4798

    瀏覽量

    126068
  • AI
    AI
    +關注

    關注

    91

    文章

    39793

    瀏覽量

    301406
  • 數(shù)據(jù)集

    關注

    4

    文章

    1236

    瀏覽量

    26194

原文標題:ECCV 2022 | 視覺新任務!AVS:視聽分割

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    是德科技與聯(lián)發(fā)科技聯(lián)合完成一項工作原型驗證

    是德科技(NYSE: KEYS )宣布與聯(lián)發(fā)科技(MediaTek)聯(lián)合完成一項工作原型驗證,推進人工智能(AI)驅動的上行鏈路優(yōu)化及下代無線接入網(wǎng)(RAN)模型全生命周期管理技術的發(fā)展。該原型
    的頭像 發(fā)表于 03-02 11:15 ?277次閱讀

    研華科技攜手森云智能率先完成一項重要技術突破

    近日,研華科技攜手AI視覺解決方案領域的全球領導森云智能,率先完成一項重要技術突破。雙方成功將 GMSL 相機集成至基于NVIDIA Jetson Thor平臺的 MIC?742系統(tǒng)中。這
    的頭像 發(fā)表于 12-25 09:50 ?301次閱讀

    喜報|華微軟件AI研發(fā)持續(xù)推進,再添一項核心專利

    。 在實際使用中,許多智能系統(tǒng)仍依賴用戶輸入固定指令(如“開燈”“查詢訂單”)才能執(zhí)行操作,定程度上限制了交互的靈活性,增加了使用負擔。而本項專利提出了種基于大語言模型的新型控制方法:系統(tǒng)首先對用戶輸入
    的頭像 發(fā)表于 11-27 15:02 ?139次閱讀
    喜報|華微軟件AI研發(fā)持續(xù)推進,再添<b class='flag-5'>一項</b>核心專利

    手機板 layout 走線跨分割問題

    初學習layout時,都在說信號線不可跨分割,但是在工作中為了成本不能跨分割似乎也非絕對。 在后續(xù)工作中,跨分割的基礎都是相鄰層有面完整的GND參考,跨
    發(fā)表于 09-16 14:56

    易飛揚獲得一項有源電纜系統(tǒng)的關鍵發(fā)明專利

    訊:易飛揚于近日獲得一項專用于AI&DC 互連系統(tǒng)的關鍵發(fā)明專利。這項名為“有源電纜和通信系統(tǒng)”的專利,確切的商業(yè)名稱為:混合技術架構等效有源電纜(Hybrid ACC+)。該專利結合了現(xiàn)今
    的頭像 發(fā)表于 09-16 10:54 ?592次閱讀
    易飛揚獲得<b class='flag-5'>一項</b>有源電纜系統(tǒng)的關鍵發(fā)明專利

    知行科技機器人業(yè)務新獲一項合作

    近日,知行科技的機器人業(yè)務新獲一項合作,國內(nèi)頭部機器人公司委托開發(fā)背包式機器人全棧解決方案。
    的頭像 發(fā)表于 09-03 18:12 ?805次閱讀

    無刷直流電機改進型直接轉矩控制研究

    的無刷直流電機控制,定子鏈可近似認為保持不變。然而,對磁鏈幅值的控制將會改變電機繞組的固定導通方式,僅通過控制定子磁鏈旋轉速度就可以實現(xiàn)電機的有效控制。在此基礎上提出了種新穎的無刷直流電機直接轉矩
    發(fā)表于 06-27 16:45

    微雙重驅動的新型直線電機研究

    摘罷:大行程、高精度,同時易于小型化的移動機構是先進制造業(yè)等領域要解決的關鍵問題之,綜述了現(xiàn)有宏/微雙重驅動機構和直線超聲電機的研究進展和存在問題,提出了種宏微雙重驅動新型直線壓電
    發(fā)表于 06-24 14:17

    雙定子直線振蕩電機動子位移自傳感技術研究

    本文主要對于種新型雙定子直線振蕩電機的動子位移自傳感算法進行了研究。基于理論推導,建立了雙定子直線振蕩電機系統(tǒng)的數(shù)學模型,并推導出了動子位移表達公式。在此基礎上,結合直線振蕩電機特性提出了
    發(fā)表于 06-19 11:08

    雙電機驅動卷繞式系統(tǒng)轉速同步控制研究

    交叉耦合轉速補償方法,可以極大地降低雙電機轉速差,實現(xiàn)雙電機的轉速同步控制。 純分享帖,需要可點擊附件免費獲取完整資料~~~*附件:雙電機驅動卷繞式系統(tǒng)轉速同步控制研究.pdf【免責聲明】本文系網(wǎng)絡轉載,版權歸原作者所有。本文所用視頻、圖片、文字如涉及作品版權問題,請第
    發(fā)表于 06-19 10:56

    雙電機驅動攪拌器功率循環(huán)問題研究

    高精度雙電機的解決思路,還對電機的運行控制提出建議,對攪拌設備的設計與使用具有定的指導意義。 純分享帖,需要可點擊附件免費獲取完整資料~~~*附件:雙電機驅動攪拌器功率循環(huán)問題研究
    發(fā)表于 06-19 10:38

    雙電機后輪驅動混合動力汽車電子差速控制的研究

    [摘要]針對雙電機后輪驅動混合動力汽車電子差速的控制問題,考慮車輛轉向時軸荷轉移、向心力和輪胎側偏角的影響,以車輪的滑移率為控制目標,提出了基于門限值控制的電子差速控制策略,并在 Matlab
    發(fā)表于 06-18 16:39

    輪邊電機驅動汽車性能仿真與控制方法的研究

    [摘要] 為多域車輛的陸地行駛,設計了輪邊電機驅動系統(tǒng),構建了基于輪邊驅動系統(tǒng)的車輛模型,并對驅動控制方法進行了研究。在轉向動力學理論分析基礎上,在ADAMS 中建立了多體動力學模型:提出了車輛驅動
    發(fā)表于 06-10 13:10

    電機系統(tǒng)節(jié)能關鍵技術及展望

    節(jié)約能源既是我國經(jīng)濟和社會發(fā)展的一項長遠戰(zhàn)略和基本國策,也是當前的緊迫任務。論文在深入分析國內(nèi)外電機系統(tǒng)節(jié)能現(xiàn)狀和介紹先進的節(jié)能關鍵技術的基礎上,指出了現(xiàn)階段我國在電機系統(tǒng)節(jié)能方面存在的問題,并結合
    發(fā)表于 04-30 00:43

    慧明電子亮相2025新視聽全國巡展?jié)险?/a>

    近日,備受矚目的2025新視聽全國巡展?jié)险驹隰斈苜F和洲際酒店順利舉行。本次展會吸引了幾十個專業(yè)視聽品牌齊聚堂,共同展示了最新的音視頻技術和產(chǎn)品,為山東地區(qū)的觀眾帶來了場別開生面的
    的頭像 發(fā)表于 03-18 10:32 ?1318次閱讀