国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

港大&騰訊提出DiffusionDet:第一個用于目標檢測的擴散模型

CVer ? 來源:機器之心 ? 作者:機器之心 ? 2022-11-22 15:35 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

擴散模型不但在生成任務(wù)上非常成功,這次在目標檢測任務(wù)上,更是超越了成熟的目標檢測器。

擴散模型( Diffusion Model )作為深度生成模型中的新 SOTA,已然在圖像生成任務(wù)中超越了原 SOTA:例如 GAN,并且在諸多應(yīng)用領(lǐng)域都有出色的表現(xiàn),如計算機視覺,NLP、分子圖建模、時間序列建模等。

近日,來自香港大學的羅平團隊、騰訊 AI Lab 的研究者聯(lián)合提出一種新框架 DiffusionDet,將擴散模型應(yīng)用于目標檢測。據(jù)了解,還沒有研究可以成功地將擴散模型應(yīng)用于目標檢測,可以說這是第一個采用擴散模型進行目標檢測的工作。

DiffusionDet 的性能如何呢?在 MS-COCO 數(shù)據(jù)集上進行評估,使用 ResNet-50 作為骨干,在單一采樣 step 下,DiffusionDet 實現(xiàn) 45.5 AP,顯著優(yōu)于 Faster R-CNN (40.2 AP), DETR (42.0 AP),并與 Sparse R-CNN (45.0 AP)相當。通過增加采樣 step 的數(shù)量,進一步將 DiffusionDet 性能提高到 46.2 AP。此外,在 LVIS 數(shù)據(jù)集上,DiffusionDet 也表現(xiàn)良好,使用 swin - base 作為骨干實現(xiàn)了 42.1 AP。

26646820-69b7-11ed-8abf-dac502259ad0.png

DiffusionDet: Diffusion Model for Object Detection

論文地址:https://arxiv.org/abs/2211.09788

項目地址(剛剛開源):

https://github.com/ShoufaChen/DiffusionDet

該研究發(fā)現(xiàn)在傳統(tǒng)的目標檢測里,存在一個缺陷,即它們依賴于一組固定的可學習查詢。然后研究者就在思考:是否存在一種簡單的方法甚至不需要可學習查詢就能進行目標檢測?

為了回答這一問題,本文提出了 DiffusionDet,該框架可以直接從一組隨機框中檢測目標,它將目標檢測制定為從噪聲框到目標框的去噪擴散過程。這種從 noise-to-box 的方法不需要啟發(fā)式的目標先驗,也不需要可學習查詢,這進一步簡化了目標候選,并推動了檢測 pipeline 的發(fā)展。

如下圖 1 所示,該研究認為 noise-to-box 范式類似于去噪擴散模型中的 noise-to-image 過程,后者是一類基于似然的模型,通過學習到的去噪模型逐步去除圖像中的噪聲來生成圖像。

267b6eee-69b7-11ed-8abf-dac502259ad0.png

DiffusionDet 通過擴散模型解決目標檢測任務(wù),即將檢測看作圖像中 bounding box 位置 (中心坐標) 和大小 (寬度和高度) 空間上的生成任務(wù)。在訓(xùn)練階段,將方差表(schedule)控制的高斯噪聲添加到 ground truth box,得到 noisy box。然后使用這些 noisy box 從主干編碼器(如 ResNet, Swin Transformer)的輸出特征圖中裁剪感興趣區(qū)域(RoI)。最后,將這些 RoI 特征發(fā)送到檢測解碼器,該解碼器被訓(xùn)練用來預(yù)測沒有噪聲的 ground truth box。在推理階段,DiffusionDet 通過反轉(zhuǎn)學習到的擴散過程生成 bounding box,它將噪聲先驗分布調(diào)整到 bounding box 上的學習分布。

方法概述

由于擴散模型迭代地生成數(shù)據(jù)樣本,因此在推理階段需要多次運行模型 f_θ。但是,在每一個迭代步驟中,直接在原始圖像上應(yīng)用 f_θ在計算上很困難。因此,研究者提出將整個模型分為兩部分,即圖像編碼器和檢測解碼器,前者只運行一次以從原始輸入圖像 x 中提取深度特征表示,后者以該深度特征為條件,從噪聲框 z_t 中逐步細化框預(yù)測。

圖像編碼器將原始圖像作為輸入,并為檢測解碼器提取其高級特征。研究者使用 ResNet 等卷積神經(jīng)網(wǎng)絡(luò)和 Swin 等基于 Transformer 的模型來實現(xiàn) DiffusionDet。與此同時,特征金字塔網(wǎng)絡(luò)用于為 ResNet 和 Swin 主干網(wǎng)絡(luò)生成多尺度特征圖。

檢測解碼器借鑒了 Sparse R-CNN,將一組 proposal 框作為輸入,從圖像編碼器生成的特征圖中裁剪 RoI 特征,并將它們發(fā)送到檢測頭以獲得框回歸和分類結(jié)果。此外,該檢測解碼器由 6 個級聯(lián)階段組成。

訓(xùn)練

在訓(xùn)練過程中,研究者首先構(gòu)建了從真值框到噪聲框的擴散過程,然后訓(xùn)練模型來反轉(zhuǎn)這個過程。如下算法 1 提供了 DiffusionDet 訓(xùn)練過程的偽代碼。

273d5d42-69b7-11ed-8abf-dac502259ad0.png

真值框填充。對于現(xiàn)代目標檢測基準,感興趣實例的數(shù)量通常因圖像而異。因此,研究者首先將一些額外的框填充到原始真值框,這樣所有的框被總計為一個固定的數(shù)字 N_train。他們探索了幾種填充策略,例如重復(fù)現(xiàn)有真值框、連接隨機框或圖像大小的框。

框損壞。研究者將高斯噪聲添加到填充的真值框。噪聲尺度由如下公式(1)中的 α_t 控制,它在不同的時間步 t 中采用單調(diào)遞減的余弦調(diào)度。

274eb312-69b7-11ed-8abf-dac502259ad0.png

訓(xùn)練損失。檢測解碼器將 N_train 損壞框作為輸入,預(yù)測 N_train 對類別分類和框坐標的預(yù)測。同時在 N_train 預(yù)測集上應(yīng)用集預(yù)測損失(set prediction loss)。

推理

DiffusionDet 的推理過程是從噪聲到目標框的去噪采樣過程。從在高斯分布中采樣的框開始,該模型逐步細化其預(yù)測,具體如下算法 2 所示。

275bd844-69b7-11ed-8abf-dac502259ad0.png

采樣步驟。在每個采樣步驟中,將上一個采樣步驟中的隨機框或估計框發(fā)送到檢測解碼器,以預(yù)測類別分類和框坐標。在獲得當前步驟的框后,采用 DDIM 來估計下一步驟的框。

框更新。為了使推理更好地與訓(xùn)練保持一致,研究者提出了框更新策略,通過用隨機框替換非預(yù)期的框以使它們恢復(fù)。具體來說,他們首先過濾掉分數(shù)低于特定閾值的非預(yù)期的框,然后將剩余的框與從高斯分布中采樣的新隨機框連接起來。

一次解決(Once-for-all)。得益于隨機框設(shè)計,研究者可以使用任意數(shù)量的隨機框和采樣步驟來評估 DiffusionDet。作為比較,以往的方法在訓(xùn)練和評估期間依賴于相同數(shù)量的處理框,并且檢測解碼器在前向傳遞中僅使用一次。

實驗結(jié)果

在實驗部分,研究者首先展示了 DiffusionDet 的 Once-for-all 屬性,然后將 DiffusionDet 與以往在 MS-COCO 和 LVIS 數(shù)據(jù)集上成熟的檢測器進行比較。

DiffusionDet 的主要特性在于對所有推理實例進行一次訓(xùn)練。一旦模型經(jīng)過訓(xùn)練,它就可以用于更改推理中框的數(shù)量和樣本步驟數(shù),如下圖 4 所示。DiffusionDet 可以通過使用更多框或 / 和更多細化步驟來實現(xiàn)更高的準確度,但代價是延遲率更高。因此,研究者將單個 DiffusionDet 部署到多個場景中,并在不重新訓(xùn)練網(wǎng)絡(luò)的情況下獲得所需的速度 - 準確率權(quán)衡。

276e7d64-69b7-11ed-8abf-dac502259ad0.png

研究者將 DiffusionDet 與以往在 MS-COCO 和 LVIS 數(shù)據(jù)集上的檢測器進行了比較,具體如下表 1 所示。他們首先將 DiffusionDet 的目標檢測性能與以往在 MS-COCO 上的檢測器進行了比較。結(jié)果顯示,沒有細化步驟的 DiffusionDet 使用 ResNet-50 主干網(wǎng)絡(luò)實現(xiàn)了 45.5 AP,以較大的優(yōu)勢超越了以往成熟的方法,如 Faster R-CNN、RetinaNet、DETR 和 Sparse R-CNN。并且當主干網(wǎng)絡(luò)的尺寸擴大時,DiffusionDet 顯示出穩(wěn)定的提升。

279bbc34-69b7-11ed-8abf-dac502259ad0.png

下表 2 中展示了在更具挑戰(zhàn)性的 LVIS 數(shù)據(jù)集上的結(jié)果,可以看到,DiffusionDet 使用更多的細化步驟可以獲得顯著的增益。

27ba672e-69b7-11ed-8abf-dac502259ad0.png

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 目標檢測
    +關(guān)注

    關(guān)注

    0

    文章

    233

    瀏覽量

    16492
  • 計算機視覺
    +關(guān)注

    關(guān)注

    9

    文章

    1715

    瀏覽量

    47623
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1236

    瀏覽量

    26190

原文標題:港大&騰訊提出DiffusionDet:第一個用于目標檢測的擴散模型

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    羅德與施瓦茨宣布推出新頻段 R&S ZNB3000 矢量網(wǎng)絡(luò)分析儀,頻率高達 54 GHz

    R&SZNB3000以業(yè)界領(lǐng)先的測量速度、出色的擴展能力及流射頻性能,為中端矢量網(wǎng)絡(luò)分析儀市場樹立了新標桿。隨著高頻型號的加入,R&SZNB3000將覆蓋更廣泛的應(yīng)用場景。羅德與施
    的頭像 發(fā)表于 12-04 17:04 ?620次閱讀
    羅德與施瓦茨宣布推出新頻段 R&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;S ZNB3000 矢量網(wǎng)絡(luò)分析儀,頻率高達 54 GHz

    商湯絕影開悟世界模型綜合能力位列中國第一

    2025年9月23日,全球知名增長咨詢公司弗若斯特沙利文(Frost &amp; Sulllivan,簡稱“沙利文”)發(fā)布《2025年中國世界模型發(fā)展白皮書》報告。
    的頭像 發(fā)表于 09-29 14:13 ?1010次閱讀

    廣和通發(fā)布端側(cè)目標檢測模型FiboDet

    為提升端側(cè)設(shè)備視覺感知與決策能力,廣和通全自研端側(cè)目標檢測模型FiboDet應(yīng)運而生。該模型基于廣和通在邊緣計算與人工智能領(lǐng)域的深度積累,面向工業(yè)、交通、零售等多個行業(yè)提供高性能、低功
    的頭像 發(fā)表于 09-26 13:39 ?1602次閱讀

    AIcube1.4目標檢測模型導(dǎo)入yolotxt格式數(shù)據(jù)集后直顯示數(shù)據(jù)正在解析,為什么?

    AIcube1.4目標檢測模型導(dǎo)入yolotxt格式數(shù)據(jù)集后直顯示數(shù)據(jù)正在解析 數(shù)據(jù)有問題,把數(shù)據(jù)情況說的詳細點
    發(fā)表于 08-13 07:16

    CS86706適用1~3節(jié)鋰電應(yīng)用,內(nèi)置升壓模塊,2×30W立體聲&amp;amp;amp;50W單聲道R類音頻功率放大器

    CS86706適用1~3節(jié)鋰電應(yīng)用,內(nèi)置升壓模塊,2×30W立體聲&amp;amp;50W單聲道R類音頻功率放大器
    的頭像 發(fā)表于 07-16 20:42 ?651次閱讀
    CS86706適用1~3節(jié)鋰電應(yīng)用,內(nèi)置升壓模塊,2×30W立體聲&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;50W單聲道R類音頻功率放大器

    【RA4L1-SENSOR】電壓檢測第一個程序增加 FreeRTOS顯示量程0-3300 mV和量程0-15000mV]

    續(xù)前【RA4L1-SENSOR】電壓檢測器3。第一個程序增加 LCD顯示量程0-3300 mV 大多數(shù)操作系統(tǒng)似乎能同時執(zhí)行多個程序。這稱為多任務(wù)處理。隨著應(yīng)用程序變得越來越復(fù)雜,[單片機]裸機開發(fā)
    發(fā)表于 07-11 10:53

    【VisionFive 2單板計算機試用體驗】在 VisionFive 2 上為目標檢測準備軟件環(huán)境并運行 MobileNet-SSD 模型

    目標: 本教程將實現(xiàn)在 StarFive VisionFive 2 開發(fā)板上為目標檢測應(yīng)用準備所需軟件環(huán)境,并最終運行基于 Mobile
    發(fā)表于 07-10 19:51

    Texas Instruments AMP-PDK-EVM子板開發(fā)套件數(shù)據(jù)手冊

    Texas Instruments AMP-PDK-EVM子板開發(fā)套件設(shè)計用于搭配AMP-PDK-EVM主板使用。子板套件選項適用于不同封裝型號。引腳數(shù)支持器件的關(guān)斷和非關(guān)斷型號。TI
    的頭像 發(fā)表于 07-09 14:15 ?845次閱讀
    Texas Instruments <b class='flag-5'>AMP</b>-PDK-EVM子板開發(fā)套件數(shù)據(jù)手冊

    新知|Verizon與AT&amp;amp;amp;T也可以手機直接連接衛(wèi)星了

    與Starlink星鏈合作的反擊。早些時候,T-Mobile宣布其手機直連衛(wèi)星服務(wù)開放測試,任何用戶都可以申請測試,并在第一階段提供衛(wèi)星消息服務(wù)。AT&amp;T通過手機直連衛(wèi)星視頻通話早前,星鏈
    的頭像 發(fā)表于 06-19 07:07 ?1137次閱讀
    新知|Verizon與AT&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;T也可以手機直接連接衛(wèi)星了

    基于LockAI視覺識別模塊:C++目標檢測

    是基于百度飛槳深度學習框架開發(fā)的高效的目標檢測庫,支持多種先進的目標檢測
    發(fā)表于 06-06 14:43

    馬斯克回歸“7×24硬核模式”,F(xiàn)SD與Optimus雙線狂飆

    這場 &amp;quot;馬斯克式狂飆&amp;quot; 能否沖破技術(shù)瓶頸與市場質(zhì)疑?2025 年的得州街頭,或許會給出第一個答案。
    的頭像 發(fā)表于 05-27 16:18 ?623次閱讀

    多模塊配置!YU系列USB、Type-C連接器為工控機打造&amp;amp;quot;全能型&amp;amp;quot;數(shù)據(jù)傳輸方案

    背景介紹工控機是用于工業(yè)、野外等復(fù)雜惡劣環(huán)境的專用計算機設(shè)備,如何實現(xiàn)穩(wěn)如磐石的數(shù)據(jù)傳輸是關(guān)鍵?凌科電氣YU-USB&amp;Type-C工業(yè)連接器,以嚴苛環(huán)境適配性及長期穩(wěn)定的性能表現(xiàn),成為
    的頭像 發(fā)表于 05-07 18:27 ?673次閱讀
    多模塊配置!YU系列USB、Type-C連接器為工控機打造&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;quot;全能型&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;quot;數(shù)據(jù)傳輸方案

    HRTIM變頻控制輸出的第一個周期頻率異常的原因?

    在使用STM32G474CBT6的HRTIM_Mater、HRTIM_TIMER_B和HRTIM_TIMER_D輸出同步互補的四路輸出時,關(guān)閉4路輸出和三定時器的計數(shù)后,再次開啟時第一個周期的頻率
    發(fā)表于 04-25 06:17

    文教你構(gòu)建第一個應(yīng)用程序

    構(gòu)建第一個應(yīng)用程序 創(chuàng)建新工程 步驟 1通過如下兩種方式,打開工程創(chuàng)建向?qū)Ы缑妗? 如果當前未打開任何工程,可以在 DevEco Studio 的歡迎頁,選擇“Projects &am
    發(fā)表于 04-24 06:41

    HRTIM變頻控制輸出的第一個周期頻率異常的原因?

    在使用STM32G474CBT6的HRTIM_Mater、HRTIM_TIMER_B和HRTIM_TIMER_D輸出同步互補的四路輸出時,關(guān)閉4路輸出和三定時器的計數(shù)后,再次開啟時第一個周期的頻率
    發(fā)表于 04-22 12:08