国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

介紹第一個結合相對和絕對深度的多模態單目深度估計網絡

3D視覺工坊 ? 來源:CVHub ? 2023-03-21 18:01 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

背景

單目深度估計分為兩個派系,metric depth estimation(度量深度估計,也稱絕對深度估計)和relative depth estimation(相對深度估計)。

絕對深度估計:估計物體絕對物理單位的深度,即米。預測絕對深度的優點是在計算機視覺機器人技術的許多下游應用中具有實用價值,如建圖、規劃、導航、物體識別、三維重建和圖像編輯。然而,絕對深度股即泛化能力(室外、室內)極差。因此,目前的絕對深度估計模型通常在特定的數據集上過擬合,而不能很好地推廣到其他數據集。

相對深度估計:估計每個像素與其它像素的相對深度差異,深度無尺度信息,可以各種類型環境中的估計深度。應用場景有限

導讀

現有的單目深度估計工作,要么關注于泛化性能而忽略尺度,即相對深度估計,要么關注于特定數據集上的最先進的結果,即度量深度(絕對深度)估計。論文提出了第一種結合這兩種形態的方法,從而得到一個在泛化性能良好的同時,保持度量尺度的模型:ZoeD-M12-NK。

具體來說,論文框架包括兩個關鍵組成部分:相對深度估計網絡絕對深度估計網絡相對深度估計網絡學習提取相鄰像素之間的深度差異信息,而絕對深度估計網絡則直接預測絕對深度值

使用這種框架,論文方法能夠將已有數據集的深度信息轉移到新的目標數據集上,從而實現零樣本(Zero-shot)深度估計。在實驗中,論文方法使用了幾個標準數據集進行測試,并證明了所提方法在零樣本深度估計方面比現有SOTA表現更好。

貢獻

57523e52-c3ae-11ed-bfe3-dac502259ad0.png

本文中,作者提出了一個兩階段的框架,使用一個通用的編碼-解碼器架構進行相對深度估計的預訓練,在第二階段添加絕對深度估計的輕量級head(metric bins module),并使用絕對深度數據集進行微調。本文的主要貢獻是:

ZoeDepth 是第一個結合了相對深度和絕對深度的方法,在保持度量尺度的同時,實現了卓越的泛化性能。

ZoeDepth 的旗艦模型 ZoeD-M12-NK 在12個數據集上使用相對深度進行預訓練,并在兩個數據集上使用絕對深度進行微調,使其在現有SOTA上有了明顯的提高

ZoeDepth 是第一個可以在多個數據集(NYU Depth v2 和 KITTI)上聯合訓練而性能不明顯下降的模型,在室內和室外域的8個未見過的數據集上實現了前所未有的零樣本泛化性能

ZoeDepth 彌補了相對深度估計和絕對深度估計之間的差距,并且可以通過在更多的數據集上定義更細化的域和,并在更多的絕對深度數據集微調來進一步改進網絡性能。

方法

論文首先使用一個Encoder-Decoder的backbone進行相對深度預測,然后將提出的metric bins 模塊附加在decoder上得到絕對深度預測頭(head),通過添加一個或多個head(每個數據集一個)來進行絕對深度估計最后再進行端到端的微調。下面介紹每個head(metric bins mdule)是怎么設計的:

LocalBins review

57c14f2c-c3ae-11ed-bfe3-dac502259ad0.png

global adaptive bins vs local adaptive bins

不同RGB輸入對應的深度分布會有很大的不同,目前的神經網絡架構主要是在低分辨率的bottleneck獲取全局信息,而不能很好地在高分辨率特征獲取全局特征,深度分布的這種變化使得端到端的深度回歸變得困難。因此,此前的一些方法提出將深度范圍劃分為一定數量的bin,將每個像素分配給每個bin,將深度回歸任務轉換為分類任務

最終深度估計是bin中心值的線性組合。上圖介紹了兩種劃分bin的方法,AdaBins預測了完整圖像的分布,LocalBins預測了每個像素周圍區域的分布。本文采用了類似于LocalBins的這種方式。

57dd49c0-c3ae-11ed-bfe3-dac502259ad0.png

Metric bins

具體來說,LocalBins使用一個標準的encoder-decoder作為基本模型,并附加一個模塊,該模塊將encoder-decoder的多尺度特征作為輸入,預測每個像素深度區間上的個bins中心值(channel)一個像素最終深度,由個bin經過softmax得到的概率加權其bin中心值的線性組合得到

57fc686e-c3ae-11ed-bfe3-dac502259ad0.png

Metric bins module

581e6ad6-c3ae-11ed-bfe3-dac502259ad0.png

Metric Bins Module

如上圖所示,Metric bins模塊以MiDaS[1](一種有監督的Zero-shot深度估計方法)的解碼器的多尺度(五層)特征作為輸入,預測用于絕對深度估計的深度區間的bins的中心。注意論文在bottleneck層就直接預測每個像素上所有的bins(即channel的維度直接就是)。然后在decoder上使用attractor layers逐步進行細化bin區間

Attract instead of split

論文通過調整bin,在深度區間上向左或向右移動它們,來實現對bin的多尺度細化。利用多尺度特征,論文預測了深度區間上的一組點用來”吸引“bin的中心

具體地說,在第1個decoder層,MLP將一個像素處的特征作為輸入,并預測該像素位置的吸引點。調整后的bin中心為,調整如下:

5831688e-c3ae-11ed-bfe3-dac502259ad0.png

其中,超參數和決定了attractor(吸引子)的強度。論文把這個attractor命名為inverse attractor。此外,論文還實驗了一個指數變量:

584cf54a-c3ae-11ed-bfe3-dac502259ad0.png

實驗表明,inverse attractor可以導致更好的性能。論文中,深度區間設置了個bin,decoder設置了個attractor。

Log-binomial instead of softmax

為了得到最終的絕對深度預測,每個像素上深度區間內的每個bin通過softmax可以得到其概率,所有的bin的中心進行按照片概率線性組合得到該像素的深度值。

盡管softmax在無序類中運行得很好,但由于深度區間內bin本身是有序的,softmax方法可能導致附近的bin的概率大大不同,因此論文使用具有排序感知的概率預測:

論文使用一個二項式分來預測概率,將相對深度預測與解碼器特征連接起來,并從解碼器特征中預測一個2通道輸出(q - mode和t - temperature),通過以下方法獲得第k個bin中心的概率得分:

5867a192-c3ae-11ed-bfe3-dac502259ad0.png

然后再通過:

587adff0-c3ae-11ed-bfe3-dac502259ad0.png

得到最終的概率值。

訓練策略

Metric fine-tuning on multiple datasets

在具有各種場景的混合數據集上訓練一個絕對深度模型是很困難的,論文首先預訓練一個的相對深度估計的backbone,在一定程度上減輕了對多個數據集的微調問題。然后為模型配備多個Metric bins模塊,每個場景類型(室內和室外)對應一個。最后再對完整的模型進行端到端微調。

Routing to metric heads

當模型有多個絕對深度頭時,在推理的時候,算法需要根據輸入數據的類型,通過一個“路由器”來選擇用于特定輸入的絕對深度頭

論文提供了三種“路由”策略:

Labeled Router(R.1):訓練多個模型,給它們打上場景標簽,推理時根據場景手動選擇模型

Trained Router(R.2):訓練一個MLP分類器,它根據bottleneck預測輸入圖像的場景類型,然后“路由”到相應的head,訓練的時候需要提供場景類型的標簽

Auto Router(R.3):跟第二種類似,但是訓練和推理過程中不提供場景的標簽

實驗

Comparison to SOTA on NYU Depth V2

58845b48-c3ae-11ed-bfe3-dac502259ad0.png

表1 Quantitative comparison on NYU-Depth v2

沒有任何相對深度預訓練的情況下,論文的模型ZoeD-X-N預測的絕對深度可以比目前的SOTA NeWCRFs提高13.7% (REL = 0.082)。

通過對12個數據集進行相對深度預訓練,然后對NYU Depth v2進行絕對深度微調,論文的模型ZoeD-M12-N可以在ZoeD-X-N上進一步提高8.5%,比SOTA NeWCRFs提高21%(REL = 0.075)。

58aa1658-c3ae-11ed-bfe3-dac502259ad0.png

Qualitative comparison on NYU Depth v2

上面的可視化可以看出,論文方法始終以更少的誤差,產生更好的深度預測(藍色表示誤差小)。

Universal Metric SIDE

58d9fb5c-c3ae-11ed-bfe3-dac502259ad0.png

表2 Comparison with existing works when trained on NYU and KITTI

使用跨域數據集(室內NYU和室外KITTI(NK))進行絕對深度訓練的模型通常表現更差,如上表2與表1的對比所示,論文將最近的一些方法在室內和室外數據集上進行聯合訓練,從結果可以看到,這些方法的性能都顯著下降,甚至直接無法收斂。而本文的方法ZoeD-M12-NK**只下降了8%**(REL 0.075 to 0.081),顯著優于SOTA NeWCRFs。

表2中,“”表示使用一個head,可以看到,使用多head的網絡,泛化能力更強,這些結果表明,Metric Bins模塊比現有的工作更好地利用了預訓練,從而改進了跨域的自適應和泛化(Zero-shot性能)

Zero-shot Generalization

論文將所提模型在8個未訓練的室內和室外數據上進行Zero-shot測試,來評估所提方法的泛化能力。

591343ee-c3ae-11ed-bfe3-dac502259ad0.png

Zero-shot transfer

59df1370-c3ae-11ed-bfe3-dac502259ad0.png

Zero-shot transfer

5a002132-c3ae-11ed-bfe3-dac502259ad0.png

表3 Quantitative results for zero-shot transfer to four unseen indoor datasets

5a11d260-c3ae-11ed-bfe3-dac502259ad0.png

表4 Quantitative results for zero-shot transfer to four unseen outdoor datasets

表3所示,在室內數據測試中,ZoeD-M12-N能夠取得最好的效果(在12個相對深度數據集上預訓練,只對NYU數據集進行微調),同時在室內NYU數據集和室外KITTI數據集進行微調效果次之,不使用12個相對深度數據集上預訓練最差但都顯著高于SOTA。如表4上圖所示,在室外數據測試中,結論類似。甚至在達到了976.4%的提升!,這證明了它前所未有的Zero-shot能力。

消融實驗

Backbones

5a548cae-c3ae-11ed-bfe3-dac502259ad0.png

Backbone ablation study

在圖像分類task中的backbone性能與深度估計性能之間有很強的相關性。較大的backbone可以實現較低的絕對相對誤差(REL)。

Metric Bins Module

5a687ee4-c3ae-11ed-bfe3-dac502259ad0.png

Metric head variants

不同的MLP中的分裂因子(Splitter)和吸引子(Attractor)的數量對結果有影響。

Routers

5a79a4da-c3ae-11ed-bfe3-dac502259ad0.png

Router variants

Trained Router效果顯著由于另外兩種路由策略。

總結

論文提出了ZoeDepth,第一個結合了相對深度和絕對深度而性能沒有顯著下降的方法,彌補相對和絕對深度估計性能之間的差距,在保持度量尺度的同時,實現了卓越的泛化性能。ZoeDepth是一個兩階段的工作,在第一階段,論文使用相對深度數據集對encoder-decoder架構進行預訓練。在第二階段,論文基于所提的Metric bins 模塊得到domain-specific頭,將其添加到解碼器中,并在一個或多個數據集上對模型進行微調,用于絕對深度預測。

提出的架構顯著地改進了NYU Depth v2的SOTA(高達21%),也顯著提高了zero-transfer的技術水平。論文希望在室內和室外之外定義更細粒度的領域,并在更多的絕對深度數據集上進行微調,可以進一步改善論文的結果。在未來的工作中,論文希望研究ZoeDepth的移動架構版本,例如,設備上的照片編輯,并將該工作擴展到雙目深度估計。






審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 解碼器
    +關注

    關注

    9

    文章

    1218

    瀏覽量

    43393
  • 機器人
    +關注

    關注

    213

    文章

    31075

    瀏覽量

    222197
  • RGB
    RGB
    +關注

    關注

    4

    文章

    831

    瀏覽量

    61940
  • 機器人技術
    +關注

    關注

    18

    文章

    194

    瀏覽量

    33245

原文標題:Intel 開源新作 | ZoeDepth: 第一個結合相對和絕對深度的多模態單目深度估計網絡

文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    自動駕駛中常提的“深度估計”是啥?

    ,為了能更好地辨別路況,也需要類似的能力。 什么是深度估計? 自動駕駛汽車必須理解環境中物體距離它有多遠,需要能快速辨別前面是行人還是車?那個車到底是在十米開外還是一兩百米遠? 深度估計
    的頭像 發表于 02-16 13:18 ?1.7w次閱讀
    自動駕駛中常提的“<b class='flag-5'>深度</b><b class='flag-5'>估計</b>”是<b class='flag-5'>個</b>啥?

    商湯科技日日新V6.5榮獲2025年模態大模型全國第一

    近日,權威大模型評測基準 SuperCLUE 發布《中文模態視覺語言模型測評基準12月報告》,商湯日日新V6.5(SenseNova V6.5 Pro)以75.35的總分位列國內第一,斬獲金牌,并在視覺推理維度上拿下國內最高分
    的頭像 發表于 01-06 14:44 ?615次閱讀
    商湯科技日日新V6.5榮獲2025年<b class='flag-5'>多</b><b class='flag-5'>模態</b>大模型全國<b class='flag-5'>第一</b>

    雙目視覺是如何實現深度估計的?

    [首發于智駕最前沿微信公眾號]自動駕駛的純視覺方案中,攝像頭因無法直接感知深度,在環境理解上存在根本局限,雙目視覺技術在此需求下應運而生。它通過模擬人眼,利用雙攝像頭的視差來推算距離,將二維圖像
    的頭像 發表于 12-31 09:45 ?501次閱讀
    雙目視覺是如何實現<b class='flag-5'>深度</b><b class='flag-5'>估計</b>的?

    深度解析 | 低抖動高精度EtherCAT軸控制的實現與實踐案例

    高精度同步 l 靈活拓撲:支持線型、樹型、星型等多種拓撲結構 二、技術實現關鍵:如何突破軸抖動難題在實際工程應用中,實現理論上的高精度面臨諸多挑戰。下文將結合一已驗證的工程實踐,解析關鍵突破點
    發表于 12-09 17:17

    自動駕駛中Transformer大模型會取代深度學習嗎?

    持續討論。特別是在自動駕駛領域,部分廠商開始嘗試將模態大模型(MLLM)引入到感知、規劃與決策系統,引發了“傳統深度學習是否已過時”的激烈爭論。然而,從技術原理、算力成本、安全需求與實際落地路徑等維度來看,Transforme
    的頭像 發表于 08-13 09:15 ?4184次閱讀
    自動駕駛中Transformer大模型會取代<b class='flag-5'>深度</b>學習嗎?

    毫米之間定成敗:PCB背鉆深度設計與生產如何精準把控

    中需標注背鉆的 “目標深度” 和 “允許誤差”(通常要求 ±0.05mm,高頻板需 ±0.025mm)。 工程輸出時定要最后輸出背鉆鉆帶,防止因修改資料,導致背鉆通過層,有網絡連接,導致開路。如下
    發表于 07-28 14:20

    研華科技攜手創新奇智推出模態大模型AI體機

    這是款基于研華高性能邊緣計算平臺MIC-733,深度集成創新奇智視覺小模型與模態大模型的邊緣智能終端,通過創新的“視覺識別 + 深度語義
    的頭像 發表于 07-17 17:14 ?947次閱讀
    研華科技攜手創新奇智推出<b class='flag-5'>多</b><b class='flag-5'>模態</b>大模型AI<b class='flag-5'>一</b>體機

    信而泰×DeepSeek:AI推理引擎驅動網絡智能診斷邁向 “自愈”時代

    模態的技術特性,DeepSeek正加速推動AI在金融、政務、科研及網絡智能化等關鍵領域的深度應用。 信而泰:AI推理引擎賦能網絡智能診斷新范式信而泰
    發表于 07-16 15:29

    大模型推理顯存和計算量估計方法研究

    隨著人工智能技術的飛速發展,深度學習大模型在各個領域得到了廣泛應用。然而,大模型的推理過程對顯存和計算資源的需求較高,給實際應用帶來了挑戰。為了解決這問題,本文將探討大模型推理顯存和計算量的估計
    發表于 07-03 19:43

    汽車模態交互測試:智能交互的深度驗證

    在汽車智能座艙測試的關鍵進程中,北京沃華慧通測控技術有限公司展現出了獨特的價值與優勢。作為家專注于測控技術領域的企業,沃華慧通在智能座艙測試方面積累了豐富的經驗和專業的技術能力。其研發的測試設備能夠精準模擬各種復雜的車載環境,對智能座艙的
    的頭像 發表于 06-25 09:00 ?1417次閱讀
    汽車<b class='flag-5'>多</b><b class='flag-5'>模態</b>交互測試:智能交互的<b class='flag-5'>深度</b>驗證

    存儲示波器的存儲深度對信號分析有什么影響?

    存儲深度(Memory Depth)是數字示波器的核心參數之,它直接決定了示波器在次采集過程中能夠記錄的采樣點數量。存儲深度對信號分析的影響貫穿時域細節捕捉、頻域分析精度、觸發穩定
    發表于 05-27 14:39

    摩爾線程與當虹科技達成深度合作

    近日,摩爾線程與當虹科技達成深度合作,基于國產GPU成功完成了與BlackEye模態視聽大模型的深度融合。雙方聯手打造專業級視聽“引擎”,并在超高清GPU算力場景中成功落地。
    的頭像 發表于 03-20 15:22 ?1499次閱讀

    【AIBOX 應用案例】深度估計

    了關鍵作用。深度估計技術可以分為深度估計
    的頭像 發表于 03-19 16:33 ?1104次閱讀
    【AIBOX 應用案例】<b class='flag-5'>單</b><b class='flag-5'>目</b><b class='flag-5'>深度</b><b class='flag-5'>估計</b>

    ?模態交互技術解析

    模態交互 模態交互( Multimodal Interaction )是指通過多種感官通道(如視覺、聽覺、觸覺等)或多種交互方式(如語音、手勢、觸控、眼動等)與計算機系統進行自然、
    的頭像 發表于 03-17 15:12 ?4400次閱讀

    PTR5415藍牙模組性能與場景應用深度解析

    3.3mA,結合深度睡眠模式,適合電池供電設備。 尺寸與擴展性:13181.8mm超小封裝,32GPIO全引出,支持定制化開發。 2、認證與可靠性 PSA3級認證:通過硬件級安全認證,保障固件
    發表于 03-11 16:03