摘要
由于深度信息的缺失,從單目圖像估計物體的準(zhǔn)確3D位置是一個具有挑戰(zhàn)性的問題。之前的工作表明,利用目標(biāo)的關(guān)鍵點投影約束來估計多個候選深度可以提高檢測性能。然而,現(xiàn)有方法只能利用垂直邊緣作為深度估計的投影約束。所以這些方法只利用了少量的投影約束,產(chǎn)生的深度候選不足,導(dǎo)致深度估計不準(zhǔn)確。論文提出了一種可以利用來自任何方向邊緣的密集投影約束方法。通過這種方式,論文使用了更多的投影約束并輸出了更多的候選深度。此外,論文提出了一個圖匹配加權(quán)模塊來合并候選深度。本文提出的方法名為DCD(Densely Constrained Detector),在 KITTI 和 WOD基準(zhǔn)上實現(xiàn)了最先進的性能。
之前算法存在的問題在于它們的幾何約束不足。具體來說,一些現(xiàn)有的方法估計2D邊界框和3D邊界框的高度,然后利用2D到3D高度投影約束生成目標(biāo)的深度候選。最終的深度是通過對所有候選深度進行加權(quán)來生成的。如下圖所示,該方法僅適用于垂直邊緣,這意味著它們只使用少量約束和3D先驗,導(dǎo)致深度估計的不準(zhǔn)確。

方法
DCD的框架的如下圖所示。DCD使用單階段檢測器從單目圖像中檢測目標(biāo)。論文提出了密集幾何約束深度估計器(DGDE,Densely Geometric-constrained Depth Estimator),它可以計算任何方向的2D-3D邊緣的深度。DGDE可以有效地利用目標(biāo)的語義關(guān)鍵點并產(chǎn)生更多的深度候選。此外,論文利用回歸得到的2D邊緣、3D邊緣和方向作為2D-3D邊緣圖匹配網(wǎng)絡(luò)的輸入。所提出的圖匹配加權(quán)模塊 (GMW,Graph Matching Weighting module) 匹配每個2D-3D邊緣并輸出匹配分?jǐn)?shù)。通過將多個深度與其相應(yīng)的匹配分?jǐn)?shù)相結(jié)合,論文最終可以為目標(biāo)生成一個穩(wěn)健的深度。

Geometric-based 3D Detection Definition
基于幾何的單目3D目標(biāo)檢測通過2D-3D投影約束估計目標(biāo)的位置。具體來說,網(wǎng)絡(luò)預(yù)測目標(biāo)的尺寸(),旋轉(zhuǎn)角。假設(shè)一個目標(biāo)有n個語義關(guān)鍵點,論文回歸第i個關(guān)鍵點在圖像坐標(biāo)中的2D坐標(biāo)和object frame中的3D坐標(biāo)。object frame的坐標(biāo)原點是目標(biāo)的中心點。給定n個語義2D-3D關(guān)鍵點投影約束,解決3D目標(biāo)位置是一個超定問題,它是用于將點云將從object frame轉(zhuǎn)換到camera frame的平移向量。生成每個目標(biāo)的語義關(guān)鍵點的方法改編自。論文通過PCA建立了一些汽車模型,并通過從點云和2D mask中分割出來的3D點云來細化模型。在獲得關(guān)鍵點后,就可以使用DGDE從關(guān)鍵點投影約束中估計目標(biāo)的深度。
Densely Geometric-constrained Depth Estimation
雖然以前的深度估計方法[51]只考慮了垂直邊緣,但DGDE可以處理任意方向的邊緣。因此,論文能夠利用更多的約束來估計每個深度候選的深度。
該方法基于關(guān)鍵點從3D空間到2D圖像的投影關(guān)系。第i個關(guān)鍵點的3D坐標(biāo)在object frame中定義,并通過以下等式投影到2D圖像平面上:

其中是第i個關(guān)鍵點的深度,K是相機內(nèi)參,K,R,t 表示為:

通過上述兩式,第i個關(guān)鍵點的投影約束方程記為:

第j個關(guān)鍵點投影約束方程與上式類似,進一步可以從第i個、第 j 個關(guān)鍵點投影約束中得到深度估計:

這個方程表明深度可以通過任意方向邊緣的投影約束來計算。
給定n個關(guān)鍵點,論文生成m=n(n-1)/2 個深度候選。與此同時,不可避免地會遇到一些低質(zhì)量的深度候選。因此,需要適當(dāng)?shù)募訖?quán)方法來集成這些深度候選。
Depth Weighting by Graph Matching
利用DGDE估計目標(biāo)的深度候選時,目標(biāo)的最終深度可以根據(jù)根據(jù)估計質(zhì)量進行加權(quán):

接下來介紹論文提出的新的加權(quán)方法——Graph Matching Weighting module (GMW)。
Graph Construction and Edge Feature extraction:論文構(gòu)造了2D關(guān)鍵點圖和3D關(guān)鍵點圖。3D關(guān)鍵點圖與2D關(guān)鍵點圖基本一致,唯一的區(qū)別是頂點坐標(biāo)是2D坐標(biāo)還是3D坐標(biāo)。2D和3D邊緣特征提取器[47]如下所示:

FC、CN、BN、ReLU 分別表示全連接層、Context Normalization [47]、Batch Normalization 和 ReLU。值得一提的是,Context Normalization 提取了所有邊的全局信息。
Graph matching layer:給定提取的2D和3D邊緣特征,根據(jù)在邊緣s上的2D特征和邊緣t上的3D特征之間的L2距離計算如下?lián)p失:

然后論文將M作為Sinkhorn layer[4]的輸入來獲得分配矩陣P。Sinkhorn layer通過最小化下述目標(biāo)函數(shù)來迭代優(yōu)化P:

Loss function:設(shè)計如下所示的回歸損失來監(jiān)督最終的加權(quán)深度,并使用分類損失來監(jiān)督圖匹配:

實驗結(jié)果
KITTI上的實驗結(jié)果,優(yōu)勢比較明顯。

可視化:

更多的實驗結(jié)果如下表所示:

消融實驗

DCD可以比基線更準(zhǔn)確地估計深度。

GMW和邊數(shù)量的消融實驗

關(guān)于DCD和AutoShape的討論
盡管DCD和AutoShape都利用多個關(guān)鍵點來估計目標(biāo)的位置,但存在如下關(guān)鍵差異:
AutoShape直接使用所有2D-3D關(guān)鍵點投影約束來求解對象目標(biāo)深度。DCD則從每個邊緣約束中求解一個深度候選。因此,DCD的邊緣約束不僅數(shù)量多,而且比關(guān)鍵點約束的階數(shù)更高;
審核編輯:郭婷
-
檢測器
+關(guān)注
關(guān)注
1文章
931瀏覽量
49933 -
3D
+關(guān)注
關(guān)注
9文章
3011瀏覽量
115015
原文標(biāo)題:ECCV 2022 | 用于單目3D目標(biāo)檢測的密集約束深度估計器
文章出處:【微信號:3D視覺工坊,微信公眾號:3D視覺工坊】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
深度解析自動駕駛的雙目3D感知視覺方案
如何通俗理解視覺定位?帶你看懂對極幾何與基本矩陣
3D設(shè)計太耗時?趕緊試試浩辰3D軟件中的幾何約束關(guān)系命令!
實時3D藝術(shù)最佳實踐-幾何指南
基于幾何約束的視頻幀間線段特征匹配算法
基于單目圖像的深度估計算法,大幅度提升基于單目圖像深度估計的精度
關(guān)于鋼塊3D幾何測量的實用性說明
密集單目SLAM的概率體積融合概述
介紹第一個結(jié)合相對和絕對深度的多模態(tài)單目深度估計網(wǎng)絡(luò)
公差分析VS尺寸鏈計算-DTAS 3D幾何數(shù)據(jù)導(dǎo)入
一種利用幾何信息的自監(jiān)督單目深度估計框架
如何搞定自動駕駛3D目標(biāo)檢測!
基于幾何單目3D目標(biāo)檢測的密集幾何約束深度估計器
評論