熟女乱伦一区二区三区,久久996月热视频,网红精品福利一区二区

主要內(nèi)容：提出了一種基于學習的相機定位算法，其無需存儲圖像特征和場景三維點云，降低了存儲限制，通過識別場景中稀疏但顯著有代表性的landmark來找到2D-3D對應(yīng)關(guān)系進行后續(xù)的魯棒姿態(tài)估計，通過訓練檢測landmark的場景特定的CNN來實現(xiàn)所提出的想法，即回歸輸入圖像中對應(yīng)landmark的2D坐標。

創(chuàng)新點與Contributions：1）與大多數(shù)landmark通常可見的人體姿態(tài)估計不同，由于相機視野有限并且無法同時觀察場景的不同部分，相機姿態(tài)估計任務(wù)中大多數(shù)場景l(fā)andmark不會同時可見，文章通過提出一種新的神經(jīng)方位估計器（Neural Bearing Estimator，NBE）來解決這一問題，該估計器可以直接回歸相機坐標系中場景l(fā)andmark的3D方位向量，NBE學習全局場景表示的同時學習預測場景l(fā)andmark的方向向量，即使它們不可見。 2）提出了一個新的室內(nèi)定位數(shù)據(jù)集，INDOOR-6，相對于傳統(tǒng)的7-Scenes室內(nèi)數(shù)據(jù)集，包含更多變化的場景、晝夜圖像和強烈的照明變化 3）與現(xiàn)有的無存儲定位方法相比，具有低存儲的優(yōu)點且性能較好文章提出了兩種預測圖像中場景l(fā)andmark的方法，在第一種方法中訓練了一個模型來識別圖像中的2D場景地標，稱之為場景地標檢測器（SLD），由于假設(shè)已知的相機內(nèi)參，這些2D檢測可以轉(zhuǎn)換為3D方位矢量或射線。在第二種方法中訓練了一個不同的模型直接預測相機坐標系中l(wèi)andmark的3D方位向量，稱之為神經(jīng)方位估計器（NBE）。注：使用SLD，只能檢測到相機視場（FoV）中可見的landmark，而NBE預測所有l(wèi)andmark的方位，包括相機視場外不可見的landmark。

首先會有一個SFM構(gòu)建的點云模型，會在這些點云中挑選出有代表性的點云子集，用這些子集以及建圖時SFM算法生成的數(shù)據(jù)庫圖像的偽真值來訓練兩個提出的網(wǎng)絡(luò)模型。SLD：SLD被設(shè)計為將RGB圖像I作為輸入并輸出一組像素似然圖（熱圖）表示每個可見地標的位置，其模型架構(gòu)如下：

由四個主要組件組成：使用ResNet-18為backbone，刪除最后三個最大池化層以保留高分辨率特征圖（輸出分辨率為輸入圖像分辨率的四分之一），其次在ResNet-18之后使用擴張卷積塊，擴張率設(shè)置為1、2、3和4，接下來轉(zhuǎn)置卷積層執(zhí)行上采樣，并負責生成分辨率為輸入圖像一半的熱圖，最后一層由1×1卷積組成，預測L個熱圖通道，每個地標一個。訓練損失：

在推斷過程中，假設(shè)當其最大熱圖值超過閾值τ=0.2時表明檢測到地標，利用亞像素精度計算熱圖峰值位置處裁剪的17×17 patch的期望值。NBE：設(shè)計了一個模型在給定圖像I的情況下回歸全部場景l(fā)andmark（即使它不可見）的方位向量。 CNN將圖像I作為輸入以生成深度特征圖，然后是多個MLP（多層感知器）塊，每個塊輸出指向landmark的方向向量，MLP包含兩個全連接層，具有128個ReLU激活節(jié)點。

訓練好兩個模型后，將每個查詢圖像輸入SLD網(wǎng)絡(luò)以獲得2D檢測，然后根據(jù)內(nèi)參將其轉(zhuǎn)換為一組landmark方位向量B1，如果檢測到超過八個場景l(fā)andmark，使用魯棒最小解算器（P3P+RANSAC）計算相機姿態(tài)，然后使用基于Levenberg-Marquardt的非線性細化。如果沒有8個，將相同的圖像輸入NBE網(wǎng)絡(luò)并獲得預測方位B2，然后合并方位估計B1和B2的集合以形成新的集合B3，當集合B1和B2中的方位指向同一地標時，保留來自B1的估計，因為SLD通常比NBE更準確。最后使用上面描述的相同過程但使用B3計算相機姿態(tài)。如何從點云中選擇有代表性的場景l(fā)andmark提供給網(wǎng)絡(luò)進行訓練？從SfM點云P中找到L個場景l(fā)andmark的最佳子集是一個組合問題，其中評估每個子集都是困難的。本文受之前以貪婪的方式尋找有區(qū)別的關(guān)鍵點或場景元素工作的啟發(fā)，去選擇魯棒性（具有更長的軌跡）、可重復性（在多個場景中看到）和可概括性（從許多不同的觀看方向和深度觀察）的場景l(fā)andmark，測量軌跡長度大于閾值t的3D點x的顯著性得分A（x），如下所示：

除了最大化總體顯著性得分之外還尋找在空間上覆蓋3D場景的場景l(fā)andmark以便從場景內(nèi)的任何地方都可以看到一些地標，例如無論攝像機在場景中的哪個位置都希望一些地標可見。為此使用算法1中描述的約束貪婪方法

下圖表述一些挑選到的landmark在二維圖像中的投影的裁剪patch

實驗：訓練模型的細節(jié)可去論文中查看實驗數(shù)據(jù)集是在自己提出的INDOOR-6數(shù)據(jù)集和7Scenes數(shù)據(jù)集上

評估了單獨使用NBE, SLD,聯(lián)合使用NBE+SLD, NBE+SLD(E)（是更緊湊的網(wǎng)絡(luò)）,和SOTA的基于分層定位方法結(jié)合HLoc+SLD Baseline為Posenet、DSAC、HLoc 在INDOOR-6數(shù)據(jù)集上的結(jié)果：

存儲比較和消融研究：

7Scenes數(shù)據(jù)集上的實驗結(jié)果：

總結(jié)：算法是一種存儲要求低但精度高的方法。主要見解是在人和物體姿態(tài)估計中廣泛用于關(guān)鍵點檢測的現(xiàn)代CNN架構(gòu)也適用于檢測顯著的、場景特定的3D landmark。實驗結(jié)果表明，其方法優(yōu)于以前的無存儲方法，但不如HLoc（頂級檢索和匹配方法之一）準確，但是HLoc需要高存儲。而且基于landmark的2D–3D對應(yīng)關(guān)系補充了HLoc的對應(yīng)關(guān)系，并且在計算姿態(tài)之前結(jié)合這些對應(yīng)關(guān)系進一步提高了HLoc精度。局限性：首先神經(jīng)網(wǎng)絡(luò)是特定于場景的，像其他學習方法一樣每個場景需要許多訓練圖像，而且在使用之前需要仔細選擇場景l(fā)andmark集。

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
42

文章
4838

瀏覽量
107834
算法

算法

+關(guān)注

關(guān)注
23

文章
4784

瀏覽量
98086
cnn

cnn

+關(guān)注

關(guān)注
3

文章
355

瀏覽量
23429