亚洲国产精品一区二区www在线,玖玖AV,精品96久久久中文字幕

主要內容：

提出了第一種用于交叉視圖圖像地理定位的純Transformer方法，在對齊和未對齊的數據集上都實現了最先進的結果，與基于CNN的方法相比，計算成本更低，所提出的方法不依賴于極坐標變換和數據增強，具有通用性和靈活性。

論文出發點：

基于CNN的交叉視圖圖像地理定位主要依賴于極坐標變換，無法對全局相關性進行建模，為了解決這些限制，論文提出的算法利用Transformer在全局信息建模和顯式位置信息編碼方面的優勢，還進一步利用Transformer輸入的靈活性，提出了一種注意力引導的非均勻裁剪方法去除無信息的圖像塊，性能下降可以忽略不計，從而降低了計算成本，節省下來的計算可以重新分配來提高信息patch的分辨率，從而在不增加額外計算成本的情況下提高性能。

這種“關注并放大”策略與觀察圖像時的人類行為高度相似。

圖像地理定位（名詞解釋）：

基于圖像的地理定位旨在通過檢索GPS標記的參考數據庫中最相似的圖像來確定查詢圖像的位置，其應用在大城市環境中改善具有大的噪聲GPS和導航，在Transformer出現之前，通常使用度量學習損失來訓練雙通道CNN框架，但是這樣交叉視圖檢索系統在街道視圖和鳥瞰視圖之間存在很大的領域差距，因為CNN不能明確編碼每個視圖的位置信息，之后為了改善域間隙，算法在鳥瞰圖像上應用預定義的極坐標變換，變換后的航空圖像具有與街景查詢圖像相似的幾何布局，然而極坐標變換依賴于與兩個視圖相對應的幾何體的先驗知識，并且當街道查詢在空間上未在航空圖像的中心對齊時，極坐標轉換可能會失敗。

Contribution：

提出了第一種基于Transformer的方法用于交叉視圖圖像地理定位，無需依賴極坐標變換或數據增強。

提出了一種注意力引導的非均勻裁剪策略，去除參考航空圖像中的大量非信息補丁以減少計算量，性能下降可忽略不計，通過將省下來的計算資源重新分配到信息patch的更高圖像分辨率進一步提高了性能。

與基于CNN的方法相比，在數據集上的最先進性能具有更低的計算成本、GPU內存消耗和推理時間。

網絡架構：

Patch Embedding：

Class Token：

最后一層輸出的類token被送到一個MLP頭以生成最終的分類向量，使用最終輸出向量作為嵌入特征，并使用上面說的損失對其進行訓練。

可學習的位置嵌入：

位置嵌入被添加到每個token以保持位置信息，采用了可學習的位置嵌入，這是包括class token在內的所有（N+1）token的可學習矩陣，可學習的位置嵌入使雙通道Transformer能夠學習每個視圖的最佳位置編碼，而無需任何關于幾何對應的先驗知識，因此比基于CNN的方法更通用和靈活。

多頭注意力：

Transformer編碼器內部架構是L個級聯的基本Transformer，關鍵組成部分是多頭注意力塊，它首先使用三個可學習的線性投影將輸入轉換為查詢、鍵和值，表示為Q、K、V，維度為D，然后將注意力輸出計算為

，一個k-head注意力塊用k個不同的head對Q、k、V進行線性投影，然后對所有k個head并行執行attention，輸出被連接并投影回模型維度D，多頭注意力可以模擬從第一層開始的任意兩個標記之間的強全局相關性，這在CNN中是不可能學習的，因為卷積的接受域有限。

Attention引導的非均勻裁剪：

當尋找圖像匹配的線索時，人類通常會第一眼找到最重要的區域，然后只關注重要的區域并放大以找到高分辨率的更多細節，把“關注并放大”的思想用在交叉圖像地理定位中可能更有益，因為兩個視圖只共享少量可見區域，一個視圖中的大量區域，例如鳥瞰圖中的高樓屋頂，在另一個視圖可能看不見，這些區域對最終相似性的貢獻微不足道，可以去除這些區域以減少計算和存儲成本，然而重要的區域通常分散在圖像上，因此CNN中的均勻裁剪不能去除分散的區域，因此提出了注意力引導的非均勻裁剪