深圳嘉业精密五金有限公司,国产一区二区在线免费观看,久久人91午夜亚洲精品无码区

作者：Chu-Tak Li

編譯：ronghuaiyang

在網(wǎng)絡(luò)結(jié)構(gòu)中使用多種感受野，并對損失函數(shù)進(jìn)行了改進(jìn)。

今天我們要講的另一種修復(fù)論文叫做Image inpainting via Generative Multi-column CNNs (GMCNN)。本文使用的網(wǎng)絡(luò)架構(gòu)類似于我們之前介紹的那些論文。本文的主要貢獻(xiàn)是對損失函數(shù)進(jìn)行了若干修正。

回顧

正如我在以前的文章中提到的，如何利用圖像中其他像素所提供的信息，對提高圖像修復(fù)效果至關(guān)重要。圖像修復(fù)的一個(gè)非常直觀的意義是直接復(fù)制圖像本身中找到的最相似的圖像patch，并粘貼在缺失的區(qū)域。有趣的是，我們應(yīng)該意識到，在實(shí)踐中，對于缺失的區(qū)域沒有“正確”的答案。在現(xiàn)實(shí)中，給定一個(gè)損壞的/mask的圖像，你不可能知道原始圖像(ground truth)來進(jìn)行比較。所以，我們有這么多的答案來解決缺失的區(qū)域。

介紹和動(dòng)機(jī)

從以往的圖像修復(fù)論文中，我們了解到感受野野對圖像修復(fù)的重要性。對于3×3內(nèi)核，我們可以調(diào)整膨脹率來控制它的感受野。如果擴(kuò)張率為1，我們的感受野為3×3。如果膨脹率是2，通過跳過一個(gè)相鄰像素，我們有一個(gè)5×5感受野，以此類推。這里，如果我們使用帶有膨脹卷積的3×3、5×5和7×7內(nèi)核會(huì)怎么樣？這在本文中被定義為一個(gè)多列結(jié)構(gòu)

在之前的文章中，尋找和缺失區(qū)域最相似的圖像patch的過程是嵌入到生成網(wǎng)絡(luò)中的，在這個(gè)工作中，該過程只是用來設(shè)計(jì)一個(gè)新的損失項(xiàng)用于訓(xùn)練。

由于缺少的區(qū)域沒有“正確”的答案，像素級重建精度損失項(xiàng)(即L1損失)似乎不適用于圖像修復(fù)。作者提出了基于缺失像素的空間位置，對L1損失項(xiàng)進(jìn)行加權(quán)。靠近有效像素的空間位置對于L1的損失應(yīng)該有更高的權(quán)值，因?yàn)樗鼈儗χ貥?gòu)有更合理的參考，反之亦然。

方案和貢獻(xiàn)

圖1，給出了用該方法進(jìn)行修復(fù)的一些結(jié)果

在我看來，本文遵循了我們之前提到的圖像修復(fù)的趨勢。首先，作者采用了擴(kuò)展卷積的多分支CNN，而不是單一分支。三個(gè)不同的kernel大小被用于三個(gè)不同的分支，以實(shí)現(xiàn)不同的感受野和提取不同分辨率的特征。

其次，引入兩個(gè)新的損失項(xiàng)來訓(xùn)練網(wǎng)絡(luò)，分別是置信度驅(qū)動(dòng)的重建損失和隱多樣化馬爾可夫隨機(jī)場(ID-MRF)損失。置信度驅(qū)動(dòng)的重建損失是一個(gè)加權(quán)的L1損失，而ID-MRF損失與預(yù)訓(xùn)練的VGG網(wǎng)絡(luò)計(jì)算的特征patch比較有關(guān)。

圖1顯示了本文方法的一些修復(fù)結(jié)果。你可以放大以更好地查看這些高質(zhì)量的結(jié)果。

方法

圖2，提出的網(wǎng)絡(luò)架構(gòu)

圖2顯示了本文提出的生成式多列卷積神經(jīng)網(wǎng)絡(luò)(GMCNN)的網(wǎng)絡(luò)結(jié)構(gòu)。如你所見，有一個(gè)多列生成器網(wǎng)絡(luò)、兩個(gè)鑒別器(全局和局部)和一個(gè)用于計(jì)算ID-MRF損失的預(yù)訓(xùn)練VGG19。

生成網(wǎng)絡(luò)中有三列，每一列使用三種不同大小的過濾器，即3×3、5×5和7×7。、注意，這三列的輸出被連接到其他兩個(gè)卷積層以獲得完整的圖像。

ID-MRF正則化

圖3，使用不同的相似性度量來搜索修復(fù)結(jié)果的最近鄰居。(a)余弦相似度的修復(fù)結(jié)果(b)提出的相對相似度的修復(fù)結(jié)果(c) Ground truth圖像(紅色矩形突出填充區(qū)域)

簡單地說，對于MRF目標(biāo)，我們希望最小化生成的特征與通過預(yù)先訓(xùn)練的網(wǎng)絡(luò)計(jì)算出的ground truth中的最近鄰居特征之間的差異。在大多數(shù)以前的工作，余弦相似性測量被用來尋找最近的鄰居。然而，這種相似性度量通常對不同生成的特征塊給出相同的最近鄰，導(dǎo)致修復(fù)結(jié)果模糊，如圖3(a)所示。

為了避免使用余弦相似度度量可能導(dǎo)致完成圖像模糊，我們采用了相對距離度量，修復(fù)結(jié)果如圖3(b)所示。你可以看到，完成的圖像有更好的局部精細(xì)紋理。

我們來談?wù)勊鼈兪侨绾芜M(jìn)行相對距離測量的。Y(hat)_g為缺失區(qū)域生成的內(nèi)容，Y(hat)^L_g 和 Y^L 為預(yù)訓(xùn)練網(wǎng)絡(luò)的第L層特征。對分別從Y(hat)^L_g 和 Y^L中提取的v和s特征塊，計(jì)算v與s的相對相似度：

mu(. , .)是余弦相似度。r屬于Y^L， v除外。h和 epsilon是正的常數(shù)。顯然，如果v比其他特性patch更類似于s，那么RS(v， s)就會(huì)很大。你也可以考慮，如果v有兩個(gè)類似的patchs和r，那么RS(v， s)就會(huì)很小。我們鼓勵(lì)在缺失區(qū)域之外尋找類似的patches。

最后，計(jì)算了在Y(hat)^L_g 和 Y^L 之間的ID-MRF損耗。

其中參數(shù)max RS(bar)(v， s)表示s是v最近的鄰居，Z是一個(gè)歸一化因子。如果考慮所有生成的特征patch都接近于某一特征patch s的極端情況，則max RS(bar) (v， r)較小，因此ID-MRF損失較大。

另一方面，如果Y^L 中的每個(gè)r都有自己的最近鄰居Y(hat)^L_g，則max RS(bar) (v， r)很大，因而ID-MRF損失較小。這里，主要思想是強(qiáng)制/引導(dǎo)生成的特征patch有不同的最近鄰居，從而生成的feature具有更好的局部紋理。

與先前的工作一樣，作者使用預(yù)先訓(xùn)練的VGG19來計(jì)算ID-MRF損失。請注意，中間層conv3_2和conv4_2分別表示結(jié)構(gòu)特征和語義特征。

作者聲稱這種損失與最近鄰搜索有關(guān)，并且只在訓(xùn)練階段使用。這與在測試階段搜索最近鄰居的方法不同。

特征不變重建損失

所提出的空間變異重構(gòu)損失實(shí)際上是一個(gè)加權(quán)的L1損失。確定權(quán)值的方法有很多種，本文利用高斯濾波器對掩模進(jìn)行卷積，生成加權(quán)掩模，計(jì)算加權(quán)L1損耗。加權(quán)L1損失的主要思想是，接近有效像素的像素?fù)p失比遠(yuǎn)離有效像素的像素?fù)p失受到更高的約束。因此，位于缺失區(qū)域中心的像素?fù)p失應(yīng)該有更低的L1損失權(quán)值(即更少的約束)。

對抗損失

與先前的工作類似，作者采用了改進(jìn)的WGAN損失和局部和全局鑒別器。

最終的損失函數(shù)

這是用于訓(xùn)練所提模型的最終的損失函數(shù)。與大多數(shù)修復(fù)論文相似，加權(quán)L1損失(第一損失項(xiàng))的重要性為1。Lambda_mrf和Lambda_adv是控制局部紋理mrf正則化和對抗訓(xùn)練重要性的參數(shù)。

實(shí)驗(yàn)

作者在5個(gè)公共數(shù)據(jù)集上評估了他們的方法，即Paris StreetView, Places2, ImageNet, CelebA和CelebA- hq數(shù)據(jù)集。在他們的訓(xùn)練期間，所有的圖像都被調(diào)整為256×256，最大的中心孔的大小128×128。在GPU上測試256×256和512×512大小的圖像，每個(gè)圖像大約需要49.37 ms和146.11 ms。

圖4，定性比較巴黎街景(上)和ImageNet(下)。(a)輸入圖像(b)上下文編碼器(c) MSNPS (d)上下文注意(e)提出的方法。

圖4顯示了Paris StreetView和ImageNet數(shù)據(jù)集的定性比較。請放大以更清楚地看到修復(fù)結(jié)果。很明顯，本文提出的方法GMCNN給出了具有最佳視覺質(zhì)量的修復(fù)結(jié)果。

表1，五個(gè)數(shù)據(jù)集的定量結(jié)果

正如我在之前的文章和本文開頭提到的，PSNR與像素級重建精度有關(guān)，這可能不適用于評估圖像修復(fù)。研究人員仍然報(bào)告PSNR和SSIM供讀者參考，因?yàn)檫@些數(shù)值指標(biāo)是所有圖像處理任務(wù)的基礎(chǔ)。如表1所示，本文提出的方法在五個(gè)數(shù)據(jù)集上獲得了相當(dāng)甚至更好的PSNR和SSIM。

消融研究

表2，巴黎街景數(shù)據(jù)集上不同網(wǎng)絡(luò)結(jié)構(gòu)的定量結(jié)果

圖5，對巴黎街景數(shù)據(jù)集上不同網(wǎng)絡(luò)結(jié)構(gòu)的定性比較。(a)輸入圖像(b)單個(gè)編碼器-解碼器(c)粗到細(xì)(d) 3個(gè)分支中感受野固定的GMCNN (e)感受野不同的GMCNN

對不同網(wǎng)絡(luò)結(jié)構(gòu)在圖像修復(fù)中的性能進(jìn)行了評價(jià)。在他們的實(shí)驗(yàn)中，對于從粗到細(xì)的結(jié)構(gòu)，沒有使用上下文注意力。對于三個(gè)分支中感受野固定的GMCNN，采用大小為5×5的過濾器。對于具有不同感受野的GMCNN，三個(gè)分支分別使用了3×3、5×5和7×7的kernel。定量和定性結(jié)果分別見表2和圖5。顯然，具有不同感受野的GMCNN提供了最好的修復(fù)效果。

除了網(wǎng)絡(luò)結(jié)構(gòu)的選擇和多重感受野的使用，作者還研究了兩個(gè)提出的損失項(xiàng)的有效性，即信心驅(qū)動(dòng)重建損失和ID-MRF損失。

圖6，對Paris StreetView數(shù)據(jù)集上不同重建損失的定性比較。(a)輸入圖像(b)空間折現(xiàn)損失(c)提出的置信驅(qū)動(dòng)重建損失

圖6顯示了不同重建損失的視覺對比，即空間折現(xiàn)損失和提出的置信度驅(qū)動(dòng)重建損失。請注意，空間折現(xiàn)損失根據(jù)像素的空間位置獲得權(quán)重掩碼，而提出的置信驅(qū)動(dòng)重建損失通過將掩碼圖像與高斯濾波器進(jìn)行多次卷積獲得權(quán)重掩碼。兩位作者聲稱，由置信度驅(qū)動(dòng)的重建損失效果更好。從我自己的經(jīng)驗(yàn)來看，這兩種重建損失是相似的。也許你可以試一試。

表3，在Paris StreetView數(shù)據(jù)集上使用不同的lambda_mrf的定量結(jié)果

圖7，在Paris StreetView數(shù)據(jù)集上使用ID-MRF損失與否的定性比較 (a) 輸入圖像(b)使用ID-MRF損失的修復(fù)結(jié)果(c)沒有使用ID-MRF損失的修復(fù)結(jié)果

圖8，在Paris StreetView數(shù)據(jù)集上使用ID-MRF loss與不同的lambda_mrf進(jìn)行定性比較。(a) Input image (b) lambda_mrf = 2 (c) lambda_mrf = 0.2 (d) lambda_mrf = 0.02 (e) lambda_mrf = 0.002

更重要的是，ID-MRF損失項(xiàng)是本文最強(qiáng)調(diào)的。因此，作者表明了這一失項(xiàng)的重要性，定量結(jié)果列在表3中。圖7顯示了使用ID-MRF損失和不使用ID-MRF損失訓(xùn)練的模型之間的區(qū)別。我們可以看到，使用ID-MRF可以增強(qiáng)生成像素的局部細(xì)節(jié)。此外，圖8顯示了使用不同的lambda_mrf來控制ID-MRF損失的重要性的效果。你可以放大以便更好地查看結(jié)果。我個(gè)人認(rèn)為，修復(fù)的結(jié)果是相似的。從表3可以看出，lambda_mrf = 0.02提供了PSNR和視覺質(zhì)量之間的良好平衡。

總結(jié)

綜上所述，本文的創(chuàng)新之處在于使用ID-MRF損失項(xiàng)來進(jìn)一步增強(qiáng)生成內(nèi)容的局部細(xì)節(jié)。這種損失的主要思想是引導(dǎo)生成的特征patch在缺失區(qū)域之外尋找最近的鄰居作為參考，并且最近的鄰居應(yīng)該是多樣化的，這樣可以模擬更多的局部細(xì)節(jié)。

多重感受野(多列或多分支)的使用是由于感受野的大小對圖像修復(fù)任務(wù)很重要。由于局部相鄰像素缺失，我們必須借用遙遠(yuǎn)空間位置的信息來填補(bǔ)缺失的像素。如果你看過我之前的文章，我想這個(gè)想法對你來說并不難理解。

使用加權(quán)L1損失也是由于缺少區(qū)域沒有“正確”答案的事實(shí)。對于那些更接近缺失區(qū)域邊界的缺失像素，它們相對受到接近有效像素的約束，因此需要對L1的損失賦予更高的權(quán)值。另一方面，對于位于缺失區(qū)域中心的缺失像素，它們的L1約束應(yīng)該更小。

要點(diǎn)

參考我在上面的結(jié)論，我希望你能理解提出的ID-MRF損失的意義，因?yàn)檫@是本文的核心思想。對于本文的其他兩個(gè)思路，即多列結(jié)構(gòu)和加權(quán)L1損失。事實(shí)上，如果你關(guān)注過我之前的文章，我認(rèn)為你可以很好地理解背后的原因。我認(rèn)為多重/多種感受野的概念是深層語義修復(fù)的常見做法。

對于加權(quán)的L1損失，從我個(gè)人的經(jīng)驗(yàn)來看，我不認(rèn)為它會(huì)對修復(fù)性能帶來明顯的改善。當(dāng)然，實(shí)現(xiàn)加權(quán)L1損失的方法有很多。如果你對此感興趣，可以試一試。

英文原文：https://towardsdatascience.com/what-if-multiple-receptive-fields-are-used-for-image-inpainting-ea44003ea7e9

編輯：jq

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

圖像

圖像

+關(guān)注

關(guān)注
2

文章
1096

瀏覽量
42344
網(wǎng)絡(luò)

網(wǎng)絡(luò)

+關(guān)注

關(guān)注
14

文章
8276

瀏覽量
94928
卷積

卷積

+關(guān)注

關(guān)注
0

文章
95

瀏覽量
19012
cnn

cnn

+關(guān)注

關(guān)注
3

文章
355

瀏覽量
23432

搜索歷史

在圖像恢復(fù)中使用多個(gè)感受野會(huì)是什么效果？

評論