99久久国产精品永久免费,国产一区二区三区在线播放,国产伦理自拍

使用生成對抗網絡（GAN）進行圖像超分辨率（SR）已經在恢復逼真細節(jié)方面取得了巨大成功。然而，眾所周知，基于 GAN 的 SR 模型會產生令人難以接受的偽影，特別是在實際場景中。以往的研究通常在訓練階段通過額外的損失懲罰來抑制瑕疵，但這些方法只適用于訓練過程中生成的同分布下的瑕疵類型。

而當這些方法應用于真實世界場景中時，我們觀察到這些方法在推理過程中仍然會產生明顯的瑕疵。針對此，來自騰訊 ARC Lab，XPixel 團隊和澳門大學的研究者們提出了 DeSRA 的新方法并發(fā)表論文。它能夠對在推理階段中產生的超分瑕疵進行檢測并消除。該論文被 ICML 2023 所接收。

論文鏈接：https://arxiv.org/abs/2307.02457
代碼鏈接：https://github.com/TencentARC/DeSRA

“GAN 訓練時出現(xiàn)的瑕疵” 與 “GAN 推理時出現(xiàn)的瑕疵” 基于 GAN 的方法在生成帶有紋理的逼真復原結果方面取得了巨大成功。BSRGAN [1] 和 Real-ESRGAN [2] 將基于 GAN 的模型擴展到了真實場景應用，展示了它們恢復真實世界圖像紋理的能力。然而， GAN-SR 方法經常會生成令人視覺上難以接受的偽影，嚴重影響用戶體驗。這個問題在真實世界場景中更加嚴重，因為低分辨率圖像的退化是未知且復雜的。

第一列：低清輸入；第二列：現(xiàn)有超分方法引起瑕疵；第三列：DeSRA 檢測出瑕疵區(qū)域；第四列：DeSRA 去除瑕疵

為了緩解瑕疵的生成，LDL [3] 通過分析紋理類型，計算每個像素是瑕疵的概率，并在訓練過程中通過增加損失進而對瑕疵進行抑制。雖然它確實改善了 GAN-SR 的結果，但我們仍然可以觀察到 LDL 在推理真實世界測試數據時會存在明顯瑕疵，如上圖所示。因此，僅僅通過改善模型的訓練很難解決這些瑕疵問題，因為這些瑕疵在 GAN-SR 模型的訓練過程中可能并不出現(xiàn)。這里我們區(qū)分一下 GAN 訓練出現(xiàn)的瑕疵和測試出現(xiàn)的瑕疵：

GAN 訓練出現(xiàn)的瑕疵（GAN-training artifacts）：出現(xiàn)在訓練階段，主要是由于訓練時網絡優(yōu)化的不穩(wěn)定和在同分布數據上的 SR 的 ill-pose 導致。在有干凈的高清圖像存在的情況下，可以在訓練過程中對這些瑕疵加以約束，進而緩解瑕疵的生成，如 LDL [3]。
GAN 推理出現(xiàn)的瑕疵（GAN-inference artifacts）：出現(xiàn)在推理階段，這些偽影通常是在真實世界未見過的數據中出現(xiàn)的。這些瑕疵通常不在訓練數據的分布中，并不會在訓練階段出現(xiàn)。因此，通過改善訓練過程的方法（例如 LDL [3]）無法解決這些瑕疵問題。

處理 GAN 推理時產生的瑕疵是一項新的、具有挑戰(zhàn)性的任務。首先真實場景的低分辨率圖片沒有對應的高清圖片。此外，由于這些偽影在訓練集中可能很少甚至從未出現(xiàn)過，因此很難模擬這些瑕疵。換句話說，這些瑕疵對于模型來說是未知的，而且超出了其訓練數據的分布范圍。解決這個問題是將 GAN-SR 模型應用于實際場景的關鍵，具有重要的實用價值。 檢測 GAN 推理時出現(xiàn)的瑕疵

?在本文中，研究團隊專注于處理 GAN 推理時產生的瑕疵。這些瑕疵對實際的應用有很大的負面影響，因此解決它們具有很大的實際價值。由于這些瑕疵的復雜性和多樣性，一次性解決所有瑕疵是具有挑戰(zhàn)性的。本文主要處理有著以下兩個特征的瑕疵：

這些瑕疵不會出現(xiàn)在預訓練的 MSE-SR 模型中。
這些瑕疵很明顯且面積較大，能夠很容易被人眼捕捉到。上圖展示了一些包含這些瑕疵的樣例。

對于前一特征，研究團隊希望確保瑕疵是由 GAN 引起的，而相應的 MSE-SR 結果對于測試數據是良好的參考結果，從而區(qū)分瑕疵。其原理在于，GAN 瑕疵的呈現(xiàn)通常是有著過多不需要的高頻 “細節(jié)”。換句話說，研究團隊引入 GAN 訓練來生成精細的細節(jié)，但他們不希望 GAN 生成的內容與 MSE-SR 的結果相差太大。注意，即使對于沒有見過的真實場景的測試數據，MSE-SR 結果也很容易獲得，因為我們通常是基于 MSE-SR 模型進行微調以獲得 GAN-SR 模型。對于后一特征，之所以優(yōu)化考慮那些明顯且占據較大區(qū)域的瑕疵，是因為這種類型的瑕疵對人的感知有很大影響。具體的，研究團隊首先設計了一個定量指標，通過計算局部方差來衡量 MSE-based 和 GAN-based 模型生成結果之間的紋理差異。該指標總共包含著以下幾個部分。

局部紋理復雜性：局部區(qū)域 P 內像素強度的標準差 σ(i, j) 來表示局部紋理

絕對紋理差異 d：兩個局部區(qū)域的標準差（x 表示 GAN-SR 區(qū)域，y 表示 MSE-SR 區(qū)域）

相對紋理差異 d’：

歸一化到 [0, 1]:

引入一個常數 C：處理分母相對較小的情況

?在獲得紋理差異圖 D 后，可以利用它來確定需要處理的區(qū)域。然而，僅僅使用紋理復雜度的差異作為判斷依據是不夠的，因為不同語義區(qū)域的感知容忍度是不同的。例如，復雜紋理區(qū)域中的細節(jié)，如植被、頭發(fā)等，很難被感知為瑕疵，而平滑或規(guī)則紋理區(qū)域中的像素差異較大，例如海洋、天空和建筑物，對人類感知敏感，容易被看作瑕疵。因此，研究團隊我根據語義信息對偽影圖 D 進行了進一步的調整，得到

，下圖的第六列。

最后，研究團隊通過形態(tài)學操作來獲得最終的瑕疵檢測結果，即下圖的第七列。具體來說，他們首先使用一個 5×5 全為 1 的矩陣進行腐蝕操作。然后，使用該矩陣進行膨脹操作以連接不連續(xù)的區(qū)域。接下來，使用一個 3×3 全為 1 的矩陣來填充地圖中的空洞。最后，過濾掉離散的小區(qū)域作為檢測噪聲。 去除 GAN 推理時出現(xiàn)的瑕疵 對復原結果中瑕疵的檢測本身具有很大的實際價值。基于該結果，研究團隊希望進一步改進 GAN-SR 模型。考慮到對于實際應用而言，有著明顯的瑕疵往往是用戶無法容忍的，而沒有瑕疵的弱恢復結果（細節(jié)少一點）比帶有瑕疵的強恢復結果更可接受。因此，他們利用 MSE-SR 結果作為模型輸出的參考。如下圖所示，研究團隊使用 MSE-SR 結果替換在 GAN-SR 結果中檢測到瑕疵的區(qū)域。合并的圖像用作偽高清圖片（偽 GT）。

?其中

表示生成的偽 GT，

和

分別是 MSE-SR 和 GAN-SR 結果，(?) 表示逐元素相乘，M 是檢測到的偽影地圖。然后，研究團隊使用少量數據從真實數據中生成數據對（x，

）來微調模型，其中 x 表示 LR 數據。只需要進行少量迭代的微調（在本次實驗中大約 1K 次迭代就足夠了），更新后的模型將產生視覺感知良好且沒有明顯瑕疵的結果。此外，它不會影響沒有瑕疵的區(qū)域中的細節(jié)。這種方法的工作機制是通過微調過程將合成數據的分布與實際數據的分布之間的差距縮小，從而減輕 GAN-inference 中的瑕疵問題。

?實驗評估與分析 研究團隊使用 Real-ESRGAN [2]，LDL [3] 以及 SwinIR [4] 來驗證他們的方法的有效性。考慮到現(xiàn)有的幾個真實世界的超分辨率數據集都假設了特定相機的退化情況，導致會與實際情況相差甚遠。因此，他們構建了一個人工標注的瑕疵數據集。考慮到圖像內容和退化的多樣性，他們使用 ImageNet 1K 的驗證集作為真實世界的低分辨率數據。然后，選擇每種方法中有 200 張有 GAN-inference 瑕疵的圖像來構建瑕疵數據集，并使用 labelme 手動標記瑕疵區(qū)域。這是首個用于 GAN-inference 瑕疵檢測的數據集。對于微調過程，他們對 200 張圖片進行劃分，其中 50 張用于模型的微調，另外 150 張作為驗證集。 評估指標

由于缺乏真實世界低分辨率數據的高清參考圖片，經典指標如 PSNR、SSIM 無法采用。因此，研究團隊考慮三個指標來評估檢測結果，包括 1) 檢測到的瑕疵區(qū)域與實際的（人工標注的）瑕疵區(qū)域之間的交并比（IoU），2) 檢測結果的精確度和 3) 檢測結果的召回率。當用 A 和 B 表示特定區(qū)域 z 的檢測到的瑕疵區(qū)域和實際的瑕疵區(qū)域時，IoU 定義為：

計算每個圖像的 IoU，并使用驗證集上的平均 IoU 來評估檢測算法。較高的 IoU 意味著更好的檢測準確性。然后，我們將檢測到的瑕疵區(qū)域集合定義為 S，正確樣本集合 T 定義為：

精確度 =

表示正確檢測的區(qū)域數（

）占總檢測到的區(qū)域數（

）的比例。

研究團隊將實際的瑕疵區(qū)域定義為 G，并通過以下方式計算檢測到的 GT 瑕疵區(qū)域集合 R：

?召回率 =

表示正確檢測到的 GT 瑕疵區(qū)域數（

）占總 GT 瑕疵區(qū)域數（

）的比例。其中，p 是一個閾值，研究團隊根據經驗將其設置為 0.5。

瑕疵檢測結果 如下表所示，針對 LDL 模型中的瑕疵檢測結果中，本文方法獲得了最好的 IoU 和 Precision，遠遠超過其他方案。需要注意的是，LDL 在 threshold=0.001 時獲得了最高的召回率。這是因為該方案將大部分區(qū)域視為瑕疵，因此這種檢測結果幾乎沒有意義。Real-ESRGAN 和 SwinIR 的結果可以參考原文。

?研究團隊同時對比了使用 DeSRA 微調策略之前和之后的瑕疵檢測結果，結果如下表所示，當應用他們的 DeSRA 之后，Real-ESRGAN 的 IoU 從 51.1 降至 12.9，LDL 的 IoU 從 44.5 降至 13.9，說明瑕疵區(qū)域的檢測面積大大減少。去除率分別為 75.43% 和 74.97%，表明在微調之后，測試數據中四分之三的瑕疵可以完全消除。此外，他們的方法沒有引入額外瑕疵，添加率為 0。本文在下圖中提供了使用與未使用該文方法改進 GAN-SR 模型的結果的視覺比較。與原始的模型結果相比，改進的 GAN-SR 模型生成的結果在視覺質量上更好，沒有明顯的 GAN-SR 瑕疵。所有這些實驗結果證明了本文方法能有效的緩解模型在處理真實的低清圖片時會出現(xiàn)的瑕疵。

? ? ?User Study

?為了進一步驗證本文 DeSRA 微調策略的有效性，研究團隊進行了兩項用戶研究。第一項是比較原始 GAN-SR 模型和微調后的 GAN-SR 模型生成的結果。對于這個實驗，比較的重心是圖片中是否存在明顯的偽影。研究團隊產生了共 20 組圖像，每組包含 GAN-SR 模型和微調后的 GAN-SR 模型的輸出結果。這些圖像被隨機打亂。共有 15 人參與了用戶研究，并為每組選擇他們認為偽影較少的圖像。最終的統(tǒng)計結果如圖 9 所示。82.23% 的參與者認為微調后的 GAN-SR 模型生成的結果較少存在偽影。可以看出，本文方法在很大程度上消除了原始模型產生的瑕疵。第二項是對微調的 GAN-SR 模型和原始的 MSE-SR 模型結果的比較。這個實驗是為了比較模型生成的結果是否有更多的細節(jié)。研究團隊總共產生了 20 組圖像，每組圖像包含了 MSE-SR 模型和微調的 GAN-SR 模型的輸出結果。這些圖像被隨機打亂。總共有 15 個人參加用戶研究，并為每組選擇他們認為有更多細節(jié)的圖像。最終的統(tǒng)計結果如圖 9 所示。93% 的參與者認為微調的 GAN-SR 模型生成的結果有著更多的細節(jié)。可以看出，微調的 GAN-SR 模型仍然比 MSE-SR 模型能夠生成更多的細節(jié)。結論在這項工作中，研究團隊分析了 GAN 在推理階段引入的瑕疵，并提出了方法來檢測和消除這些瑕疵。具體而言，他們首先計算了 MSE-SR 和 GAN-SR 的相對局部方差，并進一步結合語義信息來定位有瑕疵的區(qū)域。在檢測到存在瑕疵的區(qū)域后，他們使用基于 MSE 的結果作為偽高清圖片來微調模型。通過僅使用少量數據，微調的模型可以成功消除原始模型在推理過程中的瑕疵。實驗結果顯示了他們的方法在檢測和去除瑕疵方面的優(yōu)越性，并且顯著提高了 GAN-SR 模型在實際應用中的能力。 在線持續(xù)學習 本文方法可以與持續(xù)學習相結合，從而提供一個新的范式來解決在線推理階段中出現(xiàn)的瑕疵問題。例如，對于處理真實世界數據的在線超分辨率系統(tǒng)，可以使用研究團隊的檢測流程來檢測復原的結果是否具有 GAN-inference 瑕疵。然后，他們可以使用檢測到的帶有瑕疵的圖像快速對超分辨率模型進行微調，使其能夠處理類似的瑕疵，直到系統(tǒng)遇到新的 GAN-inference 瑕疵。持續(xù)學習已經在高層視覺任務上得到廣泛研究，但尚未應用于超分辨率。研究團隊希望在未來研究這個問題，因為它可以極大地推進 GAN-SR 方法在實際場景中的應用。

原文標題：檢測并消除瑕疵，DeSRA讓真實場景超分中的GAN更加完美

文章出處：【微信公眾號：智能感知與物聯(lián)網技術研究所】歡迎添加關注！文章轉載請注明出處。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴