使用生成對抗網絡(GAN)進行圖像超分辨率(SR)已經在恢復逼真細節(jié)方面取得了巨大成功。然而,眾所周知,基于 GAN 的 SR 模型會產生令人難以接受的偽影,特別是在實際場景中。以往的研究通常在訓練階段通過額外的損失懲罰來抑制瑕疵,但這些方法只適用于訓練過程中生成的同分布下的瑕疵類型。而當這些方法應用于真實世界場景中時,我們觀察到這些方法在推理過程中仍然會產生明顯的瑕疵。針對此,來自騰訊 ARC Lab,XPixel 團隊和澳門大學的研究者們提出了 DeSRA 的新方法并發(fā)表論文。它能夠對在推理階段中產生的超分瑕疵進行檢測并消除。該論文被 ICML 2023 所接收。
?- 論文鏈接:https://arxiv.org/abs/2307.02457
- 代碼鏈接:https://github.com/TencentARC/DeSRA

第一列:低清輸入;第二列:現(xiàn)有超分方法引起瑕疵;第三列:DeSRA 檢測出瑕疵區(qū)域;第四列:DeSRA 去除瑕疵
為了緩解瑕疵的生成,LDL [3] 通過分析紋理類型,計算每個像素是瑕疵的概率,并在訓練過程中通過增加損失進而對瑕疵進行抑制。雖然它確實改善了 GAN-SR 的結果,但我們仍然可以觀察到 LDL 在推理真實世界測試數據時會存在明顯瑕疵,如上圖所示。因此,僅僅通過改善模型的訓練很難解決這些瑕疵問題,因為這些瑕疵在 GAN-SR 模型的訓練過程中可能并不出現(xiàn)。 這里我們區(qū)分一下 GAN 訓練出現(xiàn)的瑕疵和測試出現(xiàn)的瑕疵:
- GAN 訓練出現(xiàn)的瑕疵(GAN-training artifacts):出現(xiàn)在訓練階段,主要是由于訓練時網絡優(yōu)化的不穩(wěn)定和在同分布數據上的 SR 的 ill-pose 導致。在有干凈的高清圖像存在的情況下,可以在訓練過程中對這些瑕疵加以約束,進而緩解瑕疵的生成,如 LDL [3]。
- GAN 推理出現(xiàn)的瑕疵(GAN-inference artifacts):出現(xiàn)在推理階段,這些偽影通常是在真實世界未見過的數據中出現(xiàn)的。這些瑕疵通常不在訓練數據的分布中,并不會在訓練階段出現(xiàn)。因此,通過改善訓練過程的方法(例如 LDL [3])無法解決這些瑕疵問題。
?在本文中,研究團隊專注于處理 GAN 推理時產生的瑕疵。這些瑕疵對實際的應用有很大的負面影響,因此解決它們具有很大的實際價值。由于這些瑕疵的復雜性和多樣性,一次性解決所有瑕疵是具有挑戰(zhàn)性的。
本文主要處理有著以下兩個特征的瑕疵:
- 這些瑕疵不會出現(xiàn)在預訓練的 MSE-SR 模型中。
- 這些瑕疵很明顯且面積較大,能夠很容易被人眼捕捉到。上圖展示了一些包含這些瑕疵的樣例。
- 局部紋理復雜性:局部區(qū)域 P 內像素強度的標準差 σ(i, j) 來表示局部紋理
?- 絕對紋理差異 d:兩個局部區(qū)域的標準差(x 表示 GAN-SR 區(qū)域,y 表示 MSE-SR 區(qū)域)
?- 相對紋理差異 d’:

- 歸一化到 [0, 1]:
?- 引入一個常數 C:處理分母相對較小的情況
?在獲得紋理差異圖 D 后,可以利用它來確定需要處理的區(qū)域。然而,僅僅使用紋理復雜度的差異作為判斷依據是不夠的,因為不同語義區(qū)域的感知容忍度是不同的。例如,復雜紋理區(qū)域中的細節(jié),如植被、頭發(fā)等,很難被感知為瑕疵,而平滑或規(guī)則紋理區(qū)域中的像素差異較大,例如海洋、天空和建筑物,對人類感知敏感,容易被看作瑕疵。因此,研究團隊我根據語義信息對偽影圖 D 進行了進一步的調整,得到
,下圖的第六列。
最后,研究團隊通過形態(tài)學操作來獲得最終的瑕疵檢測結果,即下圖的第七列。具體來說,他們首先使用一個 5×5 全為 1 的矩陣進行腐蝕操作。然后,使用該矩陣進行膨脹操作以連接不連續(xù)的區(qū)域。接下來,使用一個 3×3 全為 1 的矩陣來填充地圖中的空洞。最后,過濾掉離散的小區(qū)域作為檢測噪聲。
去除 GAN 推理時出現(xiàn)的瑕疵
對復原結果中瑕疵的檢測本身具有很大的實際價值。基于該結果,研究團隊希望進一步改進 GAN-SR 模型。考慮到對于實際應用而言,有著明顯的瑕疵往往是用戶無法容忍的,而沒有瑕疵的弱恢復結果(細節(jié)少一點)比帶有瑕疵的強恢復結果更可接受。因此,他們利用 MSE-SR 結果作為模型輸出的參考。如下圖所示,研究團隊使用 MSE-SR 結果替換在 GAN-SR 結果中檢測到瑕疵的區(qū)域。合并的圖像用作偽高清圖片(偽 GT)。
?其中
表示生成的偽 GT,
和
分別是 MSE-SR 和 GAN-SR 結果,(?) 表示逐元素相乘,M 是檢測到的偽影地圖。然后,研究團隊使用少量數據從真實數據中生成數據對(x,
)來微調模型,其中 x 表示 LR 數據。只需要進行少量迭代的微調(在本次實驗中大約 1K 次迭代就足夠了),更新后的模型將產生視覺感知良好且沒有明顯瑕疵的結果。此外,它不會影響沒有瑕疵的區(qū)域中的細節(jié)。這種方法的工作機制是通過微調過程將合成數據的分布與實際數據的分布之間的差距縮小,從而減輕 GAN-inference 中的瑕疵問題。
?實驗評估與分析
研究團隊使用 Real-ESRGAN [2],LDL [3] 以及 SwinIR [4] 來驗證他們的方法的有效性。考慮到現(xiàn)有的幾個真實世界的超分辨率數據集都假設了特定相機的退化情況,導致會與實際情況相差甚遠。因此,他們構建了一個人工標注的瑕疵數據集。考慮到圖像內容和退化的多樣性,他們使用 ImageNet 1K 的驗證集作為真實世界的低分辨率數據。然后,選擇每種方法中有 200 張有 GAN-inference 瑕疵的圖像來構建瑕疵數據集,并使用 labelme 手動標記瑕疵區(qū)域。這是首個用于 GAN-inference 瑕疵檢測的數據集。對于微調過程,他們對 200 張圖片進行劃分,其中 50 張用于模型的微調,另外 150 張作為驗證集。
評估指標
由于缺乏真實世界低分辨率數據的高清參考圖片,經典指標如 PSNR、SSIM 無法采用。因此,研究團隊考慮三個指標來評估檢測結果,包括 1) 檢測到的瑕疵區(qū)域與實際的(人工標注的)瑕疵區(qū)域之間的交并比(IoU),2) 檢測結果的精確度和 3) 檢測結果的召回率。當用 A 和 B 表示特定區(qū)域 z 的檢測到的瑕疵區(qū)域和實際的瑕疵區(qū)域時,IoU 定義為:

計算每個圖像的 IoU,并使用驗證集上的平均 IoU 來評估檢測算法。較高的 IoU 意味著更好的檢測準確性。然后,我們將檢測到的瑕疵區(qū)域集合定義為 S,正確樣本集合 T 定義為:

精確度 =
表示正確檢測的區(qū)域數(
)占總檢測到的區(qū)域數(
)的比例。研究團隊將實際的瑕疵區(qū)域定義為 G,并通過以下方式計算檢測到的 GT 瑕疵區(qū)域集合 R:
?召回率 =
表示正確檢測到的 GT 瑕疵區(qū)域數(
)占總 GT 瑕疵區(qū)域數(
)的比例。其中,p 是一個閾值,研究團隊根據經驗將其設置為 0.5。瑕疵檢測結果 如下表所示,針對 LDL 模型中的瑕疵檢測結果中,本文方法獲得了最好的 IoU 和 Precision,遠遠超過其他方案。需要注意的是,LDL 在 threshold=0.001 時獲得了最高的召回率。這是因為該方案將大部分區(qū)域視為瑕疵,因此這種檢測結果幾乎沒有意義。Real-ESRGAN 和 SwinIR 的結果可以參考原文。
?研究團隊同時對比了使用 DeSRA 微調策略之前和之后的瑕疵檢測結果,結果如下表所示,當應用他們的 DeSRA 之后,Real-ESRGAN 的 IoU 從 51.1 降至 12.9,LDL 的 IoU 從 44.5 降至 13.9,說明瑕疵區(qū)域的檢測面積大大減少。去除率分別為 75.43% 和 74.97%,表明在微調之后,測試數據中四分之三的瑕疵可以完全消除。此外,他們的方法沒有引入額外瑕疵,添加率為 0。
本文在下圖中提供了使用與未使用該文方法改進 GAN-SR 模型的結果的視覺比較。與原始的模型結果相比,改進的 GAN-SR 模型生成的結果在視覺質量上更好,沒有明顯的 GAN-SR 瑕疵。所有這些實驗結果證明了本文方法能有效的緩解模型在處理真實的低清圖片時會出現(xiàn)的瑕疵。
?
?
?User Study
?為了進一步驗證本文 DeSRA 微調策略的有效性,研究團隊進行了兩項用戶研究。第一項是比較原始 GAN-SR 模型和微調后的 GAN-SR 模型生成的結果。對于這個實驗,比較的重心是圖片中是否存在明顯的偽影。研究團隊產生了共 20 組圖像,每組包含 GAN-SR 模型和微調后的 GAN-SR 模型的輸出結果。這些圖像被隨機打亂。共有 15 人參與了用戶研究,并為每組選擇他們認為偽影較少的圖像。最終的統(tǒng)計結果如圖 9 所示。82.23% 的參與者認為微調后的 GAN-SR 模型生成的結果較少存在偽影。可以看出,本文方法在很大程度上消除了原始模型產生的瑕疵。
第二項是對微調的 GAN-SR 模型和原始的 MSE-SR 模型結果的比較。這個實驗是為了比較模型生成的結果是否有更多的細節(jié)。研究團隊總共產生了 20 組圖像,每組圖像包含了 MSE-SR 模型和微調的 GAN-SR 模型的輸出結果。這些圖像被隨機打亂。總共有 15 個人參加用戶研究,并為每組選擇他們認為有更多細節(jié)的圖像。最終的統(tǒng)計結果如圖 9 所示。93% 的參與者認為微調的 GAN-SR 模型生成的結果有著更多的細節(jié)。可以看出,微調的 GAN-SR 模型仍然比 MSE-SR 模型能夠生成更多的細節(jié)。
結論
在這項工作中,研究團隊分析了 GAN 在推理階段引入的瑕疵,并提出了方法來檢測和消除這些瑕疵。具體而言,他們首先計算了 MSE-SR 和 GAN-SR 的相對局部方差,并進一步結合語義信息來定位有瑕疵的區(qū)域。在檢測到存在瑕疵的區(qū)域后,他們使用基于 MSE 的結果作為偽高清圖片來微調模型。通過僅使用少量數據,微調的模型可以成功消除原始模型在推理過程中的瑕疵。實驗結果顯示了他們的方法在檢測和去除瑕疵方面的優(yōu)越性,并且顯著提高了 GAN-SR 模型在實際應用中的能力。
在線持續(xù)學習
本文方法可以與持續(xù)學習相結合,從而提供一個新的范式來解決在線推理階段中出現(xiàn)的瑕疵問題。例如,對于處理真實世界數據的在線超分辨率系統(tǒng),可以使用研究團隊的檢測流程來檢測復原的結果是否具有 GAN-inference 瑕疵。然后,他們可以使用檢測到的帶有瑕疵的圖像快速對超分辨率模型進行微調,使其能夠處理類似的瑕疵,直到系統(tǒng)遇到新的 GAN-inference 瑕疵。持續(xù)學習已經在高層視覺任務上得到廣泛研究,但尚未應用于超分辨率。研究團隊希望在未來研究這個問題,因為它可以極大地推進 GAN-SR 方法在實際場景中的應用。
原文標題:檢測并消除瑕疵,DeSRA讓真實場景超分中的GAN更加完美
文章出處:【微信公眾號:智能感知與物聯(lián)網技術研究所】歡迎添加關注!文章轉載請注明出處。
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。
舉報投訴
-
物聯(lián)網
+關注
關注
2945文章
47820瀏覽量
415012
原文標題:檢測并消除瑕疵,DeSRA讓真實場景超分中的GAN更加完美
文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯(lián)網技術研究所】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
相關推薦
熱點推薦
CHA6154-99F三級單片氮化鎵(GaN)中功率放大器
CHA6154-99F三級單片氮化鎵(GaN)中功率放大器CHA6154-99F是United Monolithic Semiconductors (UMS) 推出的一款三級單片氮化鎵(GaN)
發(fā)表于 02-04 08:56
紅外圖像秒變高清!超分算法如何讓模糊熱成像“纖毫畢現(xiàn)”
在深夜的森林中,消防員手持熱成像儀尋找被困者,屏幕上的模糊熱斑卻難以精準定位;在電力巡檢中,工程師通過紅外鏡頭檢測設備溫度異常,但低分辨率圖像讓微小故障隱患悄然溜走……這些場景曾因紅外
Neway電機方案在電機控制的應用場景
Neway電機方案在電機控制的應用場景Neway電機方案在電機控制領域的應用場景廣泛且效果顯著,其核心優(yōu)勢在步進電機、伺服電機控制及CNC機床主軸驅動等場景中得到了充分驗證。一、步進電
發(fā)表于 01-04 10:10
Neway第三代GaN系列模塊的生產成本
采購與維護成本。例如,中微公司已實現(xiàn)5nm刻蝕機量產,GaN設備國產化可期。智能制造升級:引入AI算法優(yōu)化生產流程(如缺陷檢測、工藝參數調整),提升良率至90%以上,進一步攤薄成本。生態(tài)合作供應鏈垂直
發(fā)表于 12-25 09:12
高效降噪,清晰通話:NR-37 回音消除模塊賦能多場景音頻溝通
NR-37雙麥陣列回音消除模塊采用數字語音處理技術,提供高效音頻解決方案。其核心優(yōu)勢包括60dB回音消除能力、20dB降噪效果,支持單/雙麥模式,兼容差分/單端接口。模塊采用插針與半孔焊盤雙
Leadway GaN系列模塊的工作溫度范圍
),在發(fā)動機艙內+93℃的高溫下,模塊支持20分鐘快充,功率密度達10kW/L,效率96.8%。數據中心
英特爾數據中心12V電源采用GaN后,PUE(能源使用效率)降至1.08。在高溫數據中心環(huán)境中
發(fā)表于 11-12 09:19
全流程場景落地 在線測長儀多方位部署 滿足各種檢測需求
在鋼廠,不同的位置都有長度的檢測需求,如剪切位置、鋼坯位置、成品位置等,在不同的位置部署在線測長儀,保證測量精度,提升產品品質。
全流程場景落地:這些環(huán)節(jié)“吃勁”,管控效果明顯
在線測長儀在鋼鐵生產
發(fā)表于 11-04 14:23
基于FPGA的膚色檢測方案簡介
,絕大多數人的膚色分量位于這個區(qū)間中。基于此,可以通過判斷圖像中像素點的Cb和Cr分量,從而判斷是否存在人臉以及人臉位置。當然,這種檢測方法十分容易出現(xiàn)誤差,只要顏色分量相近,就很可能被誤認。
膚色
發(fā)表于 10-28 07:07
Leadway GaN系列模塊的功率密度
場景提供高性價比的全國產解決方案。一、功率密度提升的核心邏輯材料特性突破:
GaN(氮化鎵)作為寬禁帶半導體,電子遷移率(2000cm2/Vs)和飽和漂移速度(2.5×10?cm/s)遠超傳統(tǒng)硅基器件
發(fā)表于 10-22 09:09
昊衡科技發(fā)布低成本OLI-B光纖微裂紋檢測儀,開啟批量高效檢測新紀元
在光纖器件與模塊的規(guī)模化制造中,每一個微小的裂紋、瑕疵都可能成為網絡系統(tǒng)中潛在的“定時炸彈”。一些高精度檢測設備雖性能卓越,但其高昂的成本和復雜的操作流程,往往
TLS 終止在真實業(yè)務中的防護價值
本文將解析 TLS 的基本原理,探討典型業(yè)務場景,并重點對比 ZeroNews 支持的 三大 TLS 終止模式 在真實業(yè)務環(huán)境中的防護結果與價值。
快速讀懂麥科信MOIP系列光隔離探頭
驗證其他電壓探頭測量結果真實性的可靠標準。?
2.超寬頻帶覆蓋,全場景精準測量?
MOIP系列探頭覆蓋100MHz-1GHz超寬頻帶,能夠滿足不同行業(yè)、多樣化場景的測試需求。在常規(guī)電路信號檢測
發(fā)表于 06-27 18:39
夢之墨電能檢測模塊在教學場景中的應用
工程訓練中心的電工電子實驗室里,學生們正圍著一臺風能發(fā)電裝置進行調試。他們手中的黑色小方盒正實時顯示著電流以及電壓的波動數據--這是夢之墨電能檢測模塊在教學場景中的應用。夢之墨自主研發(fā)并
NVIDIA如何讓靈巧機器人更加適應環(huán)境
實時數據做出決策并調整行為。這不僅能讓機械臂在協(xié)作環(huán)境中執(zhí)行各類任務時更加靈活,還能通過對危險的感知來提升安全性。
使用AFG31000系列信號發(fā)生器精準復制真實場景信號
中的核心工具。本文將詳細介紹如何利用該系列信號發(fā)生器復制復雜場景信號,并探討其在不同領域的應用與優(yōu)化技巧。 ? 一、信號特性分析:復制真實信號的基礎 在開始信號復制前,必須全面了解待仿
檢測并消除瑕疵,DeSRA讓真實場景超分中的GAN更加完美
評論