国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

StyleGAN在圖像質量和可控性方面為生成模型樹立了新的標桿

OpenCV學堂 ? 來源:機器之心 ? 作者:機器之心 ? 2022-06-01 11:34 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

StyleGAN-XL 首次在 ImageNet 上實現了 1024^2 分辨率圖像合成。

近年來,計算機圖形學領域的研究者一直致力于生成高分辨率的仿真圖像,并經歷了一波以數據為中心的真實可控內容創作浪潮。其中英偉達的 StyleGAN 在圖像質量和可控性方面為生成模型樹立了新的標桿。

但是,當用 ImageNet 這樣的大型非結構化數據集進行訓練時,StyleGAN 還不能取得令人滿意的結果。另一個存在的問題是,當需要更大的模型時,或擴展到更高的分辨率時,這些方法的成本會高得令人望而卻步。

比如,英偉達的 StyleGAN3 項目消耗了令人難以想象的資源和電力。研究者在論文中表示,整個項目在 NVIDIA V100 內部集群上消耗了 92 個 GPU year(即單個 GPU 一年的計算)和 225 兆瓦時(Mwh)的電力。有人說,這相當于整個核反應堆運行大約 15 分鐘。

最初,StyleGAN 的提出是為了明確區分變量因素,實現更好的控制和插值質量。但它的體系架構比標準的生成器網絡更具限制性,這些限制似乎會在諸如 ImageNet 這種復雜和多樣化的數據集上訓練時帶來相應代價。

此前有研究者嘗試將 StyleGAN 和 StyleGAN2 擴展到 ImageNet [Grigoryev et al. 2022; Gwern 2020],導致結果欠佳。這讓人們更加相信,對于高度多樣化的數據集來說,StyleGAN 可能會從根本上受到限制。

受益于更大的 batch 和模型尺寸,BigGAN [Brock et al. 2019] 是 ImageNet 上的圖像合成 SOTA 模型。最近,BigGAN 的性能表現正在被擴散模型 [Dhariwal and Nichol 2021] 超越。也有研究發現,擴散模型能比 GAN 實現更多樣化的圖像合成,但是在推理過程中速度明顯減慢,以前的基于 GAN 的編輯工作不能直接應用。

此前在擴展 StyleGAN 上的失敗嘗試引出了這樣一個問題:架構約束是否從根本上限制了基于 Style 的生成器,或者 missing piece 是否是正確的訓練策略。最近的一項工作 [Sauer et al. 2021] 引入了 Projected GAN,將生成和實際的樣本投射到一個固定的、預訓練的特征空間。重組 GAN 設置這種方式顯著改進了訓練穩定性、訓練時間和數據效率。然而,Projected GAN 的優勢只是部分地延伸到了這項研究的單模態數據集上的 StyleGAN。

為了解決上述種種問題,英偉達的研究者近日提出了一種新的架構變化,并根據最新的 StyleGAN3 設計了漸進式生長的策略。研究者將改進后的模型稱為 StyleGAN-XL,該研究目前已經入選了 SIGGRAPH 2022。

論文地址:https://arxiv.org/pdf/2202.00273.pdf

代碼地址:https://github.com/autonomousvision/stylegan_xl

這些變化結合了 Projected GAN 方法,超越了此前在 ImageNet 上訓練 StyleGAN 的表現。為了進一步改進結果,研究者分析了 Projected GAN 的預訓練特征網絡,發現當計算機視覺的兩種標準神經結構 CNN 和 ViT [ Dosovitskiy et al. 2021] 聯合使用時,性能顯著提高。最后,研究者利用了分類器引導這種最初為擴散模型引入的技術,用以注入額外的類信息。

總體來說,這篇論文的貢獻在于推動模型性能超越現有的 GAN 和擴散模型,實現了大規模圖像合成 SOTA。論文展示了 ImageNet 類的反演和編輯,發現了一個強大的新反演范式 Pivotal Tuning Inversion (PTI)[ Roich et al. 2021] ,這一范式能夠與模型很好地結合,甚至平滑地嵌入域外圖像到學習到的潛在空間。高效的訓練策略使得標準 StyleGAN3 的參數能夠增加三倍,同時僅用一小部分訓練時間就達到擴散模型的 SOTA 性能。

這使得 StyleGAN-XL 能夠成為第一個在 ImageNet-scale 上演示 1024^2 分辨率圖像合成的模型。

將 StyleGAN 擴展到 ImageNet

實驗表明,即使是最新的 StyleGAN3 也不能很好地擴展到 ImageNet 上,如圖 1 所示。特別是在高分辨率時,訓練會變得不穩定。因此,研究者的第一個目標是在 ImageNet 上成功地訓練一個 StyleGAN3 生成器。成功的定義取決于主要通過初始評分 (IS)[Salimans et al. 2016] 衡量的樣本質量和 Fréchet 初始距離 (FID)[Heusel et al. 2017] 衡量的多樣性。

在論文中,研究者也介紹了 StyleGAN3 baseline 進行的改動,所帶來的提升如下表 1 所示:

0f08bff4-e15a-11ec-ba43-dac502259ad0.png

研究者首先修改了生成器及其正則化損失,調整了潛在空間以適應 Projected GAN (Config-B) 和類條件設置 (Config-C);然后重新討論了漸進式增長,以提高訓練速度和性能 (Config-D);接下來研究了用于 Projected GAN 訓練的特征網絡,以找到一個非常適合的配置 (Config-E);最后,研究者提出了分類器引導,以便 GAN 通過一個預訓練的分類器 (Config-F) 提供類信息。

這樣一來,就能夠訓練一個比以前大得多的模型,同時需要比現有技術更少的計算量。StyleGAN-XL 在深度和參數計數方面比標準的 StyleGAN3 大三倍。然而,為了在 512^2 像素的分辨率下匹配 ADM [Dhariwal and Nichol 2021] 先進的性能,在一臺 NVIDIA Tesla V100 上訓練模型需要 400 天,而以前需要 1914 天。(圖 2)。

0f527dd8-e15a-11ec-ba43-dac502259ad0.png

實驗結果

在實驗中,研究者首先將 StyleGAN-XL 與 ImageNet 上的 SOTA 圖像合成方法進行比較。然后對 StyleGAN-XL 的反演和編輯性能進行了評價。研究者將模型擴展到了 1024^2 像素的分辨率,這是之前在 ImageNet 上沒有嘗試過的。在 ImageNet 中,大多數圖像的分辨率較低,因此研究者用超分辨率網絡 [Liang et al. 2021] 對數據進行了預處理。

圖像合成

如表 2 所示,研究者在 ImageNet 上對比了 StyleGAN-XL 和現有最強大的 GAN 模型及擴散模型的圖像合成性能。

0f8a0a3c-e15a-11ec-ba43-dac502259ad0.png

有趣的是,StyleGAN-XL 在所有分辨率下都實現了高度的多樣性,這可以歸功于漸進式生長策略。此外,這種策略使擴大到百萬像素分辨率的合成變成可能。

在 1024^2 這一分辨率下,StyleGAN-XL 沒有與 baseline 進行比較,因為受到資源限制,且它們的訓練成本高得令人望而卻步。

圖 3 展示了分辨率提高后的生成樣本可視化結果。

0fb0f106-e15a-11ec-ba43-dac502259ad0.png

反演和操縱

同時,還可以進一步細化所得到的重構結果。將 PTI [Roich et al. 2021] 和 StyleGAN-XL 相結合,幾乎可以精確地反演域內 (ImageNet 驗證集) 和域外圖像。同時生成器的輸出保持平滑,如下圖 4 所示。

0fdd1772-e15a-11ec-ba43-dac502259ad0.png

圖 5、圖 6 展示了 StyleGAN-XL 在圖像操縱方面的性能:

101c12ba-e15a-11ec-ba43-dac502259ad0.png

106363ea-e15a-11ec-ba43-dac502259ad0.png

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 模型
    +關注

    關注

    1

    文章

    3752

    瀏覽量

    52111
  • 圖像質量
    +關注

    關注

    0

    文章

    37

    瀏覽量

    10367
  • 英偉達
    +關注

    關注

    23

    文章

    4087

    瀏覽量

    99193

原文標題:英偉達公布StyleGAN-XL:參數量3倍于StyleGAN3,計算時間僅為五分之一

文章出處:【微信號:CVSCHOOL,微信公眾號:OpenCV學堂】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    【「龍芯之光 自主可控處理器設計解析」閱讀體驗】+可測試設計章節閱讀與自己的一些感想

    ,也分享下 自己的一些感想。 先介紹了兩個術語DFT可測試 設計,ATE自動測試設備,DFT目的是測試出制造問題而不是邏輯 bug,因為DFT也是固定設計的測試邏輯。 然后介紹了可控性,客觀的概念
    發表于 01-15 23:30

    使用Firebase AI Logic生成圖像模型的兩種新功能

    是 Gemini 2.5 Flash Image (又名 Nano Banana) 正式版,后者的專長就是情境或對話中生成圖像
    的頭像 發表于 11-30 09:28 ?431次閱讀

    福田啟明星樹立純電輕卡價值新標桿

    純電輕卡專屬平臺打造的福田啟明星,以全維度安全防護與十年如新的可靠承諾,為純電輕卡樹立了安全與可靠的新標桿,更將用戶價值融入每一項技術創新之中。
    的頭像 發表于 11-21 14:47 ?555次閱讀

    樹立行業新標桿:施奈仕uv三防漆通過嚴苛測試,定義三防漆可靠新高度

    材料的可靠樹立了新的標桿。uv三防漆,施奈仕uv三防漆在電氣性能方面,CA6001的體積電阻率高達1.04×101?Ω·cm,濕熱絕緣電阻穩定在≥5000MΩ,
    的頭像 發表于 10-24 17:44 ?2524次閱讀
    <b class='flag-5'>樹立</b>行業新<b class='flag-5'>標桿</b>:施奈仕uv三防漆通過嚴苛測試,定義三防漆可靠新高度

    寧德時代獲中國質量獎提名獎,為鋰電發展樹立質量標桿

    2025年9月16日,中國質量大會上,國家市場監督管理總局正式頒發第五屆中國質量獎,寧德時代憑借"可信可續創·時代"質量管理模式,榮獲中國質量
    的頭像 發表于 09-17 11:34 ?776次閱讀
    寧德時代獲中國<b class='flag-5'>質量</b>獎提名獎,為鋰電發展<b class='flag-5'>樹立</b><b class='flag-5'>質量</b><b class='flag-5'>標桿</b>

    中車斫輪大模型通過國家生成式人工智能服務備案

    提供生成式人工智能服務的資質,成為我國軌道交通行業及央企高端裝備制造業首個通過《生成式人工智能服務管理暫行辦法》備案的大模型系統,凸顯中國中車推動人工智能與裝備制造業深度融合進程中的
    的頭像 發表于 09-16 09:16 ?795次閱讀

    【Sipeed MaixCAM Pro開發板試用體驗】基于MaixCAM-Pro的AI生成圖像鑒別系統

    能夠有效捕捉AI生成圖像與真實手繪掃描圖像在紋理、筆觸、光影、全局一致方面的細微差異。 邊緣端部署:將
    發表于 08-21 13:59

    國家級認證!拓維海云天“中文手寫體作文圖像識別評分生成算法”通過國家網信辦備案

    近日,國家互聯網信息辦公室發布第十二批深度合成服務算法備案公告,拓維海云天自主研發的核心技術成果——“中文手寫體作文圖像識別評分生成算法”成功通過備案(備案編號:250011號)。這是拓維海云天
    的頭像 發表于 08-15 16:42 ?1352次閱讀
    國家級認證!拓維海云天“中文手寫體作文<b class='flag-5'>圖像</b>識別評分<b class='flag-5'>生成</b>算法”通過國家網信辦備案

    移遠通信飛鳶AIoT大模型應用算法成功通過備案

    近日,第十二批境內深度合成服務算法備案信息發布,移遠通信"飛鳶AIoT大模型應用算法"榜上有名。這標志著該算法技術合規、安全可控性及社會價值上獲得權威認可,彰顯了移遠通信
    的頭像 發表于 08-06 08:48 ?921次閱讀
    移遠通信飛鳶AIoT大<b class='flag-5'>模型</b>應用算法成功通過備案

    領跑AIoT的關鍵一步!移遠大模型應用算法成功通過備案

    近日,第十二批境內深度合成服務算法備案信息發布“飛鳶AIoT大模型應用算法”榜上有名這標志著該算法技術合規、安全可控性以及社會價值上獲得權威認可彰顯了移遠通信
    的頭像 發表于 08-05 19:05 ?877次閱讀
    領跑AIoT的關鍵一步!移遠大<b class='flag-5'>模型</b>應用算法成功通過備案

    博聯智能推出首款大模型具身管家產品

    近日,智能家居領軍企業BroadLink博聯智能重磅發布首款大模型具身管家產品——Max,并深度融入BroadLink智慧家庭生態,為智能家居乃至更廣闊的AI應用領域樹立了全新標桿
    的頭像 發表于 07-24 17:39 ?1107次閱讀

    模型半導體行業的應用可行分析

    有沒有這樣的半導體專用大模型,能縮短芯片設計時間,提高成功率,還能幫助新工程師更快上手。或者軟硬件可以設計和制造環節確實有實際應用。會不會存在AI缺陷檢測。 能否應用在工藝優化和預測維護中
    發表于 06-24 15:10

    利用NVIDIA 3D引導生成式AI Blueprint控制圖像生成

    AI 賦能的圖像生成技術突飛猛進,從早期模型生成手指過多的人類圖像,到現在能創造出令人驚嘆的逼真視覺效果。即使取得了如此飛躍,仍然存在一個
    的頭像 發表于 06-05 09:24 ?899次閱讀

    Gemini API集成Google圖像生成模型Imagen 3

    開發者現在可以通過 Gemini API 訪問 Google 最先進的圖像生成模型 Imagen 3。該模型最初僅對付費用戶開放,不久后也將面向免費用戶推出。
    的頭像 發表于 05-14 16:53 ?1268次閱讀

    行業首創20kV耐壓繼電器為高壓開關樹立標桿

    Pickering通過擴展其廣受歡迎的63系列舌簧繼電器產品線,將開關觸點間的耐壓能力提升至20kV,從而樹立了新的行業標桿。 ? 2025年4月,英國克拉克頓濱海:高性能舌簧繼電器領域的全球領導者
    發表于 04-16 09:59 ?855次閱讀
    行業首創20kV耐壓繼電器為高壓開關<b class='flag-5'>樹立</b>新<b class='flag-5'>標桿</b>