国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

新晉圖像生成王者擴(kuò)散模型

OpenCV學(xué)堂 ? 來(lái)源:StyleGAN ? 作者:StyleGAN ? 2022-06-06 10:54 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

新晉圖像生成王者擴(kuò)散模型,剛剛誕生沒(méi)多久。

有關(guān)它的理論和實(shí)踐都還在“野蠻生長(zhǎng)”。

來(lái)自英偉達(dá)StyleGAN的原班作者們站了出來(lái),嘗試給出了一些設(shè)計(jì)擴(kuò)散模型的竅門和準(zhǔn)則,結(jié)果模型的質(zhì)量和效率都有所改進(jìn),比如將現(xiàn)有ImageNet-64模型的FID分?jǐn)?shù)從2.07提高到接近SOTA的1.55分。

c89fd514-e4df-11ec-ba43-dac502259ad0.png

他們這一工作成果迅速得到了業(yè)界大佬的認(rèn)同。

DeepMind研究員就稱贊道:這篇論文簡(jiǎn)直就是訓(xùn)練擴(kuò)散模型的人必看,妥妥的一座金礦。

c8eb9008-e4df-11ec-ba43-dac502259ad0.png

三大貢獻(xiàn)顯著提高模型質(zhì)量和效率

我們從以下幾個(gè)方面來(lái)看StyleGAN作者們對(duì)擴(kuò)散模型所做的三大貢獻(xiàn):

用通用框架表示擴(kuò)散模型

在這部分,作者的貢獻(xiàn)主要為從實(shí)踐的角度觀察模型背后的理論,重點(diǎn)關(guān)注出現(xiàn)在訓(xùn)練和采樣階段的“有形”對(duì)象和算法,更好地了解了組件是如何連接在一起的,以及它們?cè)谡麄€(gè)系統(tǒng)的設(shè)計(jì)中可以使用的自由度(degrees of freedom)。

精華就是下面這張表:

c9384056-e4df-11ec-ba43-dac502259ad0.png

該表給出了在他們的框架中復(fù)現(xiàn)三種模型的確定變體的公式。

(這三種方法(VP、VE、iDDPM+ DDIM)不僅被廣泛使用且實(shí)現(xiàn)了SOTA性能,還來(lái)自不同的理論基礎(chǔ)。)

這些公式讓組件之間原則上沒(méi)有隱含的依賴關(guān)系,在合理范圍內(nèi)選擇任意單個(gè)公示都可以得出一個(gè)功能模型。

隨機(jī)采樣和確定性采樣的改進(jìn)

作者的第二組貢獻(xiàn)涉及擴(kuò)散模型合成圖像的采樣過(guò)程。

他們確定了最佳的時(shí)間離散化(time discretization),對(duì)采樣過(guò)程應(yīng)用了更高階的Runge–Kutta方法,并在三個(gè)預(yù)訓(xùn)練模型上評(píng)估不同的方法,分析了隨機(jī)性在采樣過(guò)程中的有用性。

結(jié)果在合成過(guò)程中所需的采樣步驟數(shù)量顯著減少,改進(jìn)的采樣器可以用作幾個(gè)廣泛使用的擴(kuò)散模型的直接替代品。

先看確定性采樣。用到的三個(gè)測(cè)試模型還是上面的那三個(gè),來(lái)自不同的理論框架和模型族。

作者首先使用原始的采樣器(sampler)實(shí)現(xiàn)測(cè)量這些模型的基線結(jié)果,然后使用表1中的公式將這些采樣方法引入他們的統(tǒng)一框架,再進(jìn)行改進(jìn)。

接著根據(jù)在50000張生成圖像和所有可用真實(shí)圖像之間計(jì)算的FID分?jǐn)?shù)來(lái)評(píng)估質(zhì)量。

c9765d6e-e4df-11ec-ba43-dac502259ad0.png

可以看到,原始的的確定性采樣器以藍(lán)色顯示,在他們的統(tǒng)一框架(橙色)中重新實(shí)現(xiàn)這些方法會(huì)產(chǎn)生類似或更好的結(jié)果。

作者解釋,這些差異是由于原始實(shí)現(xiàn)中的某些疏忽,加上作者對(duì)離散噪聲級(jí)的處理更仔細(xì)造成的。

確定性采樣好處雖然多,但與每一步都向圖像中注入新噪聲的隨機(jī)采樣相比,它輸出的圖像質(zhì)量確實(shí)更差。

不過(guò)作者很好奇,假設(shè)ODE(常微分方程)和SDE(隨機(jī)微分方程)在理論上恢復(fù)相同的分布,隨機(jī)性的作用到底是什么?

在此他們提出了一種新的隨機(jī)采樣器,它將現(xiàn)有的高階ODE積分器與添加和去除噪聲的顯式“Langevin-like ‘churn’”相結(jié)合。

最終模型性能提升顯著,而且僅通過(guò)對(duì)采樣器的改進(jìn),就能夠讓ImageNet-64模型原來(lái)的FID分?jǐn)?shù)從2.07提高到1.55,接近SOTA水平。

c9a2bbd4-e4df-11ec-ba43-dac502259ad0.png

預(yù)處理和訓(xùn)練

作者的第三組貢獻(xiàn)主要為分?jǐn)?shù)建模(score-modeling)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練。

這部分繼續(xù)依賴常用的網(wǎng)絡(luò)體系結(jié)構(gòu)(DDPM、NCSN),作者通過(guò)對(duì)擴(kuò)散模型設(shè)置中網(wǎng)絡(luò)的輸入、輸出和損失函數(shù)的預(yù)處理進(jìn)行了原則性分析,得出了改進(jìn)訓(xùn)練動(dòng)態(tài)的最佳實(shí)踐。

比如使用依賴于σ(noise level)的跳躍連接對(duì)神經(jīng)網(wǎng)絡(luò)進(jìn)行預(yù)處理,使其能夠估計(jì)y(signal)或n(noise),或介于兩者之間的東西。

下表具體展示了模型彩英不同訓(xùn)練配置得到的FID分?jǐn)?shù)。

c9fe22bc-e4df-11ec-ba43-dac502259ad0.png

作者從基線訓(xùn)練配置開(kāi)始,使用確定性采樣器(稱為配置A),重新調(diào)整了基本超參數(shù)(配置B),并通過(guò)移除最低分辨率層,并將最高分辨率層的容量加倍來(lái)提高模型的表達(dá)能力(配置C)。

然后用預(yù)處理(配置D)替換原來(lái)的{cin,cout,cnoise,cskip}選項(xiàng)。這使結(jié)果基本保持不變,但VE在64×64分辨率下有很大改善。該預(yù)處理方法的主要好處不是改善FID本身,而是使訓(xùn)練更加穩(wěn)健,從而將重點(diǎn)轉(zhuǎn)向重新設(shè)計(jì)損失函數(shù)又不會(huì)產(chǎn)生不利影響。

VP和VE只在Fθ的架構(gòu)上有所不同(配置E和F)。

除此之外,作者還建議改進(jìn)訓(xùn)練期間的噪聲級(jí)分布,并發(fā)現(xiàn)通常與GANs一起使用的無(wú)泄漏風(fēng)險(xiǎn)增強(qiáng)(non-leaking augmentation)操作也有利于擴(kuò)散模型。

比如從上表中,我們可以看到:有條件和無(wú)條件CIFAR-10的最新FID分別達(dá)到了1.79和1.97,打破了之前的記錄(1.85和2.1046)。

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4784

    瀏覽量

    98042
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3752

    瀏覽量

    52099

原文標(biāo)題:DeepMind谷歌研究員力薦:擴(kuò)散模型效率&生成質(zhì)量提升竅門,來(lái)自StyleGAN原作者

文章出處:【微信號(hào):CVSCHOOL,微信公眾號(hào):OpenCV學(xué)堂】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    模型支撐后勤保障方案生成系統(tǒng)軟件平臺(tái)

    ? ? 北京五木恒潤(rùn)大模型支撐的后勤保障方案生成平臺(tái)系統(tǒng)軟件,依托人工智能大模型技術(shù),融合后勤保障領(lǐng)域?qū)I(yè)知識(shí)與實(shí)際需求,可自動(dòng)生成高效、精準(zhǔn)、可定制的智能化后勤保障方案。以下從六大核
    的頭像 發(fā)表于 12-17 16:51 ?485次閱讀

    使用Firebase AI Logic生成圖像模型的兩種新功能

    為您的應(yīng)用添加自定義圖像,能夠顯著改善和個(gè)性化用戶體驗(yàn),有效提高用戶參與度。本文將探討使用 Firebase AI Logic 生成圖像的兩種新功能: 其一是 Imagen 專屬編輯功能預(yù)覽版;其二
    的頭像 發(fā)表于 11-30 09:28 ?425次閱讀

    如何讓大模型生成你想要的測(cè)試用例?

    應(yīng)用大模型生成測(cè)試用例,常見(jiàn)的知識(shí)庫(kù),測(cè)試大模型,微調(diào),RAG等技術(shù)門檻都不低,甚至很難,因此對(duì)于應(yīng)用者而言,最快的方式就是應(yīng)用好提示詞,調(diào)教屬于個(gè)人風(fēng)格的測(cè)試用例智能生成模塊,讓智能
    的頭像 發(fā)表于 09-26 10:01 ?944次閱讀
    如何讓大<b class='flag-5'>模型</b><b class='flag-5'>生成</b>你想要的測(cè)試用例?

    【Sipeed MaixCAM Pro開(kāi)發(fā)板試用體驗(yàn)】基于MaixCAM-Pro的AI生成圖像鑒別系統(tǒng)

    能夠有效捕捉AI生成圖像與真實(shí)手繪掃描圖像在紋理、筆觸、光影、全局一致性等方面的細(xì)微差異。 邊緣端部署:將模型量化、編譯,最終高效運(yùn)行在算力有限的MaixCAM-Pro開(kāi)發(fā)板上。 實(shí)時(shí)
    發(fā)表于 08-21 13:59

    如何進(jìn)行YOLO模型轉(zhuǎn)換?

    (onnx_model.SerializeToString(),import_options)# 編譯模型compiler.compile()# 生成KModel文件kmodel_data
    發(fā)表于 08-14 06:03

    一種基于擴(kuò)散模型的視頻生成框架RoboTransfer

    在機(jī)器人操作領(lǐng)域,模仿學(xué)習(xí)是推動(dòng)具身智能發(fā)展的關(guān)鍵路徑,但高度依賴大規(guī)模、高質(zhì)量的真實(shí)演示數(shù)據(jù),面臨高昂采集成本與效率瓶頸。仿真器雖提供了低成本數(shù)據(jù)生成方案,但顯著的“模擬到現(xiàn)實(shí)”(Sim2Real)鴻溝,制約了仿真數(shù)據(jù)訓(xùn)練策略的泛化能力與落地應(yīng)用。
    的頭像 發(fā)表于 07-09 14:02 ?833次閱讀
    一種基于<b class='flag-5'>擴(kuò)散</b><b class='flag-5'>模型</b>的視頻<b class='flag-5'>生成</b>框架RoboTransfer

    無(wú)法使用OpenVINO?在 GPU 設(shè)備上運(yùn)行穩(wěn)定擴(kuò)散文本到圖像的原因?

    在OpenVINO? GPU 設(shè)備上使用圖像大小 (1024X576) 運(yùn)行穩(wěn)定擴(kuò)散文本到圖像,并收到錯(cuò)誤消息: RuntimeError: Exception from
    發(fā)表于 06-25 06:36

    【正點(diǎn)原子STM32MP257開(kāi)發(fā)板試用】基于 DeepLab 模型圖像分割

    是谷歌團(tuán)隊(duì)提出的一種用于語(yǔ)義分割的深度學(xué)習(xí)模型,屬于 DeepLab 系列模型的第三代版本。它在圖像語(yǔ)義分割任務(wù)中表現(xiàn)優(yōu)異,能夠高效地捕獲圖像的多尺度上下文信息,并
    發(fā)表于 06-21 21:11

    利用NVIDIA 3D引導(dǎo)生成式AI Blueprint控制圖像生成

    AI 賦能的圖像生成技術(shù)突飛猛進(jìn),從早期模型會(huì)生成手指過(guò)多的人類圖像,到現(xiàn)在能創(chuàng)造出令人驚嘆的逼真視覺(jué)效果。即使取得了如此飛躍,仍然存在一個(gè)
    的頭像 發(fā)表于 06-05 09:24 ?891次閱讀

    Gemini API集成Google圖像生成模型Imagen 3

    開(kāi)發(fā)者現(xiàn)在可以通過(guò) Gemini API 訪問(wèn) Google 最先進(jìn)的圖像生成模型 Imagen 3。該模型最初僅對(duì)付費(fèi)用戶開(kāi)放,不久后也將面向免費(fèi)用戶推出。
    的頭像 發(fā)表于 05-14 16:53 ?1261次閱讀

    如何使用離線工具od SPSDK生成完整圖像

    SDSDK)會(huì)生成一個(gè)缺少前 4KB 的文件。 這些將由 flashloader 直接在目標(biāo)上填充,使用將要傳達(dá)給它的參數(shù),對(duì)吧? 我需要離線工作。我需要生成一個(gè) “完整圖像”,但無(wú)法訪問(wèn)目標(biāo)。 我該怎么做?
    發(fā)表于 03-28 06:51

    ?VLM(視覺(jué)語(yǔ)言模型)?詳細(xì)解析

    視覺(jué)語(yǔ)言模型(Visual Language Model, VLM)是一種結(jié)合視覺(jué)(圖像/視頻)和語(yǔ)言(文本)處理能力的多模態(tài)人工智能模型,能夠理解并生成與視覺(jué)內(nèi)容相關(guān)的自然語(yǔ)言。以下
    的頭像 發(fā)表于 03-17 15:32 ?8826次閱讀
    ?VLM(視覺(jué)語(yǔ)言<b class='flag-5'>模型</b>)?詳細(xì)解析

    ?Diffusion生成式動(dòng)作引擎技術(shù)解析

    Diffusion生成式動(dòng)作引擎 Diffusion生成式動(dòng)作引擎是一種基于擴(kuò)散模型(Diffusion Models)的生成式人工智能技術(shù)
    的頭像 發(fā)表于 03-17 15:14 ?3044次閱讀

    使用OpenVINO GenAI和LoRA適配器進(jìn)行圖像生成

    借助生成式 AI 模型(如 Stable Diffusion 和 FLUX.1),用戶可以將平平無(wú)奇的文本提示詞轉(zhuǎn)換為令人驚艷的視覺(jué)效果。
    的頭像 發(fā)表于 03-12 13:49 ?1876次閱讀
    使用OpenVINO GenAI和LoRA適配器進(jìn)行<b class='flag-5'>圖像</b><b class='flag-5'>生成</b>

    是否可以在16位或32位圖像上推斷單映像-超級(jí)分辨率1032的模型

    無(wú)法確定是 單圖像超級(jí)分辨率 - 1032 模型可以推斷為 16 位還是 32 位圖像
    發(fā)表于 03-06 07:16