国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

從一個名為DDPM的模型說起

新機器視覺 ? 來源:Datawhale ? 2023-01-05 15:40 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

最近爆火的AI繪圖,相信大家并不陌生了

從AI繪圖軟件生成的作品打敗一眾人類藝術(shù)家,斬獲數(shù)字藝術(shù)類冠軍,到如今DALL.E、Imagen、novelai等國內(nèi)外平臺遍地開花。也許你也曾點開過相關(guān)網(wǎng)站,嘗試讓AI描繪你腦海中的風(fēng)景,又或者上傳了一張自己帥氣/美美的照片,然后對著最后生成的糙漢哭笑不得。那么,在你感受AI繪圖魅力的同時,有沒有想過(不你肯定想過),它背后的奧妙究竟是什么?

e2e3dc1c-8cc9-11ed-bfe3-dac502259ad0.jpg

美國科羅拉多州技術(shù)博覽會中獲得數(shù)字藝術(shù)類冠軍的作品——《太空歌劇院》

一切,都要從一個名為DDPM的模型說起…

話說DDPM

DDPM模型,全稱Denoising Diffusion Probabilistic Model,可以說是現(xiàn)階段diffusion模型的開山鼻祖。不同于前輩GAN、VAE和flow等模型,diffusion模型的整體思路是通過一種偏向于優(yōu)化的方式,逐步從一個純噪音的圖片中生成圖像。

e2f634de-8cc9-11ed-bfe3-dac502259ad0.png

現(xiàn)在已有生成圖像模型的對比

沒有相關(guān)機器學(xué)習(xí)背景的小伙伴可能會問了,什么是純噪音圖片?

很簡單,老式電視機沒信號時,伴隨著"刺啦刺啦"噪音出現(xiàn)的雪花圖片,就屬于純噪音圖片。而DDPM在生成階段所做的事情,就是把這些個"雪花"一點點移除,直到清晰的圖像露出它的廬山真面目,我們把這個階段稱之為"去噪"。

e34cf5c6-8cc9-11ed-bfe3-dac502259ad0.jpg

純噪音圖片:老電視的雪花屏

通過描述,大家可以感受到,去噪其實是個相當復(fù)雜的過程。沒有一定的去噪規(guī)律,可能你忙活了好半天,到最后還是對著奇形怪狀的圖片欲哭無淚。當然,不同類型的圖片也會有不同的去噪規(guī)律,至于怎么讓機器學(xué)會這種規(guī)律,有人靈機一動,想到了一種絕妙的方法。

"既然去噪規(guī)律不好學(xué),那我為什么不先通過加噪的方式,先把一張圖片變成純噪音圖像,再把整個過程反著來一遍呢?"

這便奠定了diffusion模型整個訓(xùn)練-推理的流程,先在前向過程(forward process)通過逐步加噪,將圖片轉(zhuǎn)換為一個近似可用高斯分布的純噪音圖像,緊接著在反向過程(reverse process)中逐步去噪,生成圖像,最后以增大原始圖像和生成圖像的相似度作為目標,優(yōu)化模型,直至達到理想效果

e36d9bd2-8cc9-11ed-bfe3-dac502259ad0.png

DDPM的訓(xùn)練-推理流程

到這里,不知道大家的接受度怎樣?如果感覺沒問題,輕輕松的話。準備好,我要開始上大招(深入理論)啦。

1.前向過程(forward process)

又稱為擴散過程(diffusion process),整體是一個參數(shù)化的馬爾可夫鏈(Markov chain。從初始數(shù)據(jù)分布 出發(fā),每步在數(shù)據(jù)分布中添加高斯噪音,持續(xù)T次。其中從第t-1步到第t步的過程可以用高斯分布表示為:

e37db4fe-8cc9-11ed-bfe3-dac502259ad0.png

通過合適的設(shè)置,隨著t不斷增大,原始數(shù)據(jù)會逐漸失去他的特征。我們可以理解為,在進行了無限次的加噪步驟后,最終的數(shù)據(jù)會變成沒有任何特征,完全是隨機噪音的圖片,也就是我們最開始說的"雪花屏"。

在這個過程中,每一步的變化是可以通過設(shè)置超參來控制,在我們知曉最開始的圖片是什么的前提下,前向加噪的整個過程可以說是已知且可控的,我們完全能知道每一步的生成數(shù)據(jù)是什么樣子。

但問題在于,每次的計算都需要從起始點出發(fā),結(jié)合每一步的過程,慢慢推導(dǎo)至你想要的某步數(shù)據(jù),過于麻煩。好在因為高斯分布的一些特性,我們可以一步到位,直接從得到。

e3926778-8cc9-11ed-bfe3-dac502259ad0.png

(這里的為組合系數(shù),本質(zhì)上是超參的表達式)

2.反向過程(reverse process)

和前向過程同理,反向過程也是一個馬爾可夫鏈(Markov chain)只不過這里用到的參數(shù)不同,至于具體參數(shù)是什么,這個就是我們需要機器來學(xué)習(xí)的部分啦。

在了解機器如何學(xué)習(xí)前,我們首先思考,基于某一個原始數(shù)據(jù),從第t步,精準反推回第t-1步的過程應(yīng)該是怎樣的?

答案是,這個仍可以用高斯分布表示:

e39e7bbc-8cc9-11ed-bfe3-dac502259ad0.png

注意這里必須要考慮,意思是反向過程最后生成圖像還是要與原始數(shù)據(jù)有關(guān)。輸入貓的圖片,模型生成的圖像應(yīng)該是貓,輸入狗的圖片,生成的圖像也應(yīng)該和狗相關(guān)。若是去除掉,則會導(dǎo)致無論輸入哪種類型的圖片訓(xùn)練,最后diffusion生成的圖像都一樣,"貓狗不分"。

經(jīng)過一系列的推導(dǎo),我們發(fā)現(xiàn),反向過程中的參數(shù)和,竟然還是可以用,,以及參數(shù)表示出來的,是不是很神奇~

e3bbf110-8cc9-11ed-bfe3-dac502259ad0.png

當然,機器事先并不知道這個真實的反推過程,它能做到的,只是用一個大概近似的估計分布去模擬,表示為

3.優(yōu)化目標

在最開始我們提到,需要通過增大原始數(shù)據(jù)和反向過程最終生成數(shù)據(jù)的相似度來優(yōu)化模型。在機器學(xué)習(xí)中,我們計算該相似度參考的是交叉熵(cross entropy )

關(guān)于交叉熵,學(xué)術(shù)上給出的定義是"用于度量兩個概率分布間的差異性信息"。換句話講,交叉熵越小,模型生成的圖片就越和原始圖片接近。但是,在大多數(shù)情況下,交叉熵是很難或者無法通過計算得出的,所以我們一般會通過優(yōu)化一個更簡單的表達式,達到同樣的效果。

Diffusion模型借鑒了VAE模型的優(yōu)化思路,將variational lower boundVLB,又稱ELBO)替代cross entropy來作為最大優(yōu)化目標。通過無數(shù)步的分解,我們最終得到:

e3d3aca6-8cc9-11ed-bfe3-dac502259ad0.png

看到這么復(fù)雜的公式,好多小伙伴肯定頭都大了。但不慌,這里需要關(guān)注的,只是中間的罷了,它表示的是和之間估計分布和真實分布的差距。差距越小,模型最后生成圖片的效果就越好。

4.上代碼

在了解完DDPM背后的原理,接下來就讓我們看看DDPM模型究竟是如何實現(xiàn)…

才怪啦。相信看到這里的你,肯定也不想遭受成百上千行代碼的洗禮。好在MindSpore已經(jīng)為大家提供了開發(fā)完備的DDPM模型,訓(xùn)練推理兩手抓,操作簡單,單卡即可運行,想要體驗效果的小伙伴,可以先pip install denoising-diffusion-mindspore后,參考如下代碼配置參數(shù):

e3e7f706-8cc9-11ed-bfe3-dac502259ad0.png

對重要的參數(shù)進行一些解析:

  • GaussianDiffusion
    • image_size: 圖片大小
    • timesteps: 加噪步數(shù)
    • sampling_timesteps: 采樣步數(shù),為提升推理性能,需小于加噪步數(shù)
  • Trainer
    • folder_or_dataset: 對應(yīng)圖片中的path, 可以是已下載數(shù)據(jù)集的路徑(str),也可以是已做好數(shù)據(jù)處理的VisionBaseDataset, GeneratorDataset 或 MindDataset
    • train_batch_size:batch大小
    • train_lr: 學(xué)習(xí)率
    • train_num_steps: 訓(xùn)練步數(shù)

話說MindDiffusion

DDPM只是Diffusion這個故事的開篇。目前,已有無數(shù)的研究人員被其背后瑰麗的世界所吸引,紛紛投身其中。在不斷優(yōu)化模型的同時,也逐漸開發(fā)了Diffusion在各個領(lǐng)域的應(yīng)用。

其中,包括了計算機視覺領(lǐng)域的圖像優(yōu)化、inpainting、3D視覺,自然語言處理中的text-to-speech,AI for Science領(lǐng)域的分子構(gòu)象生成、材料設(shè)計等,更有來自斯坦福大學(xué)計算機科學(xué)系的博士生Eric Zelikman大開腦洞,嘗試將DALLE-2與最近另一個大火的對話模型ChatGPT相結(jié)合,制作出了溫馨的繪本故事。

e42450ac-8cc9-11ed-bfe3-dac502259ad0.jpg

DALLE-2 + ChatGPT合力完成的,關(guān)于一個名叫"羅比"的小機器人的故事

不過最廣為大眾所知的,應(yīng)該還是它在文生圖(text-to-image)方面的應(yīng)用。輸入幾個關(guān)鍵詞或者一段簡短的描述,模型便可以為你生成相對應(yīng)的圖畫。

比如,輸入"城市夜景 賽博朋克 格雷格.路特科夫斯基",最后生成的便是一張色彩鮮明,頗具未來科幻風(fēng)格的作品。

e4489138-8cc9-11ed-bfe3-dac502259ad0.png

再比如,輸入"莫奈 撐陽傘的女人 月亮 夢幻",生成的便是一張極具有朦朧感的女人畫像,色彩搭配的風(fēng)格有木有讓你想起莫奈的《睡蓮》?

e4c6864c-8cc9-11ed-bfe3-dac502259ad0.png

想要寫實風(fēng)格的風(fēng)景照作為屏保?沒問題!

e5035c16-8cc9-11ed-bfe3-dac502259ad0.png

鄉(xiāng)村 田野 屏保

想要二次元濃度多一點的?也可以!

e514cc12-8cc9-11ed-bfe3-dac502259ad0.png

來自深淵 風(fēng)景 繪畫 寫實風(fēng)格

以上這些圖片,均是由MindDiffusion平臺的下的悟空畫畫制作而成的哦,悟空畫畫是基于擴散模型的中文文生圖大模型,由華為諾亞團隊攜手中軟分布式并行實驗室昇騰計算產(chǎn)品部聯(lián)合開發(fā)。模型基于Wukong dataset訓(xùn)練,并使用昇思框架(MindSpore)+昇騰(Ascend)軟硬件解決方案實現(xiàn)。

躍躍欲試的小伙伴先別著急,為了讓大家擁有更好的體驗,更多自行開發(fā)的空間,我們打算讓MindDiffusion中的模型同樣也具備可訓(xùn)練、可推理的特性,預(yù)計在明年就要和大家見面啦,敬請期待,歡迎大家頭腦風(fēng)暴,生成各種別具風(fēng)格的作品哦~

(據(jù)去內(nèi)部打探情報的同事說,有人已經(jīng)開始嘗試"張飛繡花"、"劉華強砍瓜"、"古希臘神大戰(zhàn)哥斯拉"了。ummmm,怎么辦,突然就很期待成品了呢(?ω?))

一個突然正經(jīng)的結(jié)語

最后的最后,在Diffusion爆火的如今,有人也曾發(fā)出過疑問,它為什么可以做到如此的大紅大紫,甚至風(fēng)頭開始超過GAN網(wǎng)絡(luò)?Diffusion的優(yōu)勢突出,劣勢也很明顯;它的諸多領(lǐng)域仍是空白,它的前方還是一片未知。為什么卻有那么多的人在孜孜不倦地對它進行研究呢?

興許,馬毅教授的一番話,可以給我們提供一種解答。

"但diffusion process的有效性以及很快取代GAN也充分說明了一個簡單道理:

幾行簡單正確的數(shù)學(xué)推導(dǎo),可以比近十年的大規(guī)模調(diào)試超參調(diào)試網(wǎng)絡(luò)結(jié)構(gòu)有效得多。"

或許,這就是Diffusion模型的魅力吧。


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1096

    瀏覽量

    42325
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    39755

    瀏覽量

    301355
  • 機器學(xué)習(xí)
    +關(guān)注

    關(guān)注

    66

    文章

    8553

    瀏覽量

    136928

原文標題:Reference

文章出處:【微信號:vision263com,微信公眾號:新機器視覺】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    基于WT2606A3-42N語音芯片的兒童打印機AI驅(qū)屏與語音交互技術(shù)方案解析

    "按下、出張紙"的東西嗎,能有多大花樣?別急,等你看完今天的故事,或許會重新認識這個小家伙。從一常見的場景說起先從一
    的頭像 發(fā)表于 02-27 17:08 ?495次閱讀
    基于WT2606A3-42N語音芯片的兒童打印機AI驅(qū)屏與語音交互技術(shù)方案解析

    請問如何從一函數(shù)內(nèi)部判斷本函數(shù)是否是成員函數(shù)還是非成員函數(shù)?

    如何從一函數(shù)內(nèi)部判斷本函數(shù)是否是成員函數(shù)還是非成員函數(shù)?
    發(fā)表于 01-06 06:30

    虹科分享 | 5G、工業(yè)4.0、智能駕駛…TSN開啟的下一個產(chǎn)業(yè)機遇

    系列IEEE標準協(xié)議的集合,它為標準以太網(wǎng)賦予了確定性的時延和極高的可靠性,使其從一「盡力而為」的通信系統(tǒng),升級為能精準協(xié)調(diào)機器、數(shù)據(jù)與控制的「神經(jīng)系統(tǒng)」。
    的頭像 發(fā)表于 12-17 17:02 ?1273次閱讀
    虹科分享 | 5G、工業(yè)4.0、智能駕駛…TSN開啟的下<b class='flag-5'>一個</b>產(chǎn)業(yè)機遇

    文讀懂大模型常見的10核心概念

    如今高效智能的AI大模型,正如雨后春筍般破土而出,人們對于AI大模型的學(xué)習(xí)與探索之路,也愈發(fā)寬闊平坦。雖然AI工具已不再陌生,但其中關(guān)于AIPrompt、大模型的吞吐量、蒸餾與量化、私有化知識庫等
    的頭像 發(fā)表于 09-22 17:02 ?1281次閱讀
    <b class='flag-5'>一</b>文讀懂大<b class='flag-5'>模型</b>常見的10<b class='flag-5'>個</b>核心概念

    詳解SPICE器件模型的分類

    今天我們來聊聊工程師在仿真時比較關(guān)注的問題。眾多的器件模型,我在仿真的時候到底應(yīng)該怎么選擇器件的模型?我使用的這個器件模型的精確度夠嗎?
    的頭像 發(fā)表于 08-28 13:42 ?1462次閱讀
    詳解SPICE器件<b class='flag-5'>模型</b>的分類

    小白學(xué)大模型:國外主流大模型匯總

    )領(lǐng)域。論文的核心是提出了名為Transformer的全新模型架構(gòu),它完全舍棄了以往序列模型(如循環(huán)神經(jīng)網(wǎng)絡(luò)RNNs和卷積神經(jīng)網(wǎng)絡(luò)CNNs)中常用的循環(huán)和卷積結(jié)構(gòu)
    的頭像 發(fā)表于 08-27 14:06 ?948次閱讀
    小白學(xué)大<b class='flag-5'>模型</b>:國外主流大<b class='flag-5'>模型</b>匯總

    自動駕駛中常提的世界模型啥?

    種對外部環(huán)境進行抽象和建模的技術(shù),讓自動駕駛系統(tǒng)在簡潔的內(nèi)部“縮影”里,對真實世界進行描述與預(yù)測,從而為感知、決策和規(guī)劃等關(guān)鍵環(huán)節(jié)提供有力支持。 什么是世界模型? 我們不妨先把“世界模型
    的頭像 發(fā)表于 06-24 08:53 ?1124次閱讀
    自動駕駛中常提的世界<b class='flag-5'>模型</b>是<b class='flag-5'>個</b>啥?

    運行kmodel模型驗證直報錯怎么解決?

    我這運行kmodel模型驗證直報錯,所以沒法做kmodel模型好壞驗證,不知道怎么解決這個問題,重新訓(xùn)練kmodel
    發(fā)表于 06-10 08:02

    從芯片市場經(jīng)理說起

    轉(zhuǎn)載自《鐘林談芯》 從創(chuàng)業(yè)第天開始,我就同時扮演芯片產(chǎn)品經(jīng)理、項目經(jīng)理、市場經(jīng)理、銷售經(jīng)理,集四角色于身。 在這四角色中,讓人難以理解和容易混淆的角色當屬市場經(jīng)理。為了讓大家正
    的頭像 發(fā)表于 06-05 16:27 ?489次閱讀

    從FA模型切換到Stage模型時:module的切換說明

    。abilities具體差異見表5。 js標識基于ArkUI框架開發(fā)的JS模塊集合,其中的每個元素代表JS模塊的信息。pagesStage模型在module標簽下保留該對象中的pages
    發(fā)表于 06-05 08:16

    FA模型訪問Stage模型DataShareExtensionAbility說明

    DataShareExtensionAbility提供數(shù)據(jù)庫的讀寫服務(wù)。 服務(wù)端由FA模型升級到Stage模型后,會導(dǎo)致FA模型的客戶端在API 9(含)之后的版本上無法訪問服務(wù)端。 為了解決上述問題,系統(tǒng)在框架側(cè)提供了
    發(fā)表于 06-04 07:53

    如何將FA模型開發(fā)的聲明式范式應(yīng)用切換到Stage模型

    模型切換概述 本文介紹如何將FA模型開發(fā)的聲明式范式應(yīng)用切換到Stage模型,您需要完成如下動作: 工程切換:新建
    發(fā)表于 06-04 06:22

    如何使用Docker部署大模型

    隨著深度學(xué)習(xí)和大模型的快速發(fā)展,如何高效地部署這些模型成為了重要的挑戰(zhàn)。Docker 作為種輕量級的容器化技術(shù),能夠?qū)?/div>
    的頭像 發(fā)表于 05-24 16:39 ?1112次閱讀

    使用EZ-USB? SUITE構(gòu)建img文件并決定將示例程序下載到開發(fā)板時,遇到名為“Bootloader未運行”的錯誤,怎么解決?

    將示例程序下載到開發(fā)板時,遇到名為“Bootloader 未運行”的錯誤。 請重置您的設(shè)備以下載固件“ 我曾經(jīng)嘗試按下野豬上的重置按鈕,但是沒有作用。 請幫助我解決這個問題。
    發(fā)表于 05-09 06:50

    KaihongOS操作系統(tǒng)FA模型與Stage模型介紹

    (Feature Ability) FA模型是KaihongOS 從API 7開始支持的模型,已經(jīng)不再被主推。在FA模型中,每個應(yīng)用組件獨享
    發(fā)表于 04-24 07:27