国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

GPT-3、Stable Diffusion一起助攻,讓模型聽懂甲方修圖需求

智能感知與物聯(lián)網(wǎng)技術(shù)研究所 ? 來源:智能感知與物聯(lián)網(wǎng)技術(shù)研 ? 作者:智能感知與物聯(lián)網(wǎng) ? 2022-11-21 11:57 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

AI 可以完全按照甲方意愿修圖?GPT-3、Stable Diffusion 一起助攻,讓模型秒變 PS 高手,改圖隨心所欲。

擴(kuò)散模型大火之后,很多人將注意力放到了如何利用更有效的 prompt 生成自己想要的圖像。在對(duì)于一些 AI 作畫模型的不斷嘗試中,人們甚至總結(jié)出了讓 AI 好好出圖的關(guān)鍵詞經(jīng)驗(yàn):

9b0c2b0e-68e0-11ed-8abf-dac502259ad0.jpg

也就是說,如果掌握了正確的 AI 話術(shù),作圖質(zhì)量提升效果將非常明顯(參見:《「羊駝打籃球」怎么畫?有人花了 13 美元逼 DALL·E 2 亮出真本事 》)。

此外,還有一部分研究者在往另一個(gè)方向努力:如何動(dòng)動(dòng)嘴皮子就把一幅畫改成我們想要的樣子。

前段時(shí)間,我們報(bào)道了一項(xiàng)來自谷歌研究院等機(jī)構(gòu)的研究。只要說出你想讓一幅圖變成什么樣子,它就能基本滿足你的要求,生成照片級(jí)的圖像,例如讓一只小狗坐下:

9b1bd0f4-68e0-11ed-8abf-dac502259ad0.png

這里給模型的輸入描述是「一只坐下的狗」,但是按照人們的日常交流習(xí)慣,最自然的描述應(yīng)該是「讓這只狗坐下」。有研究者認(rèn)為這是一個(gè)應(yīng)該優(yōu)化的問題,模型應(yīng)該更符合人類的語言習(xí)慣。

最近,來自 UC 伯克利的研究團(tuán)隊(duì)提出了一種根據(jù)人類指令編輯圖像的新方法 InstructPix2Pix:給定輸入圖像和告訴模型要做什么的文本描述,模型就能遵循描述指令來編輯圖像。

9b87dce0-68e0-11ed-8abf-dac502259ad0.png

論文地址:https://arxiv.org/pdf/2211.09800.pdf

例如,要把畫中的向日葵換成玫瑰,你只需要直接對(duì)模型說「把向日葵換成玫瑰」:

9b992ebe-68e0-11ed-8abf-dac502259ad0.png

為了獲得訓(xùn)練數(shù)據(jù),該研究將兩個(gè)大型預(yù)訓(xùn)練模型——語言模型 (GPT-3) 和文本到圖像生成模型 (Stable Diffusion) 結(jié)合起來,生成圖像編輯示例的大型成對(duì)訓(xùn)練數(shù)據(jù)集。研究者在這個(gè)大型數(shù)據(jù)集上訓(xùn)練了新模型 InstructPix2Pix,并在推理時(shí)泛化到真實(shí)圖像和用戶編寫的指令上。

InstructPix2Pix 是一個(gè)條件擴(kuò)散模型,給定一個(gè)輸入圖像和一個(gè)編輯圖像的文本指令,它就能生成編輯后的圖像。該模型直接在前向傳播(forward pass)中執(zhí)行圖像編輯,不需要任何額外的示例圖像、輸入 / 輸出圖像的完整描述或每個(gè)示例的微調(diào),因此該模型僅需幾秒就能快速編輯圖像。

盡管 InstructPix2Pix 完全是在合成示例(即 GPT-3 生成的文本描述和 Stable Diffusion 生成的圖像)上進(jìn)行訓(xùn)練的,但該模型實(shí)現(xiàn)了對(duì)任意真實(shí)圖像和人類編寫文本的零樣本泛化。該模型支持直觀的圖像編輯,包括替換對(duì)象、更改圖像風(fēng)格等等。

9bb17bea-68e0-11ed-8abf-dac502259ad0.png

方法概覽

研究者將基于指令的圖像編輯視為一個(gè)監(jiān)督學(xué)習(xí)問題:首先,他們生成了一個(gè)包含文本編輯指令和編輯前后圖像的成對(duì)訓(xùn)練數(shù)據(jù)集(圖 2a-c),然后在這個(gè)生成的數(shù)據(jù)集上訓(xùn)練了一個(gè)圖像編輯擴(kuò)散模型(圖 2d)。盡管訓(xùn)練時(shí)使用的是生成的圖像和編輯指令,但模型仍然能夠使用人工編寫的任意指令來編輯真實(shí)的圖像。下圖 2 是方法概述。

9bf20a52-68e0-11ed-8abf-dac502259ad0.png

生成一個(gè)多模態(tài)訓(xùn)練數(shù)據(jù)集

在數(shù)據(jù)集生成階段,研究者結(jié)合了一個(gè)大型語言模型(GPT-3)和一個(gè)文本轉(zhuǎn)圖像模型(Stable Diffusion)的能力,生成了一個(gè)包含文本編輯指令和編輯前后對(duì)應(yīng)圖像的多模態(tài)訓(xùn)練數(shù)據(jù)集。這一過程包含以下步驟:

微調(diào) GPT-3 以生成文本編輯內(nèi)容集合:給定一個(gè)描述圖像的 prompt,生成一個(gè)描述要進(jìn)行的更改的文本指令和一個(gè)描述更改后圖像的 prompt(圖 2a);

使用文本轉(zhuǎn)圖像模型將兩個(gè)文本 prompt(即編輯之前和編輯之后)轉(zhuǎn)換為一對(duì)對(duì)應(yīng)的圖像(圖 2b)。

InstructPix2Pix

研究者使用生成的訓(xùn)練數(shù)據(jù)來訓(xùn)練一個(gè)條件擴(kuò)散模型,該模型基于 Stable Diffusion 模型,可以根據(jù)書面指令編輯圖像。

擴(kuò)散模型學(xué)習(xí)通過一系列估計(jì)數(shù)據(jù)分布分?jǐn)?shù)(指向高密度數(shù)據(jù)的方向)的去噪自編碼器來生成數(shù)據(jù)樣本。Latent diffusion 通過在預(yù)訓(xùn)練的具有編碼器9c0d0816-68e0-11ed-8abf-dac502259ad0.jpg和解碼器9c212774-68e0-11ed-8abf-dac502259ad0.png的變分自編碼器的潛空間中操作來提高擴(kuò)散模型的效率和質(zhì)量。

對(duì)于一個(gè)圖像 x,擴(kuò)散過程向編碼的 latent9c30754e-68e0-11ed-8abf-dac502259ad0.png 中添加噪聲,它產(chǎn)生一個(gè)有噪聲的 latent z_t,其中噪聲水平隨時(shí)間步 t∈T 而增加。研究者學(xué)習(xí)一個(gè)網(wǎng)絡(luò)9c47b45c-68e0-11ed-8abf-dac502259ad0.png,它在給定圖像調(diào)節(jié) C_I 和文本指令調(diào)節(jié) C_T 的情況下,預(yù)測(cè)添加到帶噪 latent z_t 中的噪聲。研究者將以下 latent 擴(kuò)散目標(biāo)最小化:

9c56efc6-68e0-11ed-8abf-dac502259ad0.png

此前,曾有研究(Wang et al.)表明,對(duì)于圖像翻譯(image translation)任務(wù),尤其是在成對(duì)訓(xùn)練數(shù)據(jù)有限的情況下,微調(diào)大型圖像擴(kuò)散模型優(yōu)于從頭訓(xùn)練。因此在新研究中,作者使用預(yù)訓(xùn)練的 Stable Diffusion checkpoint 初始化模型的權(quán)重,利用其強(qiáng)大的文本到圖像生成能力。

為了支持圖像調(diào)節(jié),研究人員向第一個(gè)卷積層添加額外的輸入通道,連接 z_t 和9c6c4e84-68e0-11ed-8abf-dac502259ad0.png。擴(kuò)散模型的所有可用權(quán)重都從預(yù)訓(xùn)練的 checkpoint 初始化,同時(shí)在新添加的輸入通道上運(yùn)行的權(quán)重被初始化為零。作者在這里重用最初用于 caption 的相同的文本調(diào)節(jié)機(jī)制,而沒有將文本編輯指令 c_T 作為輸入。

實(shí)驗(yàn)結(jié)果

在下面這些圖中,作者展示了他們新模型的圖像編輯結(jié)果。這些結(jié)果針對(duì)一組不同的真實(shí)照片和藝術(shù)品。新模型成功地執(zhí)行了許多具有挑戰(zhàn)性的編輯,包括替換對(duì)象、改變季節(jié)和天氣、替換背景、修改材料屬性、轉(zhuǎn)換藝術(shù)媒介等等。

9c7d6070-68e0-11ed-8abf-dac502259ad0.png

9c9c2c30-68e0-11ed-8abf-dac502259ad0.png

9cbfe2ec-68e0-11ed-8abf-dac502259ad0.png

9d0131f2-68e0-11ed-8abf-dac502259ad0.png

研究人員將新方法與最近的一些技術(shù),如 SDEdit、Text2Live 等進(jìn)行了比較。新模型遵循編輯圖像的說明,而其他方法(包括基準(zhǔn)方法)需要對(duì)圖像或編輯層進(jìn)行描述。因此在比較時(shí),作者對(duì)后者提供「編輯后」的文本標(biāo)注代替編輯說明。作者還把新方法和 SDEdit 進(jìn)行定量比較,使用兩個(gè)衡量圖像一致性和編輯質(zhì)量的指標(biāo)。最后,作者展示了生成訓(xùn)練數(shù)據(jù)的大小和質(zhì)量如何影響模型性能的消融結(jié)果。

9d37cba4-68e0-11ed-8abf-dac502259ad0.png

9d656320-68e0-11ed-8abf-dac502259ad0.png

審核編輯 :李倩

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1096

    瀏覽量

    42332
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    39793

    瀏覽量

    301454
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3752

    瀏覽量

    52113

原文標(biāo)題:GPT-3、Stable Diffusion一起助攻,讓模型聽懂甲方修圖需求

文章出處:【微信號(hào):tyutcsplab,微信公眾號(hào):智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    PyTorch 中RuntimeError分析

    原生實(shí)現(xiàn)。這是個(gè)已知的 PyTorch 限制,常見于 Stable Diffusion、ComfyUI 等使用 interpolate(..., mode=\'nearest\') 的模型
    發(fā)表于 03-06 06:02

    為什么不能將 USB 磁盤與 exFat 一起使用?

    不能將 USB 磁盤與 exFat 一起使用
    發(fā)表于 03-04 06:27

    回望2025:與162萬開發(fā)者一起AI硬件觸手可及

    設(shè)備中。今天,我們想和大家一起回顧這年的成長,也分享我們對(duì)未來的期待。2025,我們跟開發(fā)者一起完成了1、開發(fā)者生態(tài)持續(xù)壯大截至四季度末,涂鴉平臺(tái)累計(jì)注冊(cè)開發(fā)者超
    的頭像 發(fā)表于 02-12 18:59 ?194次閱讀
    回望2025:與162萬開發(fā)者<b class='flag-5'>一起</b>,<b class='flag-5'>讓</b>AI硬件觸手可及

    從炫技到量產(chǎn),具身智能要突破哪些瓶頸?

    LingBot-VLA 開源,具身智能的 Stable Diffusion 來了?
    的頭像 發(fā)表于 01-28 17:12 ?8972次閱讀
    從炫技到量產(chǎn),具身智能要突破哪些瓶頸?

    上海交大發(fā)布國產(chǎn)光學(xué)大模型Optics GPT

    電子發(fā)燒友網(wǎng)綜合報(bào)道 1月25日,上海交通大學(xué)正式推出光學(xué)領(lǐng)域垂直大語言模型——Optics GPT(光學(xué)大模型),這是款完全自主研發(fā)的國產(chǎn)模型
    的頭像 發(fā)表于 01-26 09:59 ?1123次閱讀
    上海交大發(fā)布國產(chǎn)光學(xué)大<b class='flag-5'>模型</b>Optics <b class='flag-5'>GPT</b>

    本地部署Stable Diffusion實(shí)現(xiàn)AI文字生成高質(zhì)量矢量圖片應(yīng)用于電子商務(wù)

    本地部署Stable Diffusion
    的頭像 發(fā)表于 11-28 07:19 ?746次閱讀

    GPT-5.1發(fā)布 OpenAI開始拼情商

    問題。 Sam Altman 發(fā)文稱GPT-5.1是次不錯(cuò)的模型升級(jí)。 GPT-5.1 Instant:ChatGPT 最常用的模型,更溫
    的頭像 發(fā)表于 11-13 15:49 ?706次閱讀

    亞馬遜云科技宣布推出Qwen3與DeepSeek-V3.1模型的完全托管服務(wù)

    的多種模型選項(xiàng)。DeepSeek-V3.1在數(shù)學(xué)、編程和Agentic任務(wù)方面展現(xiàn)出卓越性能。 · 與專有模型不同,開放權(quán)重模型讓開發(fā)者能夠深入了解模型權(quán)重,從而可以根據(jù)用戶
    的頭像 發(fā)表于 09-19 10:11 ?861次閱讀

    【RA4M2-SENSOR】3、使用GPT定時(shí)器-PWM輸出

    項(xiàng)目01_I2C_OLED復(fù)制份,重命名為02_PWM 查看原理得知,P102引腳可用GPT功能。 點(diǎn)擊configuration.xml文件,按下面幾張所示內(nèi)容配置。 打開引腳
    發(fā)表于 09-01 15:20

    光纖能與電線一起走嗎

    光纖與電線在特定條件下可以一起布線,但需嚴(yán)格遵守安全規(guī)范和物理隔離要求,以下是詳細(xì)分析: 、光纖與電線的物理特性差異 光纖 傳輸介質(zhì):以光信號(hào)傳輸數(shù)據(jù),不導(dǎo)電,因此不受電磁干擾(EMI
    的頭像 發(fā)表于 07-14 10:40 ?8029次閱讀

    擁抱開源!一起來做FPGA開發(fā)板啦!

    一起來做FPGA開發(fā)板啦! 2、第二步:點(diǎn)擊前往報(bào)名>報(bào)名入口 3、第三步:加小助手微信進(jìn)群,備注 開源FPGA 注:完成上面三個(gè)步驟才算報(bào)名成功~ 開源規(guī)劃: 1、活動(dòng)報(bào)名時(shí)間
    發(fā)表于 06-06 14:05

    CyU3PDeviceGpioOverride是否僅與LPP引腳一起使用?

    CyU3PDeviceGpioOverride 是否僅與 LPP 引腳一起使用? 如果使用 CyU3PDeviceGpioOverride,則 io_cfg.gpioSimpleEn 跳過還是反之亦然?
    發(fā)表于 05-15 07:33

    如何將FX3與WSL(Linux 的 Windows 子系統(tǒng))一起使用?

    如何將 FX3 與 WSL(Linux 的 Windows 子系統(tǒng))一起使用? 我在 /dev/ 中找不到任何設(shè)備 我有許多項(xiàng)目在 Windows 上使用VISUAL STUDIO項(xiàng)目進(jìn)行操作,因此請(qǐng)驗(yàn)證該設(shè)備是否在 Windows 上運(yùn)行。
    發(fā)表于 05-06 07:11

    ?Diffusion生成式動(dòng)作引擎技術(shù)解析

    Diffusion生成式動(dòng)作引擎 Diffusion生成式動(dòng)作引擎是種基于擴(kuò)散模型Diffusion Models)的生成式人工智能技術(shù)
    的頭像 發(fā)表于 03-17 15:14 ?3059次閱讀

    使用OpenVINO GenAI和LoRA適配器進(jìn)行圖像生成

    借助生成式 AI 模型(如 Stable Diffusion 和 FLUX.1),用戶可以將平平無奇的文本提示詞轉(zhuǎn)換為令人驚艷的視覺效果。
    的頭像 發(fā)表于 03-12 13:49 ?1890次閱讀
    使用OpenVINO GenAI和LoRA適配器進(jìn)行圖像生成