国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Imagen的工作原理解讀

OpenCV學堂 ? 來源:機器之心 ? 作者:機器之心 ? 2022-07-12 14:18 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

本文詳細解讀了 Imagen 的工作原理,分析并理解其高級組件以及它們之間的關聯。

近年來,多模態學習受到重視,特別是文本 - 圖像合成和圖像 - 文本對比學習兩個方向。一些 AI 模型因在創意圖像生成、編輯方面的應用引起了公眾的廣泛關注,例如 OpenAI 先后推出的文本圖像模型 DALL?E 和 DALL-E 2,以及英偉達的 GauGAN 和 GauGAN2。 谷歌也不甘落后,在 5 月底發布了自己的文本到圖像模型 Imagen,看起來進一步拓展了字幕條件(caption-conditional)圖像生成的邊界。

b32d0fee-01a9-11ed-ba43-dac502259ad0.jpg

僅僅給出一個場景的描述,Imagen 就能生成高質量、高分辨率的圖像,無論這種場景在現實世界中是否合乎邏輯。下圖為 Imagen 文本生成圖像的幾個示例,在圖像下方顯示出了相應的字幕。

b3464a5e-01a9-11ed-ba43-dac502259ad0.png

這些令人印象深刻的生成圖像不禁讓人想了解:Imagen 到底是如何工作的呢? 近期,開發者講師 Ryan O'Connor 在 AssemblyAI 博客撰寫了一篇長文《How Imagen Actually Works》,詳細解讀了 Imagen 的工作原理,對 Imagen 進行了概覽介紹,分析并理解其高級組件以及它們之間的關聯。 Imagen 工作原理概覽 在這部分,作者展示了 Imagen 的整體架構,并對其它的工作原理做了高級解讀;然后依次更透徹地剖析了 Imagen 的每個組件。如下動圖為 Imagen 的工作流程。

b39185c8-01a9-11ed-ba43-dac502259ad0.gif

首先,將字幕輸入到文本編碼器。該編碼器將文本字幕轉換成數值表示,后者將語義信息封裝在文本中。Imagen 中的文本編碼器是一個 Transformer 編碼器,其確保文本編碼能夠理解字幕中的單詞如何彼此關聯,這里使用自注意力方法。 如果 Imagen 只關注單個單詞而不是它們之間的關聯,雖然可以獲得能夠捕獲字幕各個元素的高質量圖像,但描述這些圖像時無法以恰當的方式反映字幕語義。如下圖示例所示,如果不考慮單詞之間的關聯,就會產生截然不同的生成效果。

b4331db6-01a9-11ed-ba43-dac502259ad0.png

雖然文本編碼器為 Imagen 的字幕輸入生成了有用的表示,但仍需要設計一種方法生成使用這一表示的圖像,也即圖像生成器。為此,Imagen 使用了擴散模型,它是一種生成模型,近年來得益于其在多項任務上的 SOTA 性能而廣受歡迎。 擴散模型通過添加噪聲來破壞訓練數據以實現訓練,然后通過反轉這個噪聲過程來學習恢復數據。給定輸入圖像,擴散模型將在一系列時間步中迭代地利用高斯噪聲破壞圖像,最終留下高斯噪聲或電視噪音靜態(TV static)。下圖為擴散模型的迭代噪聲過程:

b4574542-01a9-11ed-ba43-dac502259ad0.png

然后,擴散模型將向后 work,學習如何在每個時間步上隔離和消除噪聲,抵消剛剛發生的破壞過程。訓練完成后,模型可以一分為二。這樣可以從隨機采樣高斯噪聲開始,使用擴散模型逐漸去噪以生成圖像,具體如下圖所示:

b475e02e-01a9-11ed-ba43-dac502259ad0.png

總之,經過訓練的擴散模型從高斯噪聲開始,然后迭代地生成與訓練圖像類似的圖像。很明顯的是,無法控制圖像的實際輸出,僅僅是將高斯噪聲輸入到模型中,并且它會輸出一張看起來屬于訓練數據集的隨機圖像。 但是,目標是創建能夠將輸入到 Imagen 的字幕的語義信息封裝起來的圖像,因此需要一種將字幕合并到擴散過程中的方法。如何做到這一點呢? 上文提到文本編碼器產生了有代表性的字幕編碼,這種編碼實際上是向量序列。為了將這一編碼信息注入到擴散模型中,這些向量被聚合在一起,并在它們的基礎上調整擴散模型。通過調整這一向量,擴散模型學習如何調整其去噪過程以生成與字幕匹配良好的圖像。過程可視化圖如下所示:

b4941b7a-01a9-11ed-ba43-dac502259ad0.gif

由于圖像生成器或基礎模型輸出一個小的 64x64 圖像,為了將這一模型上采樣到最終的 1024x1024 版本,使用超分辨率模型智能地對圖像進行上采樣。 對于超分辨率模型,Imagen 再次使用了擴散模型。整體流程與基礎模型基本相同,除了僅僅基于字幕編碼調整外,還以正在上采樣的更小圖像來調整。整個過程的可視化圖如下所示:

b4e6ab6a-01a9-11ed-ba43-dac502259ad0.gif

這個超分辨率模型的輸出實際上并不是最終輸出,而是一個中等大小的圖像。為了將該圖像放大到最終的 1024x1024 分辨率,又使用了另一個超分辨率模型。兩個超分辨率架構大致相同,因此不再贅述。而第二個超分辨率模型的輸出才是 Imagen 的最終輸出。 為什么 Imagen 比 DALL-E 2 更好? 確切地回答為什么 Imagen 比 DALL-E 2 更好是困難的。然而,性能差距中不可忽視的一部分源于字幕以及提示差異。DALL-E 2 使用對比目標來確定文本編碼與圖像(本質上是 CLIP)的相關程度。文本和圖像編碼器調整它們的參數,使得相似的字幕 - 圖像對的余弦相似度最大化,而不同的字幕 - 圖像對的余弦相似度最小化。 性能差距的一個顯著部分源于 Imagen 的文本編碼器比 DALL-E 2 的文本編碼器大得多,并且接受了更多數據的訓練。作為這一假設的證據,我們可以在文本編碼器擴展時檢查 Imagen 的性能。下面為 Imagen 性能的帕累托曲線:

b5257a98-01a9-11ed-ba43-dac502259ad0.png

放大文本編碼器的效果高得驚人,而放大 U-Net 的效果卻低得驚人。這一結果表明,相對簡單的擴散模型只要以強大的編碼為條件,就可以產生高質量的結果。 鑒于 T5 文本編碼器比 CLIP 文本編碼器大得多,再加上自然語言訓練數據必然比圖像 - 字幕對更豐富這一事實,大部分性能差距可能歸因于這種差異。 除此以外,作者還列出了 Imagen 的幾個關鍵要點,包括以下內容:

擴展文本編碼器是非常有效的;

擴展文本編碼器比擴展 U-Net 大小更重要;

動態閾值至關重要;

噪聲條件增強在超分辨率模型中至關重要;

將交叉注意用于文本條件反射至關重要;

高效的 U-Net 至關重要。

這些見解為正在研究擴散模型的研究人員提供了有價值的方向,而不是只在文本到圖像的子領域有用。

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 編碼器
    +關注

    關注

    45

    文章

    3953

    瀏覽量

    142630
  • 圖像
    +關注

    關注

    2

    文章

    1096

    瀏覽量

    42326
  • 生成器
    +關注

    關注

    7

    文章

    322

    瀏覽量

    22712

原文標題:擴散+超分辨率模型強強聯合,谷歌圖像生成器Imagen背后的技術

文章出處:【微信號:CVSCHOOL,微信公眾號:OpenCV學堂】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    位移計工作原理解析:如何測量結構物位移?

    肉眼難以察覺的結構變化的呢?其工作原理的核心在于“振弦”技術。儀器內部設有一根高強度鋼弦,它被預先張緊,如同琴弦一般,以一個穩定的基準頻率振動。當被測結構物發生位移
    的頭像 發表于 12-18 14:52 ?869次閱讀
    位移計<b class='flag-5'>工作原理解</b>析:如何測量結構物位移?

    液體高低頻介電常數測試儀的工作原理與信號解析

    液體高低頻介電常數測試儀的核心功能,是通過精準捕捉信號與樣品的相互作用,解讀液體的介電特性,其工作邏輯圍繞“信號發射 - 相互作用 - 信號解析” 的完整鏈條展開,無需復雜參數即可理解其核心運作機制
    的頭像 發表于 12-15 09:09 ?481次閱讀
    液體高低頻介電常數測試儀的<b class='flag-5'>工作原理</b>與信號解析

    無線充電器的工作原理核心

    無線充電器的工作原理核心
    的頭像 發表于 12-06 10:19 ?1319次閱讀
    無線充電器的<b class='flag-5'>工作原理</b>核心

    信號發生器的構成和工作原理

    信號發生器作為現代電子測試與測量領域中的關鍵設備,其精密的構造和巧妙的工作原理使之能夠產生各種所需的電信號。本文將深入探討信號發生器的構成及其工作原理,以幫助讀者更好地理解這一重要電子設備
    的頭像 發表于 11-13 11:45 ?394次閱讀
    信號發生器的構成和<b class='flag-5'>工作原理</b>

    超景深顯微鏡的工作原理與測試影響因素

    在微觀檢測領域,傳統顯微鏡常受限于景深較短的問題,難以同時清晰呈現樣品不同深度的結構細節,而超景深顯微鏡憑借獨特的技術優勢,有效突破這一局限,廣泛應用于材料科學、電子制造等領域。深入理解工作原理
    的頭像 發表于 10-09 18:02 ?687次閱讀
    超景深顯微鏡的<b class='flag-5'>工作原理</b>與測試影響因素

    從底層解讀labview的TDMS高級異步寫入的工作原理

    所有數據已寫入磁盤時,記得調用 TDMS Close File 或 TDMS Flush 函數,因為緩沖區中的數據可能尚未完全寫入磁盤。 異步寫入會增加內存開銷(用于緩沖區)。 希望這個解釋能幫你清晰理解 LabVIEW TDMS 高級異步寫入的含義和工作原理!
    發表于 08-14 17:05

    高壓清洗機的工作原理是什么?

    歡迎。那么,您是否了解高壓清洗機的工作原理是什么呢?科偉達作為高壓清洗機的領先品牌,本文將帶您深度解析其工作原理,幫助您更好地理解和使用這種設備。高壓清洗機的技術原
    的頭像 發表于 07-18 16:39 ?1734次閱讀
    高壓清洗機的<b class='flag-5'>工作原理</b>是什么?

    解密SMA接頭:工作原理與技術特性深度解讀

    正是憑借這些卓越的工作原理和技術特性,德索精密工業的SMA接頭在通信基站的天線連接、雷達系統的信號傳輸,以及實驗室的測試測量設備等場景中,都能穩定可靠地完成信號傳輸任務。隨著科技的不斷進步,德索精密工業也在持續對SMA接頭進行優化和創新,未來將推出更多高性能產品,在更多領域發揮更大的作用。
    的頭像 發表于 06-27 11:06 ?1300次閱讀
    解密SMA接頭:<b class='flag-5'>工作原理</b>與技術特性深度<b class='flag-5'>解讀</b>

    GPIO配置的工作原理是什么?

    我使用 EZ-USB 配置實用程序,我想知道是否有人知道 GPIO 配置的工作原理。 例如,GPIO0 可以用作傳感器復位,我知道這個 GPIO0 用于重置傳感器,但我不明白的是選項用戶 GPIO 例如GPIO 1可以是User GPIO0,這是什么意思呢?
    發表于 05-19 06:56

    Gemini API集成Google圖像生成模型Imagen 3

    開發者現在可以通過 Gemini API 訪問 Google 最先進的圖像生成模型 Imagen 3。該模型最初僅對付費用戶開放,不久后也將面向免費用戶推出。
    的頭像 發表于 05-14 16:53 ?1262次閱讀

    電動調壓器的工作原理

    電壓調壓器是一種用于控制電路中電壓的裝置,其工作原理因類型而異,以下是幾種常見電壓調壓器的工作原理
    的頭像 發表于 05-12 13:46 ?1353次閱讀
    電動調壓器的<b class='flag-5'>工作原理</b>

    解讀手機后殼氣密性檢測儀的工作原理與應用

    解讀。手機后殼氣密性檢測儀主要基于壓力衰減原理進行工作。具體來說,就是通過向被測手機后殼內部充入一定壓力的氣體(通常是空氣或惰性氣體),然后關閉充氣通道,使被測腔體
    的頭像 發表于 04-30 17:14 ?1133次閱讀
    <b class='flag-5'>解讀</b>手機后殼氣密性檢測儀的<b class='flag-5'>工作原理</b>與應用

    微動開關的工作原理

    微動開關的工作原理
    的頭像 發表于 04-17 09:00 ?3601次閱讀

    光學傳感器的工作原理與應用

    的疾病診斷,光學傳感器的應用遍布生活的每一個角落。本文將帶你深入了解光學傳感器的工作原理、分類、應用及其未來的發展趨勢。 光學傳感器的工作原理 光學傳感器的工作原理基于光學效應,即當光線與物質相互作用時,會產生一
    的頭像 發表于 04-15 18:24 ?1812次閱讀

    開關電源的基本工作原理

    ;如果從用 途上來分,還可以分成更多種類。 下面我們先對串聯式、并聯式、變壓器式等三種最基本的開關電源工作原理進行簡單介紹,其它種類的開關電源也將逐步進行詳細分析。 串聯式開關電源 串聯式
    發表于 03-10 17:01