国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

一種「個性化」的文本到圖像擴散模型 DreamBooth

CVer ? 來源:機器之心 ? 作者:機器之心 ? 2022-11-14 15:11 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

來自谷歌和波士頓大學的研究者提出了一種「個性化」的文本到圖像擴散模型 DreamBooth,能夠適應用戶特定的圖像生成需求。

近來,文本到圖像模型成為一個熱門的研究方向,無論是自然景觀大片,還是新奇的場景圖像,都可能使用簡單的文本描述自動生成的。

其中,渲染天馬行空的的想象場景是一項具有挑戰性的任務,需要在新的場景中合成特定主題(物體、動物等)的實例,以便它們自然無縫地融入場景。

一些大型文本到圖像模型基于用自然語言編寫的文本提示(prompt)實現了高質量和多樣化的圖像合成。這些模型的主要優點是從大量的圖像 - 文本描述對中學到強大的語義先驗,例如將「dog」這個詞與可以在圖像中以不同姿勢出現的各種狗的實例關聯在一起。

雖然這些模型的合成能力是前所未有的,但它們缺乏模仿給定參考主題的能力,以及在不同場景中合成主題相同、實例不同的新圖像的能力。可見,已有模型的輸出域的表達能力有限。

dc9e274e-636c-11ed-8abf-dac502259ad0.png

為了解決這個問題,來自谷歌和波士頓大學的研究者提出了一種「個性化」的文本到圖像擴散模型 DreamBooth,能夠適應用戶特定的圖像生成需求。

dcf735a0-636c-11ed-8abf-dac502259ad0.png

論文地址:https://arxiv.org/abs/2208.12242

項目地址:https://github.com/XavierXiao/Dreambooth-Stable-Diffusion

該研究的目標是擴展模型的語言 - 視覺字典,使其將新詞匯與用戶想要生成的特定主題綁定。一旦新字典嵌入到模型中,它就可以使用這些詞來合成特定主題的新穎逼真的圖像,同時在不同的場景中進行情境化,保留關鍵識別特征,效果如下圖 1 所示。

dd172b76-636c-11ed-8abf-dac502259ad0.png

具體來說,該研究將給定主題的圖像植入模型的輸出域,以便可以使用唯一標識符對其進行合成。為此,該研究提出了一種用稀有 token 標識符表示給定主題的方法,并微調了一個預訓練的、基于擴散的文本到圖像框架,該框架分兩步運行;從文本生成低分辨率圖像,然后應用超分辨率(SR)擴散模型。

首先該研究使用包含唯一標識符(帶有主題類名,例如「A [V] dog」)的輸入圖像和文本提示微調低分辨率文本到圖像模型。為了防止模型將類名與特定實例過擬合和語義漂移,該研究提出了一種自生的、特定于類的先驗保存(preservation)損失,它利用嵌入模型中類的先驗語義,鼓勵模型生成給定主題下同一類中的不同實例。

第二步,該研究使用輸入圖像的低分辨率和高分辨率版本對超分辨率組件進行微調。這允許模型對場景主題中小而重要細節保持高保真度。

我們來看一下該研究提出的具體方法。

方法介紹

給定 3-5 張捕獲的圖像,這些圖像沒有文字描述,本文旨在生成具有高細節保真度和由文本提示引導變化的新圖像。該研究不對輸入圖像施加任何限制,并且主題圖像可以具有不同的上下文。方法如圖 3 所示。輸出圖像可對原始圖像進行修改,如主題的位置,更改主題的屬性如顏色、形狀,并可以修改主體的姿勢、表情、材質以及其他語義修改。

更具體的說,本文方法將一個主題(例如,一只特定的狗)和相應類名(例如,狗類別)的一些圖像(通常 3 - 5 張圖)作為輸入,并返回一個經過微調 / 個性化的文本到圖像模型,該模型編碼了一個引用主題的唯一標識符。然后,在推理時,可以在不同的句子中植入唯一標識符來合成不同語境中的主題。

dd7a6d9e-636c-11ed-8abf-dac502259ad0.png

該研究的第一個任務是將主題實例植入到模型的輸出域,并將主題與唯一標識符綁定。該研究提出了設計標識符的方法,此外還設計了一種監督模型微調過程的新方法。

為了解決圖像過擬合以及語言漂移問題,該研究還提出了一種損失( Prior-Preservation Loss ),通過鼓勵擴散模型不斷生成與主題相同的類的不同實例,從而減輕模型過擬合、語言漂移等問題。

為了保留圖像細節,該研究發現應該對模型的超分辨率(SR)組件進行微調,本文在經過預訓練的 Imagen 模型的基礎上來完成。具體過程如圖 4 所示,給定同一主題的 3-5 張圖像,之后通過兩個步驟微調文本到圖像的擴散模型:

ddc37d68-636c-11ed-8abf-dac502259ad0.png

稀有 token 標識符表示主題

該研究將主題的所有輸入圖像標記為「a [identifier] [class noun]」,其中 [identifier] 是鏈接到主題的唯一標識符,而 [class noun] 是主題的粗略類別描述符 (例如貓、狗、手表等)。該研究在句子中特別使用了類描述符,以便將類的先驗與主題聯系起來。

效果展示

下面是 Dreambooth 一個穩定擴散的實現(參考項目鏈接)。定性結果:訓練圖像來自「Textual Inversion」庫:

de33066a-636c-11ed-8abf-dac502259ad0.jpg

訓練完成后,在「photo of a sks container」提示下,模型生成的集裝箱照片如下:

de5d67fc-636c-11ed-8abf-dac502259ad0.png

在提示中加個位置「photo of a sks container on the beach」,集裝箱出現在沙灘上;

de843bd4-636c-11ed-8abf-dac502259ad0.png

綠色的集裝箱顏色太單一了,想加點紅色,輸入提示「photo of a red sks container」就能搞定:

df404126-636c-11ed-8abf-dac502259ad0.png

輸入提示「a dog on top of sks container」就能讓小狗坐在箱子里:

df684b8a-636c-11ed-8abf-dac502259ad0.png

下面是論文中展示的一些結果。生成不同畫家風格的關于狗狗的藝術圖:

df943bdc-636c-11ed-8abf-dac502259ad0.png

該研究還可以合成輸入圖像中沒有出現的各種表情,展示了模型的外推能力:

dfcd19a2-636c-11ed-8abf-dac502259ad0.png

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 圖像
    +關注

    關注

    2

    文章

    1096

    瀏覽量

    42330
  • 模型
    +關注

    關注

    1

    文章

    3752

    瀏覽量

    52111

原文標題:谷歌提出DreamBooth:新擴散模型!只需3張圖一句話,AI就能定制照片級圖像!

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    使用Firebase AI Logic生成圖像模型的兩新功能

    為您的應用添加自定義圖像,能夠顯著改善和個性化用戶體驗,有效提高用戶參與度。本文將探討使用 Firebase AI Logic 生成圖像的兩新功能: 其
    的頭像 發表于 11-30 09:28 ?431次閱讀

    紅外測溫傳感器在智能馬桶中的創新應用:領麥微技術驅動的節能與個性化升級

    智能馬桶已從基礎功能設備升級為集健康監測、節能環保與個性化體驗于體的智能終端。其中,領麥微紅外測溫傳感器憑借其高精度、毫秒級響應、非接觸式測溫等核心技術優勢,成為破解傳統馬桶圈“能耗高、體驗差
    的頭像 發表于 10-22 15:35 ?702次閱讀
    紅外測溫傳感器在智能馬桶中的創新應用:領麥微技術驅動的節能與<b class='flag-5'>個性化</b>升級

    【內測活動同步開啟】這么小?這么強?新代大模型MCP開發板來啦!

    噪,無懼嘈雜環境 云端接入小聆AI,輕松實現個性化定制 搭載領先大模型全鏈路技術:小聆AI 智能語音交互方案 集成情緒感知與表達 :支持情感發音人;支持聲音復刻,實現個性化定制 獨家人聲濾噪:基于聲紋
    發表于 09-25 11:47

    蘑菇街 API 接口:開啟時尚電商個性化推薦新潮流

    在當今數字化時代,時尚電商平臺正經歷著前所未有的變革。蘑菇街作為中國領先的時尚社交電商平臺,憑借其創新的 API 接口,正在引領個性化推薦的新潮流。這篇文章將逐步解析蘑菇街 API 接口的核心
    的頭像 發表于 09-04 15:19 ?690次閱讀

    利用小紅書電商 API 接口,實現小紅書店鋪商品推薦個性化

    據、商品信息和交互行為。通過合理利用這些接口,店鋪可以實現高度個性化的商品推薦系統,從而精準匹配用戶需求。本文將逐步介紹如何基于小紅書電商 API 實現這目標,涵蓋技術原理、實現步驟和實際應用,確保內容真實可靠。 1. 理解小紅書電商 API 接口
    的頭像 發表于 08-27 15:31 ?1065次閱讀
    利用小紅書電商 API 接口,實現小紅書店鋪商品推薦<b class='flag-5'>個性化</b>

    復雜裝備研發設計中利用數據實現大規模個性化定制

    用戶需求下的高效率生產制造。以下從技術實現、應用案例及未來趨勢三個維度展開分析: 、技術實現:數據驅動的個性化定制框架 需求識別與數據采集 多源數據整合 :通過物聯網傳感器、用戶反饋、市場調研等渠道,采集用戶
    的頭像 發表于 08-06 17:17 ?715次閱讀

    利用API提升電商用戶體驗:個性化推薦系統

    ? 在當今競爭激烈的電商環境中,個性化推薦系統已成為提升用戶粘性和轉化率的核心工具。通過API(Application Programming Interface)集成,電商平臺能夠高效接入先進
    的頭像 發表于 07-14 14:45 ?593次閱讀
    利用API提升電商用戶體驗:<b class='flag-5'>個性化</b>推薦系統

    2025年電商API發展趨勢:智能個性化

    體驗與商業生態。 、智能趨勢:從自動自主決策 AI驅動的實時決策 API將深度集成機器學習模型,實現動態定價、庫存預測與風險管控。例
    的頭像 發表于 07-11 14:26 ?627次閱讀
    2025年電商API發展趨勢:智能<b class='flag-5'>化</b>與<b class='flag-5'>個性化</b>

    一種基于擴散模型的視頻生成框架RoboTransfer

    在機器人操作領域,模仿學習是推動具身智能發展的關鍵路徑,但高度依賴大規模、高質量的真實演示數據,面臨高昂采集成本與效率瓶頸。仿真器雖提供了低成本數據生成方案,但顯著的“模擬現實”(Sim2Real)鴻溝,制約了仿真數據訓練策略的泛能力與落地應用。
    的頭像 發表于 07-09 14:02 ?833次閱讀
    <b class='flag-5'>一種</b>基于<b class='flag-5'>擴散</b><b class='flag-5'>模型</b>的視頻生成框架RoboTransfer

    無法使用OpenVINO?在 GPU 設備上運行穩定擴散文本圖像的原因?

    在OpenVINO? GPU 設備上使用圖像大小 (1024X576) 運行穩定擴散文本圖像,并收到錯誤消息: RuntimeError: Exception from
    發表于 06-25 06:36

    EM儲能網關 ZWS智慧儲能云應用(13) — 企業個性化配置

    儲能公有云平臺,企業用戶如何自主個性化配置?ZWS智慧儲能云通過靈活的多級配置功能,實現個性化系統配置,幫助強化儲能企業獨特性。簡介儲能企業在使用智慧儲能云平臺時,常面臨企業個性化和品牌展示
    的頭像 發表于 05-23 11:39 ?798次閱讀
    EM儲能網關 ZWS智慧儲能云應用(13) — 企業<b class='flag-5'>個性化</b>配置

    賦能個性化表達!eSUN易生3D打印材料在時尚設計領域的應用

    3D打印技術可以突破傳統材料和工藝的限制,為用戶提供個性化且高效便捷的使用體驗。從華麗的T臺人們的日常生產生活,3D打印技術都正在發揮更大的作用。eSUN易生豐富多樣的3D打印材料也起見證了許多優質應用的誕生!
    的頭像 發表于 05-20 14:11 ?801次閱讀
    賦能<b class='flag-5'>個性化</b>表達!eSUN易生3D打印材料在時尚設計領域的應用

    個性化醫療的挑戰,微流液體監測

    現代醫學已能夠極大改善全球人口的生活質量。脊髓灰質炎、梅毒、肺結核或鼠疫等疾病幾乎已經根除,并且可以成功治療或治愈。下個里程碑則是個性化醫療。這門新穎的學科針對的并非廣泛人群,而是專注于個體患者
    的頭像 發表于 05-19 13:25 ?565次閱讀
    <b class='flag-5'>個性化</b>醫療的挑戰,微流液體監測

    AWTK:鍵切換皮膚,打造個性化UI

    不同使用場景和用戶的個性化需求,許多軟件都加入了切換皮膚的功能。例如,當夜晚使用手機時,屏幕亮度可能會讓人感到刺眼,此時用戶可以將APP切換為夜間模式;而在戶外強光環
    的頭像 發表于 04-09 13:00 ?914次閱讀
    AWTK:<b class='flag-5'>一</b>鍵切換皮膚,打造<b class='flag-5'>個性化</b>UI

    ?VLM(視覺語言模型)?詳細解析

    視覺語言模型(Visual Language Model, VLM)是一種結合視覺(圖像/視頻)和語言(文本)處理能力的多模態人工智能模型
    的頭像 發表于 03-17 15:32 ?8849次閱讀
    ?VLM(視覺語言<b class='flag-5'>模型</b>)?詳細解析