国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

一種基于new concepts的text-to-image生成模型的fine-tuning方法

jf_pmFSk4VX ? 來源:GiantPandaCV ? 2023-01-03 17:08 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

2. 引言

最近通過文本生成圖像的深度學習相關技術取得了非常大的進展,2021已經成為了圖像生成的一個新的milestone,諸如DALL-E和Stable diffusion這種模型都取得了長足的進步,甚至達到了“出圈”的效果。通過簡單文本prompts,用戶能夠生成前所未有的質量的圖像。這樣的模型可以生成各種各樣的對象、風格和場景,并把它們進行組合排序,這讓現有的圖像生成模型看上去是無所不能的。

b809bb20-88d1-11ed-bfe3-dac502259ad0.png

但是,盡管這些模型具有多樣性和一些泛化能力,用戶經常希望從他們自己的生活中合成特定的概念。例如,親人、朋友、寵物或個人物品和地點,這些都是非常有意義的concept,也和個人對于生成圖像的信息有對齊。由于這些概念天生就是個人的,因此在大規模的模型訓練過程中很難出現。

事后通過詳細的文字,來描述這種概念是非常不方便的,也無法保留足夠多的視覺細節來生成新的personal的concepts。這就需要模型具有一定的“定制”能力。也就是說如果給定少量用戶提供的圖像,我們能否用新概念(例如寵物狗或者“月亮門”,如圖所示)增強現有的文本到圖像擴散模型?經過微調的模型應該能夠將它們與現有概念進行概括并生成新的變化。這帶來了幾個比較嚴峻的挑戰:

首先,模型傾向于遺忘現有概念的含義:例如,在添加“moon gate”這一concept的時候,“moon”的含義就會丟失。

其次,由于stable diffusion這樣的網絡往往參數會超級多,所以在小數據上訓練模型,容易造成對訓練樣本進行過擬合,而且采樣中變化也有限。

此外,論文還關注了一個更具挑戰性的問題,即組group fine-tuning,即能夠超越單個個體concept的微調,并將多個概念組合在一起。學習多個新的concepts同時也是存在一定的挑戰的,比如 concept mixing以及concept omission。

在這項工作中,論文提出了一種fine-tuning技術,即文本到圖像擴散模型的“定制擴散”。我們的方法在計算和內存方面都很有效。為了克服上述挑戰,新方法固定一小部分模型權重,即文本到潛在特征的key值映射在cross-attention layer中。fine-tuning這些足以更新模型的新concepts。

為了防止模型喪失原來強大的表征能力,新方法僅僅使用一小組的圖像與目標圖像類似的真實圖像進行訓練。我們還在微調期間引入data的augamation,這可以讓模型更快的收斂,并獲得更好的結果。論文提出的方法實驗是構建在Stable Diffusion之上,并對各種數據集進行了實驗,其中最少有四幅訓練圖像。

對于添加單個concept,新提出的方法顯示出比相似任務的作品和基線更好的文本對齊和視覺相似性。更重要的是,我們的方法可以有效地組成多個新concepts,而直接對不同的concepts進行組合的方法則遇到困難,經常會省略一個。最后,我們的方法只需要存儲一小部分參數(模型權重的3%),消耗的GPU memory非常有限,同時也減少了fine-tuning的時間。

3. 方法

總結來講,論文提出的方法,就是僅更新權重的一小部分,即模型的交叉注意力層。此外,由于目標概念的訓練樣本很少,所以使用一個真實圖像的正則化集,以防止過擬合。

b818b53a-88d1-11ed-bfe3-dac502259ad0.png

對于Single-Concept Fine-tuning,給定一個預訓練的text-to-image diffusion model,我們的目標是在模型中加入一個新的concept,只要給定四張圖像和相應的文本描述進行訓練。fine-tuning后的模型應保留其先驗知識,允許根據文本提示使用新概念生成新的圖像類型。

這可能具有挑戰性,因為更新的文本到圖像的映射可能很容易過擬合少數可用圖像。所以保證泛化性就非常有必要,也比較有挑戰。所以就僅僅fine-tuning新的K和V,而對于query,則保持不變,這樣就可以增加新概念的同時,保證模型的表征能力不受到太多的影響。優化目標還是diffusion的形式:

b822694a-88d1-11ed-bfe3-dac502259ad0.png

概括起來實際上非常簡單,就是訓練一個k和v的矩陣,來擴充維度,增加模型的表征能力,使其能生成更為豐富的圖像內容。

b82ab6d6-88d1-11ed-bfe3-dac502259ad0.png

而對于Multiple-Concept Compositional Fine-tuning,為了對多個概念進行微調,我們將每個概念的訓練數據集合并,并使用我們的方法將它們聯合訓練。為了表示目標概念,我們使用不同的修飾符的,并將它們與每個層的交叉注意關鍵和值矩陣一起初始化,并優化它們。通過將權重更新限制為交叉注意key和value參數,與DreamBooth等方法相比,可以顯著更好地將兩個概念合并在一起。

poYBAGOz8RaAaMMYAAFDj5Ag_TQ303.jpg

b8327024-88d1-11ed-bfe3-dac502259ad0.png

可以發現,增加約束還是讓模型具有更強的表征能力的。最下面一行才和真正的門比較相似,同時生成的月亮也非常合理。

4. 實驗

b844a622-88d1-11ed-bfe3-dac502259ad0.png

給定一個新concepts的圖像如左側顯示的目標圖像,提出的方法可以在看不見的上下文和藝術風格中生成帶有該概念的圖像。

第一行:代表水彩畫藝術風格中的概念。方法還可以在背景中生成山脈,而 DreamBooth 和 Textual Inversion 忽略了這一點。

第二行:改變背景場景。我們的方法和 DreamBooth 的表現與 Textual Inversion 相似且更好。

第三行:添加另一個對象,例如帶有目標桌子的橙色沙發。新的方法成功地添加了另一個對象。第四行:改變對象屬性,如花瓣的顏色。第五行:用太陽鏡裝飾私人寵物貓。我們的方法比基線更好地保留了視覺相似性,同時僅更改花瓣顏色或為貓添加太陽鏡。

b86279e0-88d1-11ed-bfe3-dac502259ad0.png

可以發現Multiple-Concept Compositional Fine-tuning的效果也非常驚艷。

b87509c0-88d1-11ed-bfe3-dac502259ad0.png

風格遷移的效果也不錯。

定量指標也有比較有競爭力的表現:

b8809b96-88d1-11ed-bfe3-dac502259ad0.png

5. 結論

論文提出了一種基于new concepts的text-to-image生成模型的fine-tuning方法。只需使用一些有限的圖像示例, 新方法就能一高效的方法生成微調概念的新樣本同時保留原有的生成能力。而且,我們只需要保存一小部分模型權重。此外,方法可以連貫地在同一場景中組合多個新概念,這是之前的方法所缺少的能力。







審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • gpu
    gpu
    +關注

    關注

    28

    文章

    5194

    瀏覽量

    135465

原文標題:如何簡單高效地定制自己的文本作畫模型?

文章出處:【微信號:GiantPandaCV,微信公眾號:GiantPandaCV】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    使用Firebase AI Logic生成圖像模型的兩新功能

    為您的應用添加自定義圖像,能夠顯著改善和個性化用戶體驗,有效提高用戶參與度。本文將探討使用 Firebase AI Logic 生成圖像的兩新功能: 其是 Imagen 專屬編輯功能預覽版;其二
    的頭像 發表于 11-30 09:28 ?430次閱讀

    【CIE全國RISC-V創新應用大賽】+ 一種基于LLM的可通過圖像語音控制的元件庫管理工具

    一種基于LLM的可通過圖像語音控制的元件庫管理工具 項目概述 ? 庫存管理在我們的生活中幾乎無處不在,在許多小型的庫存當中,比如實驗室中的庫存管理,往往沒有人去專職維護,這就會導致在日積月累中逐漸
    發表于 11-12 19:32

    拼多多商品推廣鏈接生成API:社交裂變的轉化追蹤利器

    功能解析 專屬鏈接生成 通過API接口,開發者可動態生成攜帶 唯追蹤參數 的推廣鏈接 支持自定義參數:活動ID、推廣渠道、用戶身份標識 多級傳播追蹤 采用樹形追蹤模型: $$ beg
    的頭像 發表于 09-08 16:22 ?755次閱讀
    拼多多商品推廣鏈接<b class='flag-5'>生成</b>API:社交裂變的轉化追蹤利器

    上??匕玻夯?b class='flag-5'>模型的測試用例生成

    的測試用例生成(Model-Based Test Case Generation)作為一種新興且高效的測試方法,正逐漸成為解決這問題的重要手段。 01 引 言 在傳統的軟件測試過程中
    的頭像 發表于 08-28 14:30 ?849次閱讀
    上??匕玻夯?b class='flag-5'>模型</b>的測試用例<b class='flag-5'>生成</b>

    Text2SQL準確率暴漲22.6%!3大維度全拆

    基于 BIRD 數據集展開。 方法:提出 J-Schema 呈現數據庫結構并合理提供示例值,結合思維鏈引導模型推理。采用 Iterative DPO 迭代訓練,多輪迭代提升性能。用自洽性方法,通過硬 / 軟投票從多個候選答案中選
    的頭像 發表于 08-14 11:17 ?706次閱讀
    <b class='flag-5'>Text</b>2SQL準確率暴漲22.6%!3大維度全拆

    一種新的無刷直流電機反電動勢檢測方法

    無位置傳感器無刷直流電機的控制算法是近年來研究的熱點之,有霍爾位置信號直流電機根據霍爾狀態來確定通斷功率器件。利用無刷直流電機的數學模型,根據反電動勢檢測原理,提出了一種新的線反電動勢檢測
    發表于 08-07 14:29

    一種新的無刷直流電機反電動勢檢測方法

    無位置傳感器無刷直流電機的控制算法是近年來研究的熱點之,有霍爾位置信號直流電機根據霍爾狀態來確定通斷功率器件。利用無刷直流電機的數學模型,根據反電動勢檢測原理,提出了一種新的線反電動勢檢測
    發表于 08-04 14:59

    Hyperabrupt Junction Tuning 變容二極管 skyworksinc

    電子發燒友網為你提供()Hyperabrupt Junction Tuning 變容二極管相關產品參數、數據手冊,更有Hyperabrupt Junction Tuning 變容二極管的引腳圖
    發表于 07-10 18:32
    Hyperabrupt Junction <b class='flag-5'>Tuning</b> 變容二極管 skyworksinc

    Hyperabrupt Junction Tuning Varactor skyworksinc

    電子發燒友網為你提供()Hyperabrupt Junction Tuning Varactor相關產品參數、數據手冊,更有Hyperabrupt Junction Tuning Varactor
    發表于 07-09 18:34
    Hyperabrupt Junction <b class='flag-5'>Tuning</b> Varactor skyworksinc

    一種基于擴散模型的視頻生成框架RoboTransfer

    在機器人操作領域,模仿學習是推動具身智能發展的關鍵路徑,但高度依賴大規模、高質量的真實演示數據,面臨高昂采集成本與效率瓶頸。仿真器雖提供了低成本數據生成方案,但顯著的“模擬到現實”(Sim2Real)鴻溝,制約了仿真數據訓練策略的泛化能力與落地應用。
    的頭像 發表于 07-09 14:02 ?833次閱讀
    <b class='flag-5'>一種</b>基于擴散<b class='flag-5'>模型</b>的視頻<b class='flag-5'>生成</b>框架RoboTransfer

    模型推理顯存和計算量估計方法研究

    (如全連接層、卷積層等)確定所需的顯存大?。?(3)將各層顯存大小相加,得到模型總的顯存需求。 基于神經網絡剪枝的顯存估計 神經網絡剪枝是一種減少模型參數數量的技術,可以降低顯存需求。通過剪枝,可以
    發表于 07-03 19:43

    關于鴻蒙App上架中“AI文本生成模塊的資質證明文件”的情況說明

    檢查結果為“通過”或審核狀態為“審核通過”。 那么對于這個問題,我也是嘗試去解決……這里分享下我了解到的情況和方法 首先,這個政策雖然說是針對AI文本生成模塊,但實際上,針對的是所有調用了AI大
    發表于 06-30 18:37

    一種多模態駕駛場景生成框架UMGen介紹

    端到端自動駕駛技術的快速發展對閉環仿真器提出了迫切需求,而生成模型為其提供了一種有效的技術架構。然而,現有的駕駛場景生成方法大多側重于圖像模態,忽略了其他關鍵模態的建模,如地圖信息、
    的頭像 發表于 03-24 15:57 ?1689次閱讀
    <b class='flag-5'>一種</b>多模態駕駛場景<b class='flag-5'>生成</b>框架UMGen介紹

    一種基于基礎模型對齊的自監督三維空間理解方法

    三維空間理解是推動自動駕駛、具身智能等領域中智能系統實現環境感知、交互的核心任務,其中3D語義占據預測 (Semantic Occupancy Prediction) 對三維場景進行精準的體素級建模。然而,當前主流方法嚴重依賴大規模標注數據,制約了模型的可擴展性和泛化能力
    的頭像 發表于 03-18 15:01 ?974次閱讀
    <b class='flag-5'>一種</b>基于基礎<b class='flag-5'>模型</b>對齊的自監督三維空間理解<b class='flag-5'>方法</b>

    ?Diffusion生成式動作引擎技術解析

    Diffusion生成式動作引擎 Diffusion生成式動作引擎是一種基于擴散模型(Diffusion Models)的生成式人工智能技術
    的頭像 發表于 03-17 15:14 ?3058次閱讀