国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

如何去解決文本到圖像生成的跨模態對比損失問題?

LiveVideoStack ? 來源:LiveVideoStack ? 作者:Google AI Blog ? 2021-06-15 10:07 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

Google提出了一個跨模態對比學習框架來訓練用于文本到圖像合成的 GAN 模型,用于研究解決生成的跨模態對比損失問題。

從文本到圖像的自動生成,如何訓練模型僅通過一段文本描述輸入就能生成具體的圖像,是一項非常具有挑戰性的任務。

與其它指導圖像創建的輸入類型相比,描述性句子是一種更直觀、更靈活的視覺概念表達方式。強大的自動文本到圖像的生成系統可以成為快速、有效的內容生產、制作工具,用于更多具有創造性的應用當中。

在CVPR 2021中,Google提出了一個跨模態對比生成對抗網絡(XMC-GAN),訓練用于文本到圖像合成的 GAN 模型,通過模態間與模態內的對比學習使圖像和文本之間的互信息最大化,解決文本到圖像生成的跨模態對比損失問題。

poYBAGDIDJ-AfrniAADMgxcEq1k626.jpg

XMC-GAN 文本到圖像合成模型中的模態間和模態內對比學習

XMC-GAN 被成功應用于三個具有挑戰性的數據集:一個是MS-COCO 圖像描述集合,另外兩個是用Localized Narratives注釋的數據集,一個是包括MS-COCO 圖像(稱為LN-COCO) ,另一個描述開放圖像數據 (LN-OpenImages)。結果顯示 XMC-GAN生成圖像所描繪的場景相比于使用其它技術生成的圖像質量更高,在每個方面都達到了最先進的水平。

pYYBAGDIDI-AdQkNAAB3Ifj0XNA593.jpg

MS-COCO對圖像質量和文本對齊的人工評估

此外,XMC-GAN還在 LN-OpenImages 上進行了一系列訓練和評估,這相比于 MS-COCO 更具有挑戰性,由于數據集更大,圖像涵蓋主題范圍更加廣泛且復雜。

對于人類評估和定量指標,XMC-GAN 在多個數據集模型中相較之前有顯著的改進。可以生成與輸入描述非常匹配的高質量圖像,包括更長,更詳細的敘述,同時端到端模型的復雜度也相對較為簡單,這代表了從自然語言描述生成圖像的創造性應用的重大進步。

責任編輯:lq6

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 圖像
    +關注

    關注

    2

    文章

    1096

    瀏覽量

    42326
  • GaN
    GaN
    +關注

    關注

    21

    文章

    2366

    瀏覽量

    82238

原文標題:XMC-GAN:從文本到圖像的跨模態對比學習

文章出處:【微信號:livevideostack,微信公眾號:LiveVideoStack】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    全球首個最大規模本體視觸覺多模態數據集白虎-VTouch發布

    全球首個最大規模本體視觸覺多模態數據集——白虎-VTouch(Vision-Based Tactile Sensor),總規模超過60,000分鐘。
    的頭像 發表于 01-29 14:41 ?473次閱讀

    格靈深瞳多模態大模型Glint-ME讓圖文互搜更精準

    在電商、安防等場景下,圖文互搜應用廣泛。隨著以CLIP為代表的多模態表征方法相繼提出,過去單一模態搜索(文搜文、圖搜圖)被突破,模型可以同時理解文本圖像、音頻乃至視頻,實現
    的頭像 發表于 11-02 15:56 ?1713次閱讀
    格靈深瞳多<b class='flag-5'>模態</b>大模型Glint-ME讓圖文互搜更精準

    亞馬遜云科技上線Amazon Nova多模態嵌入模型

    的統一嵌入模型,能以行業頂尖的準確率實現模態檢索。 當今,企業正不斷尋求解決方案,以期從文本圖像、文檔、視頻、音頻等海
    的頭像 發表于 10-29 17:15 ?261次閱讀
    亞馬遜云科技上線Amazon Nova多<b class='flag-5'>模態</b>嵌入模型

    米爾RK3576部署端側多模態多輪對話,6TOPS算力驅動30億參數LLM

    細化需求,系統需實時調整響應策略 1.2 多輪對話系統鳥瞰:三顆“核心”協同驅動RK3576 多模態交互對話方案基于 RKLLM 的核心運作,依賴于圖像視覺編碼器、大語言模型與對話管家這三大模塊的協同
    發表于 09-05 17:25

    淺析多模態標注對大模型應用落地的重要性與標注實例

    ”的關鍵工序——多模態標注重要性日益凸顯。 一、什么是多模態標注? 多模態標注是指對文本圖像、語音、視頻、點云等異構數據進行
    的頭像 發表于 09-05 13:49 ?2244次閱讀

    基于米爾瑞芯微RK3576開發板的Qwen2-VL-3B模型NPU多模態部署評測

    案例:支持圖像文本交互 步驟 1:環境準備 步驟 2:模型的獲取、驗證與格式轉換 步驟 3:修改代碼并交叉編譯可執行文件并上傳到板子上 步驟 4:上傳文件開發板 性能測試 Tips 多
    發表于 08-29 18:08

    中國科學院自動化研究所攜手中科曙光打造高性能工具鏈解決方案

    2019年起,中國科學院自動化研究所以語音、文本圖像等單模態大模型的研究與應用為基石,全力攻關全球首個千億參數多模態大模型。如今,相關產品已突破
    的頭像 發表于 08-11 11:08 ?1057次閱讀

    無法使用OpenVINO?在 GPU 設備上運行穩定擴散文本圖像的原因?

    在OpenVINO? GPU 設備上使用圖像大小 (1024X576) 運行穩定擴散文本圖像,并收到錯誤消息: RuntimeError: Exception from
    發表于 06-25 06:36

    利用NVIDIA 3D引導生成式AI Blueprint控制圖像生成

    AI 賦能的圖像生成技術突飛猛進,從早期模型會生成手指過多的人類圖像,到現在能創造出令人驚嘆的逼真視覺效果。即使取得了如此飛躍,仍然存在一個挑戰:實現創意掌控。
    的頭像 發表于 06-05 09:24 ?891次閱讀

    如何使用離線工具od SPSDK生成完整圖像

    對我來說,完整圖像是指包含 keyblob、FCB 等的圖像。換句話說,圖像包含 0x30000000 0x30000FFF 之間的大約 4KB。 如果我理解正確,使用 SPT(以
    發表于 03-28 06:51

    把樹莓派打造成識別文本的“神器”!

    在許多項目中,RaspberryPi被用作監控攝像頭或執行機器學習任務。在這些場景中,圖像中經常包含應用程序感興趣的文本信息。我們希望提取這些信息并將其轉換,以便通過程序分析文本
    的頭像 發表于 03-25 09:30 ?979次閱讀
    把樹莓派打造成識別<b class='flag-5'>文本</b>的“神器”!

    一種多模態駕駛場景生成框架UMGen介紹

    端自動駕駛技術的快速發展對閉環仿真器提出了迫切需求,而生成式模型為其提供了一種有效的技術架構。然而,現有的駕駛場景生成方法大多側重于圖像模態
    的頭像 發表于 03-24 15:57 ?1686次閱讀
    一種多<b class='flag-5'>模態</b>駕駛場景<b class='flag-5'>生成</b>框架UMGen介紹

    端自動駕駛多模態軌跡生成方法GoalFlow解析

    自動駕駛軌跡規劃往往采用直接回歸軌跡的方法,這種方式雖在測試中能取得不錯的性能,可直接輸出當前場景下最有可能的軌跡或控制,但它難以對自動駕駛場景中常見的多模態動作分布進行有效建模。
    的頭像 發表于 03-18 17:59 ?1530次閱讀
    端<b class='flag-5'>到</b>端自動駕駛多<b class='flag-5'>模態</b>軌跡<b class='flag-5'>生成</b>方法GoalFlow解析

    ?VLM(視覺語言模型)?詳細解析

    支持生成式任務。 多模態融合 :通過模態注意力機制、投影層(如CLIP將圖像文本映射到同一空間
    的頭像 發表于 03-17 15:32 ?8823次閱讀
    ?VLM(視覺語言模型)?詳細解析

    使用OpenVINO GenAI和LoRA適配器進行圖像生成

    借助生成式 AI 模型(如 Stable Diffusion 和 FLUX.1),用戶可以將平平無奇的文本提示詞轉換為令人驚艷的視覺效果。
    的頭像 發表于 03-12 13:49 ?1875次閱讀
    使用OpenVINO GenAI和LoRA適配器進行<b class='flag-5'>圖像</b><b class='flag-5'>生成</b>