久久手机免费视频,九九激情,亚洲精品第一区二区在线

Google提出了一個跨模態對比學習框架來訓練用于文本到圖像合成的 GAN 模型，用于研究解決生成的跨模態對比損失問題。

從文本到圖像的自動生成，如何訓練模型僅通過一段文本描述輸入就能生成具體的圖像，是一項非常具有挑戰性的任務。

與其它指導圖像創建的輸入類型相比，描述性句子是一種更直觀、更靈活的視覺概念表達方式。強大的自動文本到圖像的生成系統可以成為快速、有效的內容生產、制作工具，用于更多具有創造性的應用當中。

在CVPR 2021中，Google提出了一個跨模態對比生成對抗網絡（XMC-GAN），訓練用于文本到圖像合成的 GAN 模型，通過模態間與模態內的對比學習使圖像和文本之間的互信息最大化，解決文本到圖像生成的跨模態對比損失問題。

XMC-GAN 文本到圖像合成模型中的模態間和模態內對比學習

XMC-GAN 被成功應用于三個具有挑戰性的數據集：一個是MS-COCO 圖像描述集合，另外兩個是用Localized Narratives注釋的數據集，一個是包括MS-COCO 圖像（稱為LN-COCO），另一個描述開放圖像數據（LN-OpenImages）。結果顯示 XMC-GAN生成圖像所描繪的場景相比于使用其它技術生成的圖像質量更高，在每個方面都達到了最先進的水平。