谷歌可能教過人工智能如何涂鴉,但繪制一些更復雜的東西對于電腦來說很難。想象一下,讓一臺電腦畫一只“黑色的翅膀和一個短喙的黃色的鳥”;這聽起來有點棘手。不過,微軟的研究人員已經開發了一種基于人工智能的技術來做到這一點。根據團隊發布的最新文章,它以驚人的準確性從文本描述生成圖像。
系統根據您的輸入找不到現有的圖像,但會創建真實的圖形。首席研究員何曉東在一份聲明中表示:“如果你去了Bing并且尋找一只鳥,你就會得到一張鳥的照片,但是這里的照片是由計算機逐個像素地從頭開始制作的。 “這些鳥可能不存在于現實世界中 - 它們只是我們計算機對鳥類想像力的一個方面。”
雖然這種繪畫技術的當前形式并不完美,但不難想象,未來它可以作為畫家和室內設計師的素描助手,或者是基于語音輸入來精煉照片的工具。更遠的是,研究人員他想象從書面腳本生成的動畫電影。
該團隊開始研究計算機視覺和自然語言處理與CaptionBot,一個人工智能系統,自動為照片寫字幕,然后創建一個系統回答人們問的圖像稱為SeeingAI的問題,如果你是盲人。目前的技術由兩部分組成:一個是產生被稱為生成對抗網絡(GAN)的圖像,另一個是判斷所產生的圖像的質量,稱為鑒別器。繪圖機器人接受了一系列圖像和標題的訓練,教導人工智能學習使用哪些圖像處理哪些單詞。團隊還創建了一個人類關注的數學表示,當我們從復雜的描述中繪制圖片時,我們都使用這個表示:一個紅色的翅膀,一個尖銳的喙,一個黃色的翅膀。他說:“注意力是一個人的概念,我們用數學來計算注意力。”
這個繪圖機器人完成了圍繞計算機視覺和自然語言處理交叉部分的研究循環,何曉東和他的同事在過去五年中一直在這個領域內摸索。他們一開始研究的是一項能夠自動為照片編寫標題的技術——CaptionBot,然后轉向能夠回答人類關于圖像問題(例如語音對象的位置和屬性)的技術,這種技術對于盲人來說特別有用。
這些研究工作需要訓練機器學習模型來識別對象、解釋行為并用自然語言進行交談。
微軟研究院研究員Pengchuan Zhang補充表示,圖像生成是一項比圖像字幕更具挑戰性的任務, 因為這個過程需要繪圖機器人想象出標題中沒有包含的細節。“這意味著,你需要讓運行人工智能的機器學習算法想象出這個圖像中缺失的部分。”
會集中注意力的圖像生成
微軟繪畫機器人的核心是生成式對抗網絡(Generative Adversarial Network,或者稱為GAN)技術。該網絡包含了兩個機器學習模型,一個根據文字描述生成圖形;另一個則作為鑒別器(discriminator),使用文本描述來判斷所生成的圖像的真實性。這兩個模型組合既矛盾又融合,生成器試圖讓假的圖片通過鑒別器的鑒定,鑒定器決定了自己不被愚弄,兩者一起工作,鑒定器會推動生成器變得完美。
傳統生成式對抗網絡(GAN)在根據簡單文字(例如藍色的鳥或者常青樹)描述生成圖像方面做得非常好,但是當文字描述變得更復雜的時候,例如綠色的頭、黃色的翅膀、紅色的肚皮的鳥,質量就會停滯不前。這是因為整個句子對于生成器來說是一個單一輸入,這些描述中的詳細信息丟失了,結果生成的圖像是一只模模糊糊的、有點綠、有點黃也有點紅的鳥,而不是嚴格按照句子中的描述進行著色的鳥。但是,微軟的該項技術尤其擅長根據復雜的句子繪制圖像,而且,在標題的描述中沒有提到的具體細節方面,機器人也可以填補這些空白。
這是因為,它有一點自己的常識和想象力,這要感謝它的訓練數據。在鳥的例子中,機器人畫的鳥通常是站在枝頭上的,即使是文本內容中并沒有提到這一細節也是如此,這是因為最初提供給它的圖像經常出現類似的內容。
微軟的繪圖機器人使用了標題和圖像匹配好了的數據集進行訓練,這讓這些模型能夠學會如何將文字內容和這些內容的可視化表達相匹配。例如,這個生成式對抗網絡(GAN)學會了在標題是鳥的時候生成一個鳥的圖像,而且也學到了鳥的圖像應該是什么樣子。何曉東表示:“這是我們相信機器可以學習的根本原因。”
在人類畫畫的過程中,會反復查看下一步畫什么,并且十分專注于正在描繪的這一部分內容當中。為了捕捉這一人類特質,微軟研究人員創建了他們稱之為注意力生成式對抗網絡或AttnGAN的技術,它從數學上代表了人類的注意的概念。它是通過將輸入的文本內容分解為單個的詞語,并將其同圖像中特定的區域進行匹配來完成這一任務的。

何曉東解釋說:“注意力是一個人類的概念;我們把注意力的問題變成了一個計算的問題。”
該模型還會從訓練數據中學習人類稱之為常識的東西,并且利用這些學到的概念來填補圖像中可供想象的空白部分。例如,由于訓練數據中的很多圖像里的鳥都是站在枝頭之上的,所以除非文本內容另有詳細說明,AttnGAN通常畫出的鳥也都是站在枝頭之上的。
Pengchuan Zhang表示:“從數據來看,機器學習算法學到了鳥應該在哪里這一常識。”作為難度測試,該團隊給這個繪圖機器人一些荒謬的題目,例如“漂浮在湖面上的紅色雙層巴士。”結果它生成了一個模糊的、濕漉漉的圖像,既有點像一艘有雙層甲板的船,又有點像一輛雙層巴士,漂浮在群山環繞的湖面上。這個圖像表明,該機器人內部產生了斗爭,它知道船是漂浮在湖面上的,而文本內容卻詳細指定了對象是一輛巴士車。
何曉東解釋說:“我們的描述可以天花亂墜,看看機器會如何反應。這臺機器有一些背景知識的常識,但它仍然服從你的要求,盡管有時這些要求聽起來有點荒謬。”
當然,這不是第一項將藝術和人工智能結合在一起的技術案例。
這兩者的交叉有時會產生奇妙的結果。比如谷歌的人工智能繪制的這些夢幻般的圖像就有了自己的藝術展,谷歌還有一個神經網絡可以猜測你正在畫的是什么,還有一個自動繪圖機器人等等。
Facebook也一直在教導神經網絡繪制一些小圖形,例如飛機、汽車和動物等,甚至從照片中創建自己的Bitmoji風格的化身形象。
英偉達的研究人員使用人工智能(A.I)創建了計算機生成的名人。
實際應用
從文本到圖像的生成技術可以找到很多實際應用,可以作為畫家和室內設計師的草圖助理,或者作為語音激活照片的細化工具。何曉東認為,如果有更多的計算能力,這項技術能夠根據電影劇本生成動畫電影,通過消除一些手工勞動來改善動畫電影制片人的工作。
然而目前來看,微軟的這項技術還不完善。如果你仔細檢查圖像就能找到瑕疵,例如鳥的喙是藍色的而不是黑色的,以及水果攤位上有突變的香蕉。這些缺陷清楚地表明,創造這幅畫的是電腦而不是人類。盡管如此,何曉東認為,這個AttnGAN生成的圖像的質量比之前最好的GAN生成的圖像質量提高了接近三倍,已經成為了通往類人類智能道路上的一個里程碑,這些類人類智能能夠增強人類的能力。
何曉東進一步解釋說,“對于生活在同一個世界里的人工智能和人類來說,他們必須有一種彼此交流的方式。而語言和視覺是人類和機器互相交流的兩種最重要的方式。”
原文標題:微軟AI可以根據詳細的文本描述來繪制對象
文章出處:【微信號:IEEE_China,微信公眾號:IEEE電氣電子工程師】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
微軟全新AI超級工廠Fairwater在亞特蘭大落成
CAD如何繪制螺旋線
Labview 解析dxf文件并顯示<一>
【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI芯片到AGI芯片
【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI的科學應用
微軟Visual Studio 2026 發布!AI 深度融合、性能提升
微軟AI可以根據詳細的文本描述來繪制對象
評論