微軟Obj-GAN可將文字轉(zhuǎn)換成復(fù)雜的場景
正如任何熱心的讀者都會做到的那樣,人類只要精心挑選幾個詞,就能想象出復(fù)雜的場景。然而,人工智能系統(tǒng)在將文本描述轉(zhuǎn)換成圖片的任務(wù)上遇到了困難。現(xiàn)在,來自微軟和JD人工智能實驗室的研究人員提出了一種基于對象驅(qū)動的專注生成對抗網(wǎng)絡(luò)(Obj-GAN)的新模型,該模型能夠基于一個簡短的短語或描述性文本句子生成相對復(fù)雜的場景。Obj-GAN的生成器識別描述性單詞和對象級信息,逐步細(xì)化合成圖像,在圖像細(xì)節(jié)和成分元素之間的關(guān)系方面改進(jìn)了之前的前沿模型。下面是運用不一樣人工智能技術(shù)生成的真實圖片和文本描述圖像的比較。研究結(jié)果表明,隨著描述的復(fù)雜化,Obj-GAN與其他GANs相比,越來越能夠?qū)⑽谋巨D(zhuǎn)換成逼真的圖像。 通過測驗Obj-GAN的泛化能力,研究人員發(fā)現(xiàn),該模型會根據(jù)在現(xiàn)實世界中沒有多大意義的文本輸入生成物理或關(guān)系不合理的圖像。例如:從文本生成圖像的一個困難是,如何讓人工智能系統(tǒng)理解場景中多個對象之間的關(guān)系。以前的方式運用圖像描述對,它們僅為單個對象提供粗粒度的信號,因此即使是這種類型的最佳模型也難以生成包含以合理配置排列的多個對象的圖像。為了搞定這個問題,研究人員提出了一種新的目標(biāo)驅(qū)動注意力機制,將圖像生成分為兩個步驟:首先,研究人員運用seq2seq關(guān)心模型,將文本轉(zhuǎn)換為語義布局,比如邊框和形狀。然后,一個多級注意力圖像生成器在上述布局的基礎(chǔ)上創(chuàng)建一個低辨別率的圖像,通過關(guān)心最相關(guān)的單詞和預(yù)先生成的類標(biāo)簽,在不一樣區(qū)域細(xì)化細(xì)節(jié)。研究人員還規(guī)劃了分段和對象分類器,以確定合成的圖像是否與文本描述和預(yù)先生成的布局匹配。在他們的實驗中,研究人員發(fā)現(xiàn)Obj-GAN在各種COCO基準(zhǔn)測驗任務(wù)上優(yōu)于之前的SOTA方式,使Inception的分?jǐn)?shù)提升了27%。該論文通過對抗性訓(xùn)練,實現(xiàn)了基于對象驅(qū)動的文本到圖像的合成。Obj-GAN模型和代碼已經(jīng)在GitHub上開源。