人工智能算法與Python大數(shù)據(jù) 致力于提供深度學(xué)習(xí)、機(jī)器學(xué)習(xí)、人工智能干貨文章,為AI人員提供學(xué)習(xí)路線以及前沿資訊
22篇原創(chuàng)內(nèi)容
公眾號
點(diǎn)上方人工智能算法與Python大數(shù)據(jù)獲取更多干貨
在右上方 ··· 設(shè)為星標(biāo) ★,第一時(shí)間獲取資源
僅做學(xué)術(shù)分享,如有侵權(quán),聯(lián)系刪除
轉(zhuǎn)載于 :新智元
英偉達(dá)的藝術(shù)家神器GauGAN最近發(fā)布了第二代,生成風(fēng)景畫的能力進(jìn)一步提升,原來還需要自己指定一些材料合成圖像,現(xiàn)在只需要一句話即可生成你想要的風(fēng)景畫,甚至季節(jié)等常識他也懂!
最近,英偉達(dá)發(fā)布了實(shí)時(shí)繪畫工具GauGAN的第二代,主要特性是支持輸入文本來生成圖像。在新版本中,GauGAN2集成了segmentation mapping, inpainting和text-to-image生成技術(shù),用戶可以生成一些在現(xiàn)實(shí)生活中并不存在的風(fēng)景。GauGAN2的目標(biāo)是創(chuàng)造一種混合文字和圖像的一種攝像技術(shù)!與專門用于文本到圖像或圖像到圖像分割應(yīng)用的最新模型相比,GauGAN2背后的神經(jīng)網(wǎng)絡(luò)模型能夠產(chǎn)生了更加多樣、質(zhì)量更高的圖像。用戶不必繪制想象場景中的每一個(gè)元素,只需要輸入一個(gè)簡短的短語就能夠快速生成圖像的關(guān)鍵特征和主題,例如輸入雪山,就能夠生成一個(gè)雪山的草圖。然后以這個(gè)草圖為起點(diǎn),進(jìn)行下一步的圖像修改,例如把山變高,加幾棵樹,換一個(gè)天空等等,可以說是十分方便了!GauGAN這個(gè)名字的靈感來自于印象派畫家保羅·高更(Paul Gaugin),他死后作品才開始名聲大噪。他是印象派的代表人物,除去繪畫之外,在雕塑、陶藝、版畫和寫作上也有一定的成就。他對色彩的使用導(dǎo)致了綜合主義的產(chǎn)生,加上分隔主義的影響,也為原始主義的產(chǎn)生鋪平了道路。從2019年開始,Nvidia就給GauGAN系統(tǒng)喂了超過100萬張公共Flickr圖片進(jìn)行模型訓(xùn)練。2019年3月,在加州圣何塞舉行的GPU技術(shù)大會(GTC)上,Nvidia揭開了GauGAN的面紗,這是一種生成對抗性AI系統(tǒng),可以讓用戶創(chuàng)建實(shí)際并不存在的逼真風(fēng)景圖像。GauGAN測試版在Playground平臺上發(fā)布后的第一個(gè)月,就已經(jīng)生成了50萬張圖片,包括電影、視頻游戲等概念藝術(shù)領(lǐng)域均有應(yīng)用。Nvidia表示,GauGAN已經(jīng)被一家醫(yī)療保健組織用于探索性治療工具使用,動畫建模師Colie Wertz也在使用GauGAN,他的作品包括《星球大戰(zhàn)》、《變形金剛》和《復(fù)仇者聯(lián)盟》等。GauGAN的首次公開使用是在GANPaint Studio中,這是一個(gè)公開的人工智能工具,可讓用戶上傳任何照片并編輯所描繪的建筑物,植物群和固定裝置的外觀。在其他地方,生成機(jī)器學(xué)習(xí)模型已被用于通過觀看YouTube剪輯,從自然語言標(biāo)題創(chuàng)建圖像和故事板,以及使用包含人類語音的音頻剪輯來動畫和同步面部運(yùn)動來生成逼真的視頻。與GauGAN的第一代一樣,GauGAN2知道雪、樹、水、花、灌木、山和山等物體之間的關(guān)系,例如降水類型隨季節(jié)變化這種常識在圖像生成中也能夠保持。GauGAN和GauGAN2同樣還是基于對抗生成網(wǎng)絡(luò)(GAN),模型中包含一個(gè)生成器和判別器。生成器用來接收輸入樣本(一個(gè)文本和一個(gè)圖像)然后預(yù)測出這個(gè)文本描述是否和風(fēng)景圖像內(nèi)容能對應(yīng)上。生成器的訓(xùn)練過程是通過試圖欺騙判別器,使其無法分辨生成圖片和現(xiàn)實(shí)場景的圖片。雖然GAN在初期生成的質(zhì)量很差,一眼假,但它的生成器會隨著判別器的反饋而不斷變強(qiáng)。在第一代基礎(chǔ)上,GauGAN2接收了超過1000萬張圖片的訓(xùn)練,已經(jīng)能夠很好地將自然語言轉(zhuǎn)換為風(fēng)景圖像。例如輸入「海灘上的日落」就會產(chǎn)生一對應(yīng)的風(fēng)景圖,在這基礎(chǔ)上添加諸「落基山海灘上的日落」或?qū)ⅰ溉章洹固鎿Q為「下午」或「雨天」等形容詞也會立即生成修改后的圖片。使用GauGAN2,用戶可以生成一個(gè)分割圖(segmentation map),能夠顯示場景中物體位置。用戶可以將生成的圖像切換到繪圖模式,用天空、樹、巖石和河流等標(biāo)簽將場景繪制成粗糙的草圖,并能夠使用畫筆將涂鴉嵌入圖像中。GauGAN2和OpenAI的DALL-E差不多,DALL-E也是根據(jù)文本提示來生成圖像。這類系統(tǒng)本質(zhì)上是視覺創(chuàng)意的創(chuàng)造器,在電影、軟件、視頻游戲、產(chǎn)品、時(shí)尚和室內(nèi)設(shè)計(jì)方面有潛在的應(yīng)用場景。Nvidia聲稱,GauGAN的第一個(gè)版本已經(jīng)被用來創(chuàng)造電影和視頻游戲的概念藝術(shù)。并且與第一版相同,Nvidia計(jì)劃在GitHub上開源GauGAN2 的代碼,并在Playground上進(jìn)行交互式演示,Playground是Nvidia AI和深入學(xué)習(xí)研究的網(wǎng)絡(luò)中心。但,像GauGAN2這樣的生成模型的一個(gè)缺點(diǎn)是可能存在模型偏見。在Dall-E的生成樣例中,OpenAI使用了一個(gè)特殊的模型CLIP來提高圖像質(zhì)量,用到的方法是在DALL-E生成的每條樣本中把頂層樣本給覆蓋掉,換成其他的提示圖。但是一項(xiàng)研究發(fā)現(xiàn),CLIP錯(cuò)誤分類的黑人個(gè)人照片的比例更高,并且它會認(rèn)為從事諸如保姆、和家政工人等職業(yè)是和婦女相關(guān)的。在相關(guān)新聞材料中,Nvidia并沒有說明他們的研發(fā)團(tuán)隊(duì)如何審核GauGAN2中的社會偏見。但Nvidia發(fā)言人在郵件中說過,該模型有超過1億參數(shù),并使用風(fēng)景數(shù)據(jù)集中訓(xùn)練了一個(gè)月。這個(gè)專用的模型完全專注于風(fēng)景景觀,研究人員審計(jì)以確保在訓(xùn)練圖像中沒有人物的出現(xiàn)。目前來說,GauGAN2只是一個(gè)研究演示。另一個(gè)GauGAN的應(yīng)用是Nvidia Canvas,能夠讓創(chuàng)作者通過材料而不是顏色來繪畫。這個(gè)程序能夠?qū)崟r(shí)現(xiàn)實(shí)繪畫結(jié)果,而不需要等待完整的繪畫。用戶首先用現(xiàn)實(shí)世界的材料,如草地或云彩,畫出簡單的形狀和線條。人工智能模型然后立即填充屏幕顯示停止的結(jié)果。四個(gè)快速的形狀和一個(gè)驚人的山脈出現(xiàn)。再多幾條線就會形成一片美麗的田野。NVIDIA canvas也提供了多種材料可供使用。NVIDIA畫布有九種風(fēng)格,修改的外觀和感覺的繪畫和15種不同的材料,從天空和山脈,河流和石頭。在不同的圖層上繪制,使元素保持分離。從頭開始,或啟動和修改應(yīng)用程序的預(yù)制場景之一,以獲得更完美的靈感提示。在池塘里畫畫,附近的元素如樹木和巖石就會出現(xiàn)在水中的倒影。換一種材料,把雪變成草,整個(gè)形象就從一個(gè)冬天的仙境變成了一個(gè)熱帶的天堂。該工具允許藝術(shù)家使用樣式過濾器,改變生成的圖像,以采用特定的畫家的風(fēng)格。不僅僅是把其他圖片拼接起來,或者剪切和粘貼紋理,而是創(chuàng)造全新的圖像,就像藝術(shù)家一樣。有了英偉達(dá)的GauGAN,人人都能成為藝術(shù)家了!參考資料:
https://venturebeat.com/2021/11/22/nvidias-latest-ai-tech-translates-text-into-landscape-images/
本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請
點(diǎn)擊舉報(bào)。