大家好,我是和你們聊設(shè)計的花生~
在 6 月份的時候我寫了一篇有關(guān) AI 圖像工具的文章,為大家盤點了當時熱門的 4 款人工智能圖像生成工具,分別是 Disco Difussion、Dall·E 2、Midjounery 和 Tiamat。自今年年初 Disco Difussion 出現(xiàn)后,AI 圖像工具越來越受到大家的關(guān)注,各類具有強大圖像處理功能的 AI 工具紛紛暫露頭角。特別是 OpenAI 在今年 4 月份公布的最新技術(shù)成果 Dall·E 2,在外網(wǎng)引起熱烈討論,很多主流媒體爭相報道,也因此引起不少互聯(lián)網(wǎng)科技巨頭的關(guān)注。
在 Dall·E 2 發(fā)布后的短短兩三個月內(nèi),Google、微軟、Meta(Facebook)三家互聯(lián)網(wǎng)科技公司也紛紛推出自己在 AI 圖像工具方面的研究成果,其中很多新的技術(shù)都令人眼前一亮,今天就和大家簡單介紹一下這些新的 AI 圖像工具。
Imagen 官網(wǎng)地址: https://imagen.research.google/
在 Dall·E 2 公布僅 1 個月的時間,Google 就公布其人工智能系統(tǒng) Imagen。
Imagen 是一款文本-圖像的擴散(CLIP)模型,由 Google Research 和 Google Brain 團隊研發(fā),打出的標語是“前所未有的寫實感×深層次的語言理解”,即可以根據(jù)給定的提示詞,生成高度契合文本含義及具有照片般真實感的圖像。
我們之前介紹過,Dall·E 2 的功能包括根據(jù)文本生成具有圖像、根據(jù)文本提示修改圖像內(nèi)容、根據(jù)一張圖像延展出風格內(nèi)容相似的多張圖像。相比之下,Imagen 則更加專注于根據(jù)文本生成極具真實感的圖像。
據(jù) Imagen 官網(wǎng)介紹,為了比較 Imagen 與其他文本-圖像模型(如 DALL-E 2)在圖像生成方面的性能,Google 設(shè)立一個名為 DrawBench 的文本-圖像模型評估基準。這是一個具有 200 個提示文本的列表,將這些提示文本分別輸入不同的模型中輸出圖像,再由人類參與測評。Google 表示在此基準下,參與測試的人員普遍認為“在并排比較中,無論是在圖像生成的樣本質(zhì)量還是在圖像與文本的一致性方面,Imagen 都優(yōu)于其他模型”。
在 DrawBench 基準下,Imagen 與其他模型的測試結(jié)果對比。圖片來源:Imagen 官網(wǎng)
Parti 官網(wǎng)地址: https://parti.research.google/
Parti 是 Google 在推出 Imagen 不久后推出的另一款文本-圖像生成模型。二者都是專注于通過文本生成逼真的圖像,區(qū)別在于 Imagen 是擴散(CLIP)模型,而 Parti 是路徑自回歸文本-圖像(Pathways Autoregressive Text-to-Image )生成模型,后者可實現(xiàn)高保真、極具真實感的圖像生成。
據(jù)官網(wǎng)介紹,Parti 通過研究一組圖像來訓練自身模型來生成另一組新的圖像,可供研究的圖像數(shù)量越多,生成的圖像就越逼真。而 Parti 則在訓練過程中,將參照圖像數(shù)量由 3.5 億個提升至 200 億個,這也使得生成圖像與文本的契合度達到 75.9% 。
而且 Google 發(fā)現(xiàn),在圖片參照數(shù)量達到 200 億的情況下,Parti 在生成有關(guān)抽象、世界通識知識、特定視角、書寫和符號的圖像時特別出色。同時也發(fā)現(xiàn) Parti 可以處理長而復(fù)雜的提示,特別是這些提示涉及以下方面:
Google 還列出多組提示文本和輸出圖像作為例子,展示 Parti 是如何對參與者、活動、描述、地點和格式的變化做出反應(yīng)的。
雖然在官網(wǎng)中 Google 展示了 Parti 在圖像生成方面的優(yōu)勢,但也坦言這些展示出來的例子都是從很多實驗結(jié)果中精挑細選出來的。并表示雖然 Parti 能根據(jù)寬泛的提示文本產(chǎn)生了高質(zhì)量的輸出,但其模型還是有許多限制,比如對文本數(shù)量、特征的錯誤呈現(xiàn),以及對表示否定和不存在提示詞的錯誤處理等
官方介紹: https://ai.facebook.com/blog/greater-creative-control-for-ai-image-generation/
Make-A-Scene 是 Meta 在 7 月 14 日宣布推出的一項新的 AI 技術(shù),其最大特點是可以在用戶創(chuàng)作的粗略草圖的基礎(chǔ)上,結(jié)合文本提示生成具體的圖像,讓生成圖像的可控性更高。
“為了充分實現(xiàn)人工智能促進創(chuàng)造性表達的目標,人們必須能夠影響和控制這些智能模型產(chǎn)生的內(nèi)容。用戶應(yīng)該能夠以他們喜歡的任何方式來表達自己的想法,包括語音、文本、手勢甚至是繪圖,并且應(yīng)該易于使用和直觀?!边@是 Meta 在 Make-A-Scene 的介紹文章提出的觀點,也很好的表現(xiàn)了 Make-A-Scene 的意義所在。
與 Dall·E 2 和 Imagen 這種僅憑提示文本生成圖像的模型相比,Make-A-Scene 創(chuàng)作出的圖像有了更高的可控性。使用者可以通過草圖控制最終圖像的具體效果,包含元素數(shù)量、大小、形式、排列方式、構(gòu)圖、深度等各個方面。這項新技術(shù)使 Make-A-Scene 在與其他模型進行對比測試時,在圖像與文本契合度方面的評價明顯高于只根據(jù)文本生成的圖像的模型。當然用戶也可以選擇不使用草圖,直接通過文本生成所需的圖像。
在給定的文本提示下,不同的形狀草圖可以生成不同的圖像
在給定的草圖下,不同的提示文本可以生成形式相同但風格不同的圖像
為了進一步開發(fā)這種由草圖生成圖像的技術(shù),Meta 邀請了幾位著名藝術(shù)家進行合作,共同探索 Make-A-Scene 如何能更好地將人們的想象力變?yōu)楝F(xiàn)實;同時也讓兒童參與到這個研究過程中,讓 Make-A-Scene 將小朋友充滿想象力的繪畫的草圖變?yōu)楝F(xiàn)實。
藝術(shù)家Crespo使用 Make-A-Scene ,用草圖和文字提示創(chuàng)作新的生物插圖,提示文本為:一幅夜間的有花瓣外形的外星水母的畫。Crespo認為這種創(chuàng)作方式“這將有助于更快地發(fā)揮創(chuàng)造力,并幫助藝術(shù)家使用更直觀的界面工作”
Meta 認為通過 Make-A-Scene 這類的 AI 項目,無論原本的藝術(shù)能力如何,人們都將能無限拓展創(chuàng)意表達的邊界,而且無論是在現(xiàn)實世界和虛擬世界中,人們都能將自己的愿景變?yōu)楝F(xiàn)實。熟悉 Meta 的朋友可能知道其在元宇宙方便的布局,而人工智能圖像工具的發(fā)展讓人們通過語言或其他方式構(gòu)建虛擬空間成為可能,這對 Meta 進軍元宇宙的布局也有重要意義。
官網(wǎng): https://nuwa-infinity.microsoft.com/#/
Github: https://github.com/microsoft/NUWA
初看到 NUWA 這個單詞你會想到什么?沒錯,就是我們熟知的中國神話人物“女媧”。
NUWA-Infinity 是微軟亞洲研究院聯(lián)合北京大學、微軟 Azure AI 一起推出的一款無限視覺合成的生成模型,能根據(jù)給定的文本生成任意大小的高分辨率圖像或長時間視頻,也是目前唯一一個能從文本生成的圖像中生成長視頻的 AI 模型。
NUWA-Infinity官網(wǎng)展示的根據(jù)《清明上河圖》生成的新圖像,新圖像大小達到了驚人的 38912*2048 px。
之所以說是任意大小的高分辨,是因為前文提到的 Imagen 和 Parti 目前能生成圖片大小為 1024*1024px,Meta 在其官方文章中表示 Make-A-Scene 的圖像分辨率能達到 2048*2048px,而 NUWA-Infinity 則是真正任意大小的“ Infinity”。
在官網(wǎng)上,NUWA-Infinity 展示了其根據(jù)《清明上河圖》生成的新圖像,新圖像的大小達到了驚人的 38912*2048 px。為了更好地適應(yīng)頁面,官方將完整的圖像分割為 6 個部分,每個部分的分辨率為有 6485* 2048 px。NUWA-Infinity 還將 Windows 系統(tǒng)經(jīng)典的草原壁紙延展為超寬的新圖像,點開圖片靜靜播放,你能體驗到一種坐著綠皮火車穿過草原山川的感覺。
受動圖大小限制是截取了一小段,強烈建議大家到官網(wǎng)感受一下
功能一:圖像外延(IMAGE OUTPAINTING)
NUWA-Infinity 能根據(jù)給定的圖像,通過學習、想象和生成新內(nèi)容,將其擴展為任意大小和分辨率的圖像。圖像具有超大尺寸、自我創(chuàng)作能力、局部細節(jié)與全局一致這 3 點特征,且這種圖像拓展不限方向。
NUWA-Infinity對圖像進行不同方向拓展的演示,包括向左、向右、向下、向上以及向同時向四周拓展
功能二:圖像轉(zhuǎn)視頻( IMAGE TO VIDEO)
NUWA-Infinity 可以將圖像轉(zhuǎn)化為視頻,給靜態(tài)圖片帶來顯目的生動性。
左圖為原始靜態(tài)圖片,右圖為NUWA-Infinity根據(jù)靜態(tài)圖像生成的動態(tài)圖像
功能三:文本轉(zhuǎn)圖像 (TEXT TO IMAGE)
只需簡單的單詞和句子,NUWA-Infinity 就可以生成各種令人嘆為觀止的高分辨率圖像。
NUWA-Infinity根據(jù)文本提示生成的各種高清圖像
除了以上 3 項主要功能,NUWA-Infinity 還在其論文中提到可以通過圖像繪制和從自然語言描述中創(chuàng)建卡通動畫,并希望這種技術(shù)能夠幫助視覺內(nèi)容創(chuàng)作者節(jié)省時間、降低成本,并提高他們的生產(chǎn)力和創(chuàng)造力。
本篇一共為大家介紹了 4 款由互聯(lián)網(wǎng)科技巨頭推出的最新 AI 圖像工具,它們分別是:
相比 Dall·E 2,這 4 款 AI 圖像工具在技術(shù)上都有不同程度的創(chuàng)新,雖然由于模型訓練數(shù)據(jù)中存在社會偏見、害怕害怕產(chǎn)生有害的圖像、會被公眾濫用等各種原因,這些工具還不能對公眾開放,但相信等未來技術(shù)更加成熟后,這些 AI 工具會給我們的工作和生活帶來顛覆性的改變。
以上就是今天的全部內(nèi)容,喜歡的小伙伴記得點贊收藏,也可以分享給身邊感興趣的朋友。如果你對文章內(nèi)容有任何疑問,歡迎在評論區(qū)提出,我將會第一時間做出回應(yīng)~