最近一年里,AIGC 是人工智能領(lǐng)域里最火的詞匯之一。
1 月 10 到 11 日,機(jī)器之心「AI 科技年會(huì)」在線舉行。本次活動(dòng)中,基于對(duì) 2022 年人工智能研究、技術(shù)和應(yīng)用的觀察,機(jī)器之心邀請(qǐng)業(yè)內(nèi)知名專家、高管及本年度深度合作企業(yè),共同總結(jié)了過去一年人工智能的重要經(jīng)歷與成果,討論了未來 AI 的發(fā)展方向。在大會(huì)第二天「AIGC 技術(shù)應(yīng)用論壇」上,百度文心一格總架構(gòu)師肖欣延博士作了主題為《跨模態(tài)內(nèi)容生成與技術(shù)與應(yīng)用》的演講。以下為演講全文,本文進(jìn)行了不改變?cè)獾恼怼?/span>我叫肖欣延,現(xiàn)在主要在百度負(fù)責(zé)內(nèi)容生成及 AIGC 技術(shù),也是「文心一格」的總架構(gòu)師。今天我報(bào)告的題目是《跨模態(tài)內(nèi)容生成技術(shù)與應(yīng)用》。今年大家都很關(guān)注人工智能領(lǐng)域的一個(gè)方向 —— 內(nèi)容生成。從圖像生成角度來看,下圖左邊是 2020 年圖像生的水平,是很有代表性的一個(gè)拍賣畫作。到了 2022 年,技術(shù)已經(jīng)相比之前強(qiáng)了很多。我們?nèi)我庹f一句話就能生成一張非常精致的圖,不管是非常復(fù)雜的山水圖,還是很精致很細(xì)膩的人物畫像,都能做得很好了。我們可以感受到整個(gè)內(nèi)容生成方向的進(jìn)展是非常迅速的。
其實(shí)除了圖像生成,語言生成的進(jìn)展也很快。直觀來講,以前更多的是在比較短的文本上生成得比較好。但到了今年,長文本的內(nèi)容,比如故事生成、長文案生成,還有多輪聊天,文本生成都能做得很好。它能兼顧到前后的連貫性,甚至有時(shí)能保證邏輯上的一致性。更綜合的就是視頻創(chuàng)作。視頻創(chuàng)作是讓機(jī)器能夠自動(dòng)創(chuàng)作出一個(gè)完整的視頻。視頻會(huì)涉及到文案、畫面和歌曲等很多元素。這是百度最近在萬象大會(huì)上發(fā)布的,由 AI 度曉曉作詞作曲演唱的 MV《啟航星》,里面所有的畫面都是用百度的文心一格畫出來的。能夠看到 AI 能根據(jù)歌詞的變化,每個(gè)變化切換一個(gè)場景。
整體上,前面講到的這些都是智能內(nèi)容生產(chǎn),也就是今年大家常說的 AIGC。所謂 AIGC 就是用人工智能來進(jìn)行內(nèi)容生產(chǎn),它的特點(diǎn)是有非常強(qiáng)大的內(nèi)容生產(chǎn)力,大幅提升內(nèi)容生產(chǎn)的質(zhì)量和效率,將來也會(huì)極大地豐富大家的數(shù)字生活。這里給了一個(gè)簡單的對(duì)比圖,整個(gè)內(nèi)容生產(chǎn)從專業(yè)的 PGC 到用戶生產(chǎn)的 UGC,現(xiàn)在已經(jīng)進(jìn)入了 AIGC 的時(shí)代。相信 在 AIGC 的時(shí)代,整個(gè)內(nèi)容生產(chǎn)的方式,還有內(nèi)容消費(fèi)的模式都會(huì)有極大的改變。
百度在 AIGC 的技術(shù)上有比較多的布局。不管從底層的文心大模型,包括語言、視覺、跨模態(tài)大模型,還是在生成能力上面,包括語言生成、圖像生成,語音合成和數(shù)字人等,各方面都有涉及。今天要介紹的是其中的一部分 —— 跨模態(tài)內(nèi)容生成。核心來講,我們希望用文本的描述來生成視覺的內(nèi)容。比如說一句話能生成一個(gè)圖像,或者我們寫一篇文章,能把文章自動(dòng)轉(zhuǎn)成視頻。報(bào)告主要分成兩大塊,一塊是文生圖,我會(huì)介紹 百度的 AI 作畫產(chǎn)品文心一格;另外一塊是文章轉(zhuǎn)視頻。最后,我會(huì)進(jìn)行討論和展望。首先是文生圖的部分。整體來講,文生圖在 2018 年或更早就有很多研究,我們能看到從 2020 年之后該方向進(jìn)展很多。從應(yīng)用角度來講,很大的一個(gè)變化還是在 2022 年擴(kuò)散模型的圖像生成出現(xiàn),使得整個(gè)跨模態(tài)生成有了一種跨越式的發(fā)展。
我們可以看到,2022 年的圖像生成質(zhì)量相比之前有非常大幅的提升,不管是從構(gòu)圖,還是細(xì)節(jié)刻畫上。這種擴(kuò)展生成模型如圖所示,其實(shí)是依照原有圖像,逐步增加高斯噪聲,將圖像轉(zhuǎn)化為高斯分布。這樣的處理序列是一張清晰的圖片,逐漸變成噪聲的過程,這是一個(gè)前向過程。而模型要學(xué)習(xí)的是把噪聲去除掉,逐漸的恢復(fù)出原始照片。一旦我們的模型有這樣能力,也就是從噪聲里面去逐步地去噪,生成更好的圖片,它其實(shí)上就具備了這種生成圖像的能力了。
這是一個(gè)簡單的描述,擴(kuò)展生成從應(yīng)用的角度來講有這樣幾個(gè)優(yōu)勢(shì):首先,模型的記憶能力是非常強(qiáng)的。我們可以通過提高數(shù)據(jù)的規(guī)模持續(xù)地優(yōu)化。在 2020 年到 2021 年的時(shí)候,像 DALL-E 這些模型的數(shù)據(jù)量的訓(xùn)練規(guī)模大概在千萬到億級(jí)別這樣的量級(jí)。到了今年,像 Stable Diffusion 這樣的模型的訓(xùn)練規(guī)模已經(jīng)達(dá)到了 10 億的量級(jí)。這么大的數(shù)據(jù)之下,它對(duì)原來圖片的記憶能力也挺好的,不會(huì)說因?yàn)橛泻芏鄨D片,有些東西就沒記住。因?yàn)橛洃浤芰軓?qiáng),它的模仿能力就有一定的保證。另外現(xiàn)在它的建模是像素粒度的建模,所以更適合視覺的建模。它能夠生成大像素的圖片,甚至有一些技術(shù)能夠無限地?cái)U(kuò)大整個(gè)圖片的像素,這樣就能夠生成一些實(shí)用的高清圖片。從技術(shù)上來看,Stable Diffusion 確實(shí)打開了一個(gè)天花板,把效果的上限提升了很多。但在實(shí)際的應(yīng)用當(dāng)中,并不是直接使用這樣一個(gè)模型,就能滿足應(yīng)用要求的。好的模型不是簡單就等于好的體驗(yàn)。在實(shí)際應(yīng)用當(dāng)中,從創(chuàng)作過程來講有三個(gè)步驟是需要去解決的。第一個(gè)是創(chuàng)作的需求理解。在跨模態(tài)生成里面,我們都是需要輸入語言去跟模型交互的,用戶到底怎樣簡單地輸入就能拿到一個(gè)他希望的圖,這就需要一定的需求理解。第二個(gè),圖像的生成,也是跨模態(tài)生成的核心的部分,在這一部分里用戶的需求也很多,有藝術(shù)的、寫實(shí)的,創(chuàng)作的模型該如何去滿足。最后是創(chuàng)作需求的滿足。很多時(shí)候生成一張結(jié)果,可能只是部分滿意,怎樣進(jìn)行一定的調(diào)整滿足用戶的需求,也是需要通過模型優(yōu)化去解決的。面對(duì)這些問題,百度研發(fā)了一套基于知識(shí)與大模型的文生圖系統(tǒng)。整體來看,當(dāng)輸入文字描述之后,會(huì)先通過知識(shí)圖譜做需求的理解,進(jìn)行一定的文本聯(lián)想擴(kuò)展。生成文本之后再真正進(jìn)行跨模態(tài)生成,這里面我們有很多跨模態(tài)生成模型上面的創(chuàng)新優(yōu)化。生成完圖之后,又會(huì)有基于圖到圖的擴(kuò)散生成,來支持用戶做圖像的編輯。最后,因?yàn)橄到y(tǒng)應(yīng)用到產(chǎn)品上生成圖像結(jié)果后,用戶會(huì)有一些反饋,我們也要利用用戶的反饋去指導(dǎo)整個(gè)學(xué)習(xí)的模型優(yōu)化過程,形成一個(gè)根據(jù)用戶需求去進(jìn)行反饋的閉環(huán)。首先要做文本理解,也就是我們常說的 Prompt 學(xué)習(xí),這里面其實(shí)主要是要做一些理解,并根據(jù)知識(shí)進(jìn)行擴(kuò)充。比如用戶可能想畫一個(gè)大樓,一開始可能沒有想得很明白需要什么,會(huì)輸入一個(gè)很簡單的「大樓」單詞。而真正的生成畫作,可能有很多方面要去考慮。這個(gè)時(shí)候,模型就會(huì)進(jìn)行一定的文本理解。根據(jù)分析理解的結(jié)果,算法主動(dòng)地幫輸入加上一些風(fēng)格,比如到底是寫實(shí)風(fēng)格還是藝術(shù)風(fēng)格,它的色調(diào)是怎么樣的。當(dāng)然理解跟擴(kuò)充從算法上也可以做端到端的生成。不管是哪種方式生成了擴(kuò)展之后, 所有構(gòu)建出來的 Prompt 都會(huì)進(jìn)行排序,最后分別生成圖片供用戶去選擇。Prompt 學(xué)習(xí)是非常重要的,這里給一些例子,我們能看到加不加這些 Prompt 的擴(kuò)展,效果影響還很大的。比如我們的在文心一格上面輸入「微笑女孩」,可能生成的是左邊這張圖,但是模型會(huì)幫他加很多擴(kuò)展。比如會(huì)把這種數(shù)字繪畫、逆光、電影照明,包括超精細(xì)這樣一些修飾詞都加入進(jìn)來。加入之后,我們能看到圖片生成會(huì)更加有藝術(shù)感,質(zhì)量也會(huì)更高。類似的,像天空,大海等景色的圖片,都可以通過一些 Prompt 擴(kuò)展能夠使效果有顯著的提升。當(dāng)然,最核心的部分還是文生圖。文本已經(jīng)確定下來了,輸入到系統(tǒng)里面,效果一定要足夠的好。為此,百度提出了 ERNIE-ViLG 2. 0,這是一個(gè)知識(shí)增強(qiáng)的混合降噪專家模型。從圖文相關(guān)性上面來看,在跨模態(tài)生成里面,語言跟視覺之間的對(duì)應(yīng)關(guān)系要做得很好,才能保證用戶說什么就生成什么。技術(shù)上主要通過對(duì)語言、視覺還有跨模態(tài)做一些知識(shí)增強(qiáng),更好的實(shí)現(xiàn)跨模態(tài)知識(shí)之間的映射,從而實(shí)現(xiàn)圖文相關(guān)性的提升。
另外我們也提出了一個(gè)混合專家擴(kuò)散模型,擴(kuò)散模型就像前面說的,是有從有噪聲的圖像逐步生成一個(gè)清晰的畫面。這個(gè)過程在不同的階段,對(duì)擴(kuò)散生成的要求是不一樣的,所以我們?cè)O(shè)計(jì)了混合專家模型,自動(dòng)地根據(jù)不同階段選擇合適的網(wǎng)絡(luò),生成最優(yōu)的結(jié)果。這樣整體上模型的建模能力也會(huì)更強(qiáng),生成圖片會(huì)更加的細(xì)膩,構(gòu)圖也更加的清晰。從實(shí)驗(yàn)上也能很直觀地看到效果的提升。我們?cè)?MS-COCO 數(shù)據(jù)集上面做了自動(dòng)評(píng)估,可以看到 ERNIE-ViLG 2.0 在 FID 自動(dòng)評(píng)估上面是當(dāng)前業(yè)界最好的效果。從人工的評(píng)估的角度,不管從圖像的質(zhì)量還是圖文的對(duì)齊,ERNIE 的效果都會(huì)更好。這邊給了幾個(gè)例子,能看到 ERNIE 能生成很精細(xì)的圖,同時(shí)也會(huì)生成一些很有創(chuàng)意的圖,比如孫悟空穿西裝、熊貓?jiān)跀]串。
可以看到,現(xiàn)在 AI 的創(chuàng)意能力是很強(qiáng)的,至少它能從過去的數(shù)據(jù)當(dāng)中學(xué)習(xí)到組合關(guān)系。并且從我們的觀感上會(huì)認(rèn)為它有一定的創(chuàng)造力,雖然它還是在模仿,但會(huì)感覺它的組合能力很強(qiáng),會(huì)展現(xiàn)一定的創(chuàng)造能力。在模型上我們還有更進(jìn)一步的創(chuàng)新。像前面介紹的模型,它其實(shí)本質(zhì)上需要一個(gè)文本的輸入作為條件去進(jìn)行擴(kuò)散生成。這種模式其實(shí)就是咱們常見 Stable Diffusion 模型。它通常能生成的圖就是比較具象的圖,比如畫人物,畫一些具體的物體,它能畫得很好。其實(shí)還有另外一類叫做 Disco Diffusion 的模型,它是通過跨模態(tài)來引導(dǎo)的,通常能生成意向的圖,它比較重視整體的構(gòu)圖,整個(gè)構(gòu)圖會(huì)比較復(fù)雜。
我們的想法也比較直觀:能不能把兩種引導(dǎo)都融合在一起去支持?jǐn)U散生成?讓擴(kuò)散生成既依賴于條件的輸入,也依賴于整個(gè)跨模態(tài)匹配的在線的指導(dǎo),這樣就能同時(shí)做好兩種場景,不管是畫人物,還是做很復(fù)雜的構(gòu)圖生成。為此,我們提出了文本與跨模態(tài)聯(lián)合引導(dǎo)的統(tǒng)一圖像生成 UPainting。對(duì) UPainting 這樣的模型,我們研發(fā)出來之后也做了一些評(píng)估。能看到它在圖像的各方面能力上都做得更好。這里展示了圖片,不管是畫一些具體的如熊貓,還是畫一些具體的物體,甚至比較復(fù)雜的大場景構(gòu)圖,而且中間包含細(xì)節(jié)的圖,現(xiàn)在我們都是畫得比較好的。
最后一塊是圖像編輯。我們畫了一個(gè)圖之后,有時(shí)可能不是自己最滿意的,希望再進(jìn)行一次修改。所以我們研發(fā)了基于文本驅(qū)動(dòng)的圖到圖的生成。簡單來講,擴(kuò)散生成除了依賴于編輯文本的描述,也會(huì)依賴于圖片的輸入。并且我們有個(gè)注意力機(jī)制來保證擴(kuò)散過程當(dāng)中能夠更關(guān)注用戶輸入的編輯指令。
具體來講,圖像編輯主要有以下幾種功能。首先是元素修改,比如我們已經(jīng)畫了一只貓,但突然想給貓?jiān)偌右稽c(diǎn)裝飾,給它戴上個(gè)眼鏡,戴上金鏈子,就可以通過這樣的功能去生成。另外也可以做風(fēng)格轉(zhuǎn)換,比如像前面輸入大樓,已經(jīng)生成一個(gè)真實(shí)景觀的風(fēng)格了,但是我們希望把它改成一種比較科幻的,也可以做修改。最后是基于模型已經(jīng)生成的一張圖做二次生成,讓模型重新生成一下,它會(huì)生成一個(gè)比較相近的同款圖。這些都是圖像編輯。這些功能都已經(jīng)集成在文心一格產(chǎn)品上,能夠?qū)崿F(xiàn)一語成畫,別具一格的圖像生成。這里給了一些我們產(chǎn)品上能生成的圖像的例子,能看到不管是復(fù)雜的構(gòu)圖,還是細(xì)節(jié)刻畫都是能做得很好的。
比如最左邊的這兩張圖是偏復(fù)雜構(gòu)圖的,講究整個(gè)場景意境及整體構(gòu)圖。中間這三張是偏具象的,更關(guān)鍵的是能夠把單獨(dú)物體的精細(xì)度畫出來。最右邊就有點(diǎn)綜合了,既要兼顧整體的構(gòu)圖,也要兼顧細(xì)節(jié)上的精細(xì)度。所以從整體創(chuàng)作的角度來看,各種不同的圖像生成能力我們都做得不錯(cuò)。除了通過產(chǎn)品讓用戶去體驗(yàn) AI 作畫的能力,一格也在很多重要場合進(jìn)行應(yīng)用。如一格跟人民日?qǐng)?bào)合作,根據(jù)二十大的部分關(guān)鍵詞去生成 AI 眼中的未來的中國。除此之外,文心一格上也在做一些新的探索與合作,尋找到底 AI 繪畫的邊界會(huì)在哪。比如我們跟時(shí)尚雜志 《COSMO》 合作,一起畫了二十四節(jié)氣的專題,并且發(fā)布了首個(gè) AI 生成的雜志封面。另外我們也跟朵云軒合作,在全球完成了山水畫風(fēng)格的 AI 作畫,并實(shí)現(xiàn)了全球首次 AI 山水畫拍賣。這幅畫作是非常復(fù)雜的,我們根據(jù)陸小曼的初稿生成了一幅新的山水畫,受到了很多專家的肯定,最后也成功地拍賣了。以上的第一個(gè)部分都是文生圖,主要是基于語言來進(jìn)行 AI 繪畫。第二塊是關(guān)于視頻創(chuàng)作的,我們能夠根據(jù)一篇文章來生成一個(gè)視頻。這個(gè)功能非常簡單,如圖所示,用戶輸入圖文信息,可能是一篇文章,一個(gè)搜索 query,甚至可能是一個(gè) PPT,系統(tǒng)就能生成一個(gè)視頻。
視頻的生產(chǎn)其實(shí)是比較復(fù)雜的,它需要生成其中的文本、視覺,還有語音,有些時(shí)候還需要把數(shù)字人做出來。還會(huì)有視頻腳本,規(guī)定了整個(gè)場景怎么劃分,轉(zhuǎn)場建議等。這里面要涉及到模型計(jì)算特別多。為了解決這樣的問題,并不能用一個(gè)簡單的模塊完成,而是需要一個(gè)系統(tǒng)。整體來講,我們研發(fā)的 TTV 系統(tǒng)邏輯上是模仿人的創(chuàng)作過程的。首先要做文案的理解和組織。還要有一個(gè)素材庫,這個(gè)素材庫里有些是從網(wǎng)上獲取的真實(shí)素材,也有可能是通過 AI 生成的素材。素材都有了之后,再去做所謂的編排,把素材跟文案做對(duì)齊,保證最后生成出來的字幕音頻和展示的視覺畫面是對(duì)齊的。這里面的思路有幾種。一種是全部使用生成的素材,也就是原生生成,一種是在已經(jīng)給定素材之后,進(jìn)行所謂的素材采編。接下來我就先說一下采編方面的技術(shù)。介紹完之后,再說一下純?cè)募夹g(shù)。首先在視頻采編中,給定一篇文章,類似于文生圖里面要做 Prompt 構(gòu)造一樣,我們要主動(dòng)地去構(gòu)造一個(gè) query,它能夠幫助我們?nèi)z索相關(guān)的素材。整體上簡化可以用標(biāo)簽的技術(shù)去做,但是更理想的是通過結(jié)構(gòu)化的分析,生成組合的 有完整語義的 query 來保證效果。
構(gòu)建完 Query 后,我們要做素材的擴(kuò)充,主要是通過匹配的模型,用一個(gè)多域多屬性的統(tǒng)一匹配,確保有一個(gè)非常好的效果。當(dāng)素材已經(jīng)都選回來之后,要把它們放到合適的字幕位置上面。這里主要通過一些語義相關(guān)性的計(jì)算,計(jì)算字幕和素材的語義相關(guān)性,計(jì)算完之后,素材被放在合適的位置,保證了整個(gè)視頻的流暢度。
我們也做了一些原生的視頻生成。最早一開始展示的《啟航星》的視頻,是通過文生圖的技術(shù)來做的。給到一篇文章之后,我們通過文生圖的技術(shù)生成一些關(guān)鍵幀,再把這關(guān)鍵幀結(jié)合起來,生成一個(gè)視頻。更進(jìn)一步,我們還可以做端到端的文生視頻,不止真人圖像,還可以把動(dòng)態(tài)效果都做出來。這里是百度自研的 VideoDream 模型。整體上來講,它跟文生圖是比較像的,但相比之下它除了生成一張圖像,還會(huì)生成多幀,形成動(dòng)態(tài)的效果。這里是一些展示的效果。
這些技術(shù)已經(jīng)在百家號(hào)的一些場景上落地,能夠助力創(chuàng)作者進(jìn)行高效創(chuàng)作。它的生產(chǎn)效率會(huì)相比人工會(huì)至少有一個(gè)量級(jí)的提升,同時(shí)從用戶的體驗(yàn)指標(biāo)上和人工基本持平。同時(shí),我們也在融合一些新的技術(shù),包括數(shù)字人,完成數(shù)字人 TTV。我們還針對(duì)專門的場景,研發(fā)專題 TTV,比如大會(huì)報(bào)道,我們有一些線上直播流數(shù)據(jù)原始高清數(shù)據(jù),可以使用這些專項(xiàng)數(shù)據(jù)來優(yōu)化視頻質(zhì)量,支持一些行業(yè)級(jí)應(yīng)用。文生圖、文章轉(zhuǎn)視頻都是基于語言來生成視覺內(nèi)容的技術(shù)。最后我們進(jìn)行一些討論跟展望。從應(yīng)用的角度來看,AIGC 當(dāng)下正在發(fā)生,它已經(jīng)在大幅地提升內(nèi)容創(chuàng)作的質(zhì)量和效率。我們至少從文生圖上觀察到它提升了幾個(gè)量級(jí)的效率。以前專業(yè)的畫師,在一些復(fù)雜的畫作上,可能需要積累好幾年才能構(gòu)建的素材,現(xiàn)在通過 AI 作畫能短時(shí)間大量生成。對(duì)于普通用戶來講,它也會(huì)成為普惠的人類助手,讓每個(gè)人將來都可以擁有很強(qiáng)的創(chuàng)作力。
最后是跨模態(tài)生成的一些現(xiàn)存的問題。首先是易用性問題。在應(yīng)用中,用戶需要輸入文本描述。但事實(shí)上,輸入文本描述是很復(fù)雜的。比如左側(cè)的例子,需要這里密密麻麻的文字才能生成一個(gè)圖片。再比如右邊文心一格的例子上,通用需要這么一大串文字,不管是主體、內(nèi)容、風(fēng)格各方面都需要描述才能生成足夠好。所以易用性是要進(jìn)一步提升的。
另一個(gè)是可控性?,F(xiàn)在模型雖然能生成很精致的圖片,但是對(duì)于用戶指定的數(shù)量、位置關(guān)系等,并不一定能準(zhǔn)確生成。同時(shí)有些時(shí)候用戶輸入風(fēng)格描述之后,因?yàn)轱L(fēng)格模型會(huì)過度擬合到特定場景上面,導(dǎo)致圖像結(jié)果不符合預(yù)期。比如這里,豐收的麥田上用加入了動(dòng)漫風(fēng)設(shè)定,就容易會(huì)出現(xiàn)人物,可見模型的可控性也是需要提升的。最后總結(jié)一下,AIGC 時(shí)代已經(jīng)到來了,百度研發(fā)了文生圖的技術(shù),發(fā)布了 AI 作畫的創(chuàng)意產(chǎn)品文心一格。在文章轉(zhuǎn)視頻上,目前已經(jīng)綜合各種 AI 能力實(shí)現(xiàn)工業(yè)化的、可落地的文章自動(dòng)轉(zhuǎn)視頻能力。展望未來, AIGC 的技術(shù)會(huì)不斷地提升,打造出更強(qiáng)大的用戶體驗(yàn),它的應(yīng)用場景也會(huì)越來越拓寬。最終 AIGC 會(huì)無處不在。相信這個(gè)過程里面也會(huì)產(chǎn)生一些新的職業(yè),如 AI 繪畫師、 AI 自媒體,帶來更多的就業(yè)機(jī)會(huì),對(duì)社會(huì)產(chǎn)生正面的影響。