国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
對話IDEA研究院張家興:預(yù)訓(xùn)練模型將成AI未來「底層設(shè)施」,支持 AIGC的所有商業(yè)化機遇

作者:蘇打

出品:明亮公司

時至今日,人類與AI似乎仍處于“磨合期”。但AIGC(AI-Generated Content)發(fā)生的一些新進展,正讓這件事變得有趣起來。

10月17日,當(dāng)前AI繪畫領(lǐng)域獨角獸公司、英國開源人工智能公司Stability AI宣布獲得1.01億美元融資,估值達10億美元。其“爆款”產(chǎn)品Stable Diffusion是一款功能強大、免費且開源的文本到圖像生成器。

在國內(nèi),被視為“中文版Stable Diffusion”的太乙 Stable Diffusion“火速跟進”,于今年11月1日成功推出純中文版本和中英文雙語版本。

據(jù)其研發(fā)方IDEA研究院認(rèn)知計算與自然語言研究中心(IDEA CCNL)負責(zé)人、講席科學(xué)家張家興介紹,該模型由封神榜團隊研發(fā),11月9日其于機器之心發(fā)起的技術(shù)解讀直播現(xiàn)場,場觀人數(shù)破萬,20日內(nèi)下載量突破10萬,且在迅速增加中。

“AIGC的應(yīng)用場景已經(jīng)開始變得廣泛,未來也呈現(xiàn)出非常強勁的滲透前景?!苯?,張家興與「明亮公司」進行了一場關(guān)于AIGC及預(yù)訓(xùn)練模型的深度對話,以期展現(xiàn)當(dāng)前該領(lǐng)域的新進展以及商業(yè)化前景。

不久前,AIGC初創(chuàng)公司Jasper曾宣布以15億美元估值獲得1.25億美元A輪融資。而早在2019年便獲得微軟10億美元投資的曾人工智能公司Open AI,當(dāng)前估值已躥升至200億美元。

可以確定的是,伴隨AI繪畫工具的進步,插畫、海報、數(shù)字人制作、游戲及視頻原畫設(shè)計等領(lǐng)域正開始有節(jié)奏地使用AIGC相關(guān)的預(yù)訓(xùn)練模型,以減輕創(chuàng)作過程中因大量而枯燥的基礎(chǔ)工作導(dǎo)致的低效等問題。未來,更多與生活相關(guān)的產(chǎn)品設(shè)計,比如服裝、鞋帽等,都將可能出現(xiàn)AIGC及其背后預(yù)訓(xùn)練模型的身影。

“我們認(rèn)為,未來AI將成為完全由模型驅(qū)動的產(chǎn)業(yè),有什么樣的模型就會有什么樣的產(chǎn)品。而預(yù)訓(xùn)練模型作為'底層設(shè)施’,將以底層架構(gòu)的角色被鋪設(shè)在未來AIGC的應(yīng)用之前,分享隨之產(chǎn)生的所有商業(yè)化機遇?!?/span>

他認(rèn)為,以一支團隊為單位形成一個算法集群,生產(chǎn)出一個或多個模型,將成為未來的主要發(fā)展路徑?!耙环矫妫碌哪P涂芍苯哟呱恍┫鄳?yīng)的產(chǎn)業(yè)。另一方面,對于已經(jīng)存在的成熟產(chǎn)業(yè),亦可通過這些模型催生出相應(yīng)的產(chǎn)品,而產(chǎn)品反過來又需要大量模型進行迭代”。

進入IDEA前,張家興曾任微軟亞洲研究院研究員、螞蟻集團資深算法專家、360數(shù)科首席科學(xué)家,從零到一創(chuàng)建了阿里巴巴和螞蟻集團的深度學(xué)習(xí)團隊,落地了智能客服等多個自然語言技術(shù)方向,并于任職360數(shù)科期間組建了AI數(shù)據(jù)融合中臺部門。

「明亮公司」了解到,封神榜已經(jīng)開源88個預(yù)訓(xùn)練模型,成為中文最大的預(yù)訓(xùn)練模型體系。張家興帶領(lǐng)的封神榜團隊正受邀與阿里和華為進行接洽生態(tài)入駐,目前已在遷移當(dāng)中。

在張家興及其團隊的眼中,AI繪畫是一件“可激發(fā)人類創(chuàng)造力”的事情,它可以成為工具,亦具備情緒價值,而非人類智慧的替代或者顛覆。

以下為明亮公司與張家興對話內(nèi)容(有刪節(jié))

Q:明亮公司

A:張家興 IDEA 研究院認(rèn)知計算與自然語言研究中心(IDEA CCNL)負責(zé)人、講席科學(xué)家

(IDEA 研究院CCNL講席科學(xué)家張家興)來源:IDEA

Q:11月初我們剛剛完成了太乙Stable Diffusion中文版和雙語版的開源,這對于IDEA研究院和開發(fā)者而言意味著什么?

A:從模型本身而言,功能并不復(fù)雜。使用者輸入一個文本,模型在文本的指導(dǎo)下從一張完全白噪聲的圖片開始,一點一點精細化,最后生成一張清晰的圖片。Diffusion可以理解為加噪的過程,而生成圖片則是一個去噪的過程。

人類在作畫時,也是一個逐漸從模糊到清晰的過程,而Diffusion Model便是模仿人類大腦的動線——先有一個想法,然后加一點新的啟發(fā),生成一張大概的圖像,再增加更多啟發(fā),最后令作品愈加精細和復(fù)雜。

人類藝術(shù)家的能力有兩個優(yōu)勢,一是在每一個啟發(fā)之間具備強關(guān)聯(lián)能力,即可以通過上一個想法啟迪下一個想法;二是對細節(jié)充滿各種想象。

這兩種能力如果對應(yīng)到Diffusion模型中,首先要實現(xiàn)的就是,從最初的文本到最終的圖片,中間所有環(huán)節(jié)都具備強關(guān)聯(lián)性,即模型可以像人類一樣去思考下一步;其次,能夠?qū)崿F(xiàn)最后呈現(xiàn)出的作品足夠清晰并具備豐富的細節(jié)。目前我們的模型通過從海量數(shù)據(jù)中不斷的學(xué)習(xí),已經(jīng)可以達到這個效果。

在中文世界里用中文描述去生成圖片,是一個質(zhì)變。生產(chǎn)的結(jié)果圖片會更有中國元素、更符合中國文化,對中文的語義理解更準(zhǔn)確,而不是此前以英文為模型將中文翻譯過去進行生產(chǎn),比如輸入“女孩”一詞,可能生成的圖片是國外的一個女孩子。

Q:此前是否也經(jīng)歷過多次迭代?

A:2022 年 7 月,IDEA CCNL開源了第一個中文 CLIP 模型,目前已經(jīng)有 4 個版本。以其中一個 Taiyi-CLIP-Roberta-large-326M-Chinese 版本為例,IDEA CCNL用中文語言模型替換了開源的英文 CLIP 中語言編碼器,在訓(xùn)練過程中凍結(jié)了視覺編碼器并且只微調(diào)這個中文語言模型,在 1 億級別的中文數(shù)據(jù)上訓(xùn)練了 24 個 epoch,一共過了約 30 億中文圖文數(shù)據(jù),得到了這個包含圖片信息的中文表征語言模型,為后續(xù)訓(xùn)練中文 Diffusion 相關(guān)的模型奠定了重要的基礎(chǔ)。

之后,我們又開源了第一個中文Disco Diffusion 模型Taiyi-Diffusion-532M-Nature-Chinese,該模型由Katherine Crowson's 的無條件擴散模型在自然風(fēng)景圖上微調(diào)而來。結(jié)合Taiyi-CLIP-Roberta-large-326M-Chinese 可以實現(xiàn)中文生成各種風(fēng)格的風(fēng)景圖片。

在這些工作的基礎(chǔ)上,10月份我們?nèi)ν度氲絊table Diffusion模型,很快就把太乙 Stable Diffusion做了出來,為時不足一個月。

如果追溯到更早,從去年11月份宣布封神榜大模型開源計劃,我們一直在持續(xù)生產(chǎn)模型,并已經(jīng)成功推出自然語言領(lǐng)域很多預(yù)訓(xùn)練模型,基本覆蓋該領(lǐng)域全部主流模型結(jié)構(gòu)。截至目前,僅一年多時間已經(jīng)開源了88個模型。而且很多都是目標(biāo)領(lǐng)域內(nèi)先進的,多次獲得FewCLUE和ZeroCLUE權(quán)威榜單的冠軍。

Q:我看過“鐵馬冰河入夢來”太乙版本和Stable版本的AI翻譯,差距懸殊,請問我們是如何實現(xiàn)將中文的“意會”進行具像化的?

A:就這句詩詞而言,作為文本輸入模型時,是作為一整句話被識別的,而非只對應(yīng)一個字或者一個詞,所以我們太乙版本的翻譯結(jié)果與其他非中文語言版本的結(jié)果會呈現(xiàn)出顯著不同,更能實現(xiàn)“意會”的目的。

在中國的文化中,詞的組合會表現(xiàn)出不同的意境。比如床前明月光這句詩,拆解開來,模型會識別中文語境中如床前和明月、明月和光等組合在一起所表達的意義。而模型在訓(xùn)練的過程中,也是從這些組合所處的上下文中,學(xué)到的這些組合所表示的意義。只有在海量的中文預(yù)料中訓(xùn)練,這些中文意境才會被模型正確的理解。而這正是太乙模型的優(yōu)勢。

Q:模型識別大致可以產(chǎn)生多少種結(jié)果?

A:對于相同的一個輸入,模型幾乎可以產(chǎn)生無限多種圖片的呈現(xiàn)。

所以,其中的評判標(biāo)準(zhǔn)不應(yīng)是多少張圖片,而是使用者對圖片的滿意度有多高。由于產(chǎn)生的圖片每次都是隨機的,所以對使用者而言每次看到相同的文本指引出不同的圖片,本身也是一件很有樂趣的事情。

Q:模型是否會主動進行審美篩選,盡量給出好看的圖片?

A:我們背后是有審美模型的,通過尋找一些高質(zhì)量的圖片,會訓(xùn)練數(shù)據(jù)挑選好看的圖,而生成圖片也可以按審美設(shè)備模型去排序。未來或許可以獲得更多海量用戶反饋,作為訓(xùn)練數(shù)據(jù),能夠讓我們的審美模型的效果越來越好。所以歸根結(jié)底,什么是美的,還是取決于人的標(biāo)準(zhǔn)。

Q:封神榜團隊目前在該領(lǐng)域處于何種水平?

A:封神榜是目前國內(nèi)唯一的以開源模型為目的的團隊。我們希望把這件事做到極致。我們也在積極的與各個開源模型社區(qū),比如阿里巴巴的ModelScope、華為昇騰生態(tài)等進行合作,把我們的中文預(yù)訓(xùn)練模型加入到他們的生態(tài)中。通過加入更加廣泛的開源生態(tài),我們希望封神榜模型能夠讓更多人使用,這也是做所有開源人的理想。

根據(jù)在Huggingface網(wǎng)站上的統(tǒng)計,目前全球的預(yù)訓(xùn)練模型總計約8萬個,而其中的中文預(yù)訓(xùn)練模型不到1000個,只占到1%。這與中國人工智能的規(guī)模和總體經(jīng)濟體量很不相稱,我們也希望更多的中國人工智能團隊能夠加入到開源模型的隊伍中。

Q:AI繪畫除了文生圖還有哪些功能是需要去實現(xiàn)的?

A:比如圖片編輯類的模型,這是我們正在做的一件事。

具體而言,假如我想生成一張“鳥蹲在樹枝上”的圖片。輸入這些文字后,發(fā)現(xiàn)鳥的翅膀是收起來的,我只需要輸入“鳥張開翅膀”,那么在背景都不變的情況下,鳥就張開了翅膀。這是一種圖片局部編輯的技術(shù),背后有很大的算法探索的空間。

之前繪畫需要從場景到細節(jié)一一把握,現(xiàn)在你想要一張精美的圖片只需要首先畫出場景即可,然后再應(yīng)用局部編輯技術(shù)增添各種細節(jié)。比如你想用AI形成一個熱帶雨林這種場景,但你從來都沒見過熱帶雨林,通過這一模型便可以先創(chuàng)造一張雨林的圖片。然后進行自由編輯,添加各種元素。

Q:能否舉例說明這種技術(shù)未來的應(yīng)用場景會在哪里?

A:比如插畫師,因為本身就需要配合文字進行圖像的創(chuàng)作。還有海報設(shè)計,需要生成非常多的創(chuàng)意進行選擇。另外游戲和影視的原畫設(shè)計也非常需要這一技術(shù)手段,來拓展想象空間。甚至修圖類軟件中,圖像的編輯技術(shù)也有廣泛的應(yīng)用。

還有一種個性化的訓(xùn)練模型,你可以訓(xùn)練一個只屬于你的模型。比如,用幾張你的各種角度的照片去訓(xùn)練模型,然后把這些照片一個名字“小張”,然后輸入“小張站在沙灘上”,模型會生成一張你站在沙灘上的照片,而且可能生成你的任何角度和任何形象,并且完美的融入環(huán)境。這樣的個性化訓(xùn)練,代價也不大,可以在10分鐘左右完成。

我們正在把這種個性化訓(xùn)練的能力做成一個引擎。使用者無需懂算法,即可在個人電腦上訓(xùn)練自己的個性化模型,生成個性化的照片。這個引擎也會開源,也歡迎各個公司在這個引擎基礎(chǔ)上進行各種產(chǎn)品創(chuàng)新。

Q:這一部分我們有想法親自參與嗎?

A:作為有益嘗試,當(dāng)然我們也會做C端產(chǎn)品,積極進行產(chǎn)品創(chuàng)新和嘗試。但生產(chǎn)AIGC基礎(chǔ)預(yù)訓(xùn)練模型仍是我們的主要工作。

我們會堅持作為基礎(chǔ)設(shè)施的角色,其商業(yè)邏輯是“等風(fēng)來”——我們提供基礎(chǔ)模型,只要生態(tài)中下游有一個行業(yè)成為機遇,那么我們也是機遇,因為大家都在使用我的底層設(shè)施。從這個角度來說,我們首先想成為英特爾、AMD這樣的公司,鋪設(shè)在所有的機遇面前,成為下游生態(tài)的必要前提。

Q:目前我們的模型是否主要針對中國市場?未來計劃拓展其他市場嗎?

A:我們首先以中文AIGC市場作為出發(fā)點,但同樣也面向全球市場。因為AIGC是天然的有文化和語言區(qū)分的,每個國家和文化,都該有自己的AIGC模型。如果看當(dāng)下的開源Stable Diffusion模型,也僅有英語、中文、日語和韓語四種語言版本。因此這里還存在一個很大的市場開拓空間。

Q:是否有統(tǒng)計過我們的模型有多少人在使用?

A:11月1日發(fā)布之后,20天模型下載量超過10萬,在所有開源Stable Diffusion模型中,下載量排名全球第三,僅次于原版的Stable Diffusion,也說明了中國對AIGC模型的旺盛需求。而且下載量每天都在增長,速度非???。大家對太乙Stable Diffusion模型的關(guān)注度非常高,11月9日在機器之心直播僅僅30分鐘內(nèi),在線觀看人數(shù)已破萬。

Q:目前看來Stability AI是用一個Stable Diffusion的大單品/爆款橫掃市場的邏輯,我們對此如何看待?

A:商業(yè)的成功可能要借助于爆款,但不能固步自封在一個爆款,因為這種模式不長久??梢砸蕾囈粋€爆款的前提是,可以針對這款產(chǎn)品進行不斷升級,并具備可持續(xù)性,但任何一個技術(shù)最終都會飽和。

比如某個算法,其他人準(zhǔn)確率只有50%而你可以做到90%時,的確有巨大優(yōu)勢。但別人也能做到90%,你能做到95%,在應(yīng)用方面差別就很不明顯了。且后面5%的提升,需要投入的成本會非常昂貴。

我們真正應(yīng)該做的,不是堅守一個爆款,而是具備持續(xù)不斷打造新AIGC的能力,尤其是全球范圍內(nèi)還沒有出現(xiàn)的新能力,這是我們追求的目標(biāo)。

Q:可否透露一下這些新能力以及未來的應(yīng)用場景?

A:比如3D和視頻生成,以及我們已經(jīng)具備領(lǐng)先優(yōu)勢的文本生成技術(shù)。目前可以透露的是,我們目前投入了很多精力在做因果推理的文本生成,可以直接生成多步的因果推理鏈路。一方面,我們非常想將其在傳統(tǒng)領(lǐng)域推廣,比如應(yīng)用于金融領(lǐng)域,進行事件推理;另一方面,我們更希望它作為(針對元宇宙的)數(shù)字人/虛擬人的底層驅(qū)動,因為我認(rèn)為,人的思考實際上是一個永不終止的因果推理鏈路。

Q:AI繪畫未來會沿著一個什么樣的軌跡發(fā)展?

A:我認(rèn)為其中有兩大市場前景,一是成為專業(yè)人員的生產(chǎn)力工具,同時讓更多人能夠通過技術(shù)實現(xiàn)專業(yè)化效果;一是對非專業(yè)人員的日常生活產(chǎn)生巨大影響,能夠為個人生成大量個性化、多模態(tài)的沉浸式體驗。

比如預(yù)訓(xùn)練模型與視頻3D結(jié)合后。設(shè)想一下,你帶上VR眼鏡,說“我想體驗一下亞馬遜叢林”,系統(tǒng)可以為你生成逼真的沉浸式場景。這種實現(xiàn)目前尚有難度,因為3D場景的生產(chǎn)成本比較高。我們把AIGC擴展到3D生成,可以大大提升行業(yè)效率。

Q:“用AI生產(chǎn)AI”會是未來AI發(fā)展的終局嗎?

A:技術(shù)就是“套娃”,大家都是在用舊的技術(shù)生產(chǎn)新的技術(shù),用之前的模型生產(chǎn)第二個模型,然后用第二個模型再去生產(chǎn)第三個模型。所以技術(shù)沒有終局,他是一個不斷演進的過程。

其實AI生產(chǎn)AI這個事情也是非常值得討論的,現(xiàn)在AI模型的都是算法工程師在生產(chǎn),用模型生產(chǎn)模型還是比較值得期待的。我們也剛剛開源了GTS乾坤鼎引擎,這是一種模型自動生產(chǎn)引擎,在中文權(quán)威的FewCLUE榜單上,這個引擎自動生產(chǎn)的模型已經(jīng)擊敗了國內(nèi)各個頂尖的算法專家所訓(xùn)練的模型,取得了冠軍的成績。

Q:AI繪畫再演進之后,如何與人類和平相處?

A:首先,AI要變成專業(yè)人員或者說人類的生產(chǎn)力工具。其次,就藝術(shù)而言,它其實是一個被技術(shù)影響最大的一個領(lǐng)域。回顧美術(shù)發(fā)展史,文藝復(fù)興時首先出現(xiàn)了濕壁畫,誕生了文藝復(fù)興三杰。接下來很快就出現(xiàn)了油畫技術(shù),整個歐洲開始步入一個新時期。后來,由于顏料可以隨身攜帶,從而藝術(shù)們可以從工作室走出步入鄉(xiāng)間田野,印象派出現(xiàn)。

我認(rèn)為,對藝術(shù)最大的一次沖擊應(yīng)該是相機的誕生。但實際上,照片盡管極大沖擊了肖像畫這一類別,但同時也直接催生了另一個新的藝術(shù)門類——攝影藝術(shù)。這世界背后有無數(shù)的邏輯在推動某些事情發(fā)生,他就一定要發(fā)生,無法阻擋,也不必固守。

技術(shù)的發(fā)展就是一個人類不斷被'異化’的過程,從互聯(lián)網(wǎng)普及后,很多東西已經(jīng)被'異化’了。但同時,我們也會具備一些新能力,世界也因此變得更加豐富。人類具有很強的調(diào)試能力,并在其中發(fā)現(xiàn)新優(yōu)勢。

Q:我們對未來有什么愿景?

A:我們希望讓世界上每個人都能用AI創(chuàng)造自己的美好生活,希望AIGC技術(shù)徹底普及之后,每個人能通過它給自己創(chuàng)造各種美好的體驗。

某種角度而言,我們希望技術(shù)也能具備情緒價值,而它也應(yīng)該為人類提供這樣的價值。

本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
首個中文Stable Diffusion模型開源,IDEA研究院封神榜團隊開啟中文AI藝術(shù)時代
ChatGPT之后,AIGC會如何革新內(nèi)容創(chuàng)作?
每秒最高1w 使用量,「AI繪畫」成抖音年度爆款,背后技術(shù)秘籍現(xiàn)已公開
AIGC時代已來,跨模態(tài)內(nèi)容生成技術(shù)發(fā)展得怎么樣了
AI繪畫利器:中文提示詞帶你飛,無需魔法快速暢玩!
中金 | AI十年展望(五):從ChatGPT到通用智能,新長征上的新變化
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服