出品 | IDEA研究院
在深度學(xué)習(xí)發(fā)展的第三波浪潮中, ChatGPT引發(fā)了人們對人工智能前所未有的關(guān)注。它的出現(xiàn)意味著基于指令學(xué)習(xí)和人類反饋的AI技術(shù)成為人工智能領(lǐng)域的關(guān)鍵。然而,當(dāng)前所展示的能力還遠(yuǎn)不是AI的最終形態(tài),無論是產(chǎn)業(yè)界還是學(xué)術(shù)界都對其未來的發(fā)展抱有極大期待。換句話說,ChatGPT等技術(shù)也許只是人類進(jìn)入下一代AI的起點(diǎn)。
數(shù)據(jù)危機(jī)轟轟烈烈的技術(shù)演變背后,離不開強(qiáng)大的預(yù)訓(xùn)練大模型的支撐。到了今天,AI的核心就是大模型?!皵?shù)據(jù)之于大模型的重要性正如石油之于現(xiàn)代國家”,關(guān)注AI領(lǐng)域發(fā)展的人目前應(yīng)該會(huì)認(rèn)同“數(shù)據(jù)是AI的戰(zhàn)略資源”這一說法,其必要性從下面的一系列真實(shí)數(shù)字中可見一斑。從目前自然語言領(lǐng)域發(fā)展的趨勢來看,模型尺寸越大,所具備的能力就越強(qiáng),模型參數(shù)的量級正在接近人類神經(jīng)元連接數(shù)。訓(xùn)練一個(gè)強(qiáng)大的大語言模型的前提,就是要有充足的高質(zhì)量數(shù)據(jù)。OpenAI訓(xùn)練GPT-3(1750億參數(shù)),使用了包含接近500B tokens(注:token指文本被BPE等方案編碼后的單元,1B=10億)的高質(zhì)量語料,Google訓(xùn)練PaLM(5400億參數(shù)),消耗了780B tokens。足夠多的高質(zhì)量語料可以幫助同等規(guī)模的模型學(xué)習(xí)到更強(qiáng)的能力,Google和DeepMind分別使用了1.56T (注:1T=1萬億) 和 1.4T tokens 來訓(xùn)練更小的LaMDA (1370億參數(shù))和Chinchilla(700億參數(shù)),這些模型的能力大幅超過更大尺寸的模型。但是另一個(gè)問題隨之而來,全世界有多少可用的高質(zhì)量文本?按照估計(jì),這個(gè)數(shù)字可能在4.6 T到 17.2 T 個(gè)tokens之間。也就是說,目前人類已使用的高質(zhì)量文本已經(jīng)和存量在同一數(shù)量級。且未來人類對更多高質(zhì)量文本的需求量(指數(shù)級),遠(yuǎn)超于數(shù)據(jù)產(chǎn)生的速度(1%~7%/每年)。除了文本,人類對于視覺數(shù)據(jù)的消耗速度也很快,據(jù)估計(jì)現(xiàn)有數(shù)據(jù)將在2030年~2070年間被使用殆盡。因此,將數(shù)據(jù)比作AI的戰(zhàn)略資源再恰當(dāng)不過。模型危機(jī)基于當(dāng)前大模型結(jié)構(gòu),人們總是可以通過增大數(shù)據(jù)量和模型參數(shù)來訓(xùn)練更大的模型。但是,如果訓(xùn)練數(shù)據(jù)更多,模型更大,智能就能從模型中產(chǎn)生嗎?我想答案是否定的。回顧近幾十年的AI發(fā)展,人們從未停止過對這個(gè)問題的思考。長期以來,人們認(rèn)為機(jī)器學(xué)習(xí)模型或者深度神經(jīng)網(wǎng)絡(luò)不過是從海量數(shù)據(jù)中學(xué)習(xí)到了數(shù)據(jù)的概率分布,所以根本不存在具備認(rèn)知一說。即使進(jìn)入到預(yù)訓(xùn)練模型時(shí)代,即利用海量無標(biāo)簽數(shù)據(jù)進(jìn)行自監(jiān)督學(xué)習(xí)來提升模型的基礎(chǔ)能力,然后針對具體任務(wù)數(shù)據(jù)微調(diào)模型,在解決給定問題的主要流程上仍然和過去基本相同。具體來說,首先需要收集與特定問題和領(lǐng)域相關(guān)的原始數(shù)據(jù);其次,根據(jù)問題人工標(biāo)注數(shù)據(jù);第三,在帶標(biāo)簽的數(shù)據(jù)集上基于預(yù)訓(xùn)練模型繼續(xù)訓(xùn)練(這個(gè)過程還包括在預(yù)留驗(yàn)證集上選擇模型,以及在預(yù)留測試集上測試模型的泛化性能)。漸漸地,人們發(fā)現(xiàn)對于定義的各種任務(wù),數(shù)據(jù)收集和標(biāo)注可能占據(jù)了80%或者更多的工作量,尤其是在以Transformer為主的深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)成為主流,且訓(xùn)練方式差別不大的情況下,數(shù)據(jù)質(zhì)量已經(jīng)成為提升模型性能的瓶頸所在。人們嘗試?yán)煤铣蓴?shù)據(jù)來解決數(shù)據(jù)來源單一和數(shù)據(jù)量不足的問題,但極難避免合成數(shù)據(jù)帶來的數(shù)據(jù)領(lǐng)域偏移。從這點(diǎn)來看,僅從合成數(shù)據(jù)角度出發(fā),不僅無法徹底解決單一任務(wù)的數(shù)據(jù)問題,讓模型具備智能更無從談起。在自然語言處理領(lǐng)域,超大語言模型的出現(xiàn)為人類帶來了更多的可能性。大模型不僅在理解、問答、生成等方面的性能顯著提升,還初步具備了推理能力,讓人看到了大模型擁有認(rèn)知能力的潛能。針對具體任務(wù)對大模型進(jìn)行微調(diào)的代價(jià)太大,人們轉(zhuǎn)而用輸入少量示例的方式啟發(fā)大模型進(jìn)行in-context learning,或者直接通過提示進(jìn)行零樣本(zero-shot)推理。一段時(shí)間里出現(xiàn)了提示工程師(prompt engineer)的職業(yè),只為了寫出能夠激發(fā)模型能力的提示。prompt成為了人類適應(yīng)大模型的接口,或者說prompt是開啟大模型魔法的“咒語”。“讓我們一步一步地思考(Let’s think step by step)”是一個(gè)有意思的“咒語”, 在模型輸入里加上這句話就能增加大模型多步推理正確的幾率。在黑盒大模型內(nèi)部,似乎存在著另外一套不同于人類的思考語言,所有的文字生成、邏輯推理、編程能力等都依賴這套不可知的語言。自然語言是人類智慧延續(xù)的根本,大模型和人類的認(rèn)知必須建立在相同的語言邏輯之下,才能真正為人類服務(wù)。數(shù)據(jù)和模型的共生黑盒的學(xué)習(xí)機(jī)器對執(zhí)行認(rèn)知任務(wù)有天然的限制。人類水平的人工智能無法從一個(gè)黑盒中出現(xiàn),它需要數(shù)據(jù)和模型的共生。早期探索
人類第一次關(guān)于數(shù)據(jù)和模型共生系統(tǒng)的成功實(shí)踐是AlphaZero。在僅知道棋局規(guī)則的前提下,它利用卷積神經(jīng)網(wǎng)絡(luò)結(jié)合樹搜索算法生成下一步棋子位置。通過自我對弈,AlphaZero分別在圍棋和象棋上戰(zhàn)勝了AlphaGo和Stockfish,代表了當(dāng)時(shí)AI的最高水平。這套系統(tǒng)的精妙之處在于不需要提前準(zhǔn)備數(shù)據(jù),訓(xùn)練模型的所有數(shù)據(jù)完全來自于模型的生成,模型本身也完成了一次次迭代進(jìn)化。人們在文本和圖像上也有相當(dāng)多類似的嘗試。文本和圖像信息只是整個(gè)世界里可以被觀察到的外在狀態(tài),世界內(nèi)部并沒有運(yùn)行一個(gè)像下棋那樣明確的規(guī)則系統(tǒng),來規(guī)定世界運(yùn)行的法則和產(chǎn)生這些狀態(tài)的機(jī)制。人們一直試圖嘗試讓模型通過數(shù)據(jù)學(xué)習(xí),來構(gòu)建出一套模型內(nèi)部的信息表示機(jī)制,而不僅僅是輸入和輸出間的映射。生成對抗網(wǎng)絡(luò)(GAN)是文本與圖像數(shù)據(jù)和模型共生的例子。判別器給生成模型提供人類世界和生成模型樣本差別的反饋,使合成的數(shù)據(jù)能夠一步步接近真實(shí)數(shù)據(jù)分布。只不過這個(gè)指導(dǎo)的過程是通過多次對抗完成的。觀察以前數(shù)據(jù)和模型共生系統(tǒng)成功的實(shí)踐,發(fā)現(xiàn)幾乎都是兩個(gè)玩家有限的零和博弈,它們可以通過具有足夠計(jì)算和模型能力的自我博弈來解決,最終收斂到一個(gè)最優(yōu)策略。然而要實(shí)現(xiàn)人類水平的人工智能,零和博弈遠(yuǎn)遠(yuǎn)不夠,必須通過建立模型間的合作機(jī)制從復(fù)雜的現(xiàn)實(shí)世界中學(xué)習(xí)。人類反饋
研究表明,模型通過完全自我博弈學(xué)習(xí)到的策略,與人類社會(huì)潛在的規(guī)范并不一致。所以,在涉及語言的任務(wù)中引入多智能體的合作可能產(chǎn)生與人類不兼容的語言特性和行為,這種合作機(jī)制必須以人類反饋?zhàn)鳛榍疤帷?/section>語言生成模型有一個(gè)特點(diǎn):文本輸入、文本輸出。這對將人類和模型納入同一個(gè)閉環(huán)系統(tǒng)來說有天然的好處。人類可以將文本提示作為模型輸入,然后觀察生成模型的輸出并給予相應(yīng)的評估和修正,這些結(jié)果可以繼續(xù)輸入給生成模型。在模型處理復(fù)雜的任務(wù)時(shí),可以人為將復(fù)雜任務(wù)拆解成多個(gè)連續(xù)的中間任務(wù),這些任務(wù)都是靠接收上一步的輸出和產(chǎn)生對下一步的輸入串聯(lián)在一起的,人們可以在每一個(gè)步驟上施加反饋。ChatGPT在語言上實(shí)現(xiàn)了文本數(shù)據(jù)和生成模型的合作共生。為了解決模型和人類認(rèn)知失配的情況,其使用真實(shí)的人類反饋數(shù)據(jù)訓(xùn)練排序模型,并以此模型作為模擬環(huán)境來和生成模型交互,實(shí)現(xiàn)了生成模型用自己生成的數(shù)據(jù)來訓(xùn)練自己。初想之下,這些做法似乎沒有本質(zhì)上的創(chuàng)新,也根本不可能使模型接近人類認(rèn)知的范疇。以打分器模擬人類反饋,在GAN相關(guān)的研究工作中似乎也是這個(gè)思路。只不過GAN多用二分類,對樣本只有好(服從真實(shí)樣本分布)與壞(服從生成分布)的區(qū)別。仔細(xì)思考人類思考和學(xué)習(xí)的方式,就能反應(yīng)過來上面說法的不合理之處。人類的價(jià)值判斷不是二元的,沒有絕對的好與壞,一切都是相對的。ChatGPT引入相對排序的方式實(shí)際上更符合人類價(jià)值判斷標(biāo)準(zhǔn),從有限的人類反饋中擬合出一個(gè)具有連續(xù)狀態(tài)的世界評估模型,盡管這不是個(gè)完美的環(huán)境,但相比于好與壞的二元論,已經(jīng)有本質(zhì)區(qū)別。用模型生成數(shù)據(jù)訓(xùn)練模型
“用自己生成的數(shù)據(jù)訓(xùn)練自己”聽上去似乎不合理。學(xué)界有觀點(diǎn)稱,“我們所能知道的一切都可以包含在百科全書中,因此只要閱讀百科全書的所有內(nèi)容就能讓我們對所有事物都有全面的了解?!卑催@種說法,只要語言模型夠大,大到能夠記憶人類所掌握的絕大部分知識,那么語言模型就具備了足夠的智能來解決任何問題。顯然現(xiàn)在的語言模型已經(jīng)大到了這個(gè)量級,卻在很多方面展示出來非常有限的能力。另一方面,如果將語言模型比作一個(gè)知識庫,它已經(jīng)記住了這個(gè)世界的絕大部分知識,模型生成的數(shù)據(jù)不是理應(yīng)已經(jīng)包含在知識庫之中嗎,那么用這些生成數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)又有什么意義?再次類比人類的學(xué)習(xí)過程。讀懂一本書,掌握書中知識的最有效的辦法絕對不是把整本書都背誦下來,這種學(xué)習(xí)方式很難挖掘到知識之間深層的關(guān)聯(lián)和邏輯關(guān)系。相反,大多數(shù)情況下人是在解決問題或者回答問題的過程中開始理解知識或者加深知識間的聯(lián)系。這些問題可能來源于書本習(xí)題,也可能是我們在腦海中對自己的發(fā)問,或者是遇到實(shí)際問題時(shí)我們迅速建立起和知識點(diǎn)相關(guān)的聯(lián)系。對一個(gè)見過海量數(shù)據(jù)的大型語言模型來說,最重要的是,要設(shè)計(jì)相當(dāng)多的難題和任務(wù)并引導(dǎo)模型解決這些困難,這樣才會(huì)強(qiáng)化模型本身的知識理解,逐漸形成對知識融會(huì)貫通的能力,也就是一種類人的智力。引入多樣的指令和任務(wù),可以幫助大模型在解決問題的能力上遠(yuǎn)勝普通的預(yù)訓(xùn)練模型。人們常常忽視生成語言模型和人類之間類似的一點(diǎn),那就是不確定性。對人體來說,神經(jīng)遞質(zhì)中離子或分子的量子行為,導(dǎo)致神經(jīng)元有是否激發(fā)的不確定性。正是大量神經(jīng)元集體的隨機(jī)性讓人類擁有了自由意志,形成源源不斷新奇的想法,也正是這些想法促進(jìn)了人類的進(jìn)步。大多數(shù)人都有“靈光一閃”的經(jīng)歷,甚至在睡夢中,大腦也能通過這種機(jī)制產(chǎn)生從未有過的新想法。凱庫勒在夢中發(fā)現(xiàn)了苯環(huán)的分子結(jié)構(gòu),就是一個(gè)例證。對于生成語言模型來說,同樣存在著隨機(jī)性,它發(fā)生在模型生成的采樣階段。在模型的采樣階段引入隨機(jī)性,可以讓我們得到非常多樣的輸出結(jié)果,這些結(jié)果會(huì)遵守一定的事實(shí),同時(shí)又引入了新的觀點(diǎn)。這些新的觀點(diǎn)并非只是知識的堆砌,而是一種知識內(nèi)化,可以形成邏輯自洽,知識上融匯的觀點(diǎn)。尤其是在大型語言模型上,這種現(xiàn)象更加明顯。由此可以得出,在大型語言模型上,用自己生成的數(shù)據(jù)訓(xùn)練自己并非沒有意義。首先借助這種方式,人類能從根本上解決大模型的數(shù)據(jù)危機(jī)問題。此外,人們不僅用這種方式教會(huì)大模型解決各種問題,還開始嘗試以類似的方式使大模型自我反思,自我驗(yàn)證和自我提升,這是未來能夠讓模型變得更加智能的重要途徑。結(jié)語在早期,人們主要依靠直覺和經(jīng)驗(yàn)來獲取知識,但這種知識是有限的,因?yàn)槲覀冎荒軕{借有限的感官和思維能力來理解世界。后來,借助假定和推理的方式,人類創(chuàng)建了各種模型和理論,以解釋自然現(xiàn)象和社會(huì)現(xiàn)象。這種基于推理的知識是無限的,因?yàn)樗粌H依賴于我們已經(jīng)知道的事實(shí)和理論,還可以通過不斷地實(shí)驗(yàn)和驗(yàn)證來擴(kuò)展和改進(jìn)。未來,人工智能的發(fā)展,也會(huì)基于對無限推理的探索。能夠區(qū)分有限和無限,是大模型真正具備類人智能的標(biāo)志。數(shù)據(jù)和模型合作共生,正是人類能夠?qū)⑷祟愔腔圩⑷氲侥P?,并促進(jìn)模型自我學(xué)習(xí)和進(jìn)化的最好方式。這讓人們看到了實(shí)現(xiàn)通用人工智能的可能途徑。王昊,IDEA研究院認(rèn)知計(jì)算與自然語言研究中心,文本生成算法團(tuán)隊(duì)Leader。北京大學(xué)博士,發(fā)表10余篇論文。?挑戰(zhàn)微軟 + GitHub!谷歌聯(lián)手 Replit,升級 AI 編程“神器”:曾拒絕微軟 10 億美元的收購
本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請
點(diǎn)擊舉報(bào)。