60億擊敗1750億、驗(yàn)證勝過(guò)微調(diào):OpenAI發(fā)現(xiàn)GPT-3解決數(shù)學(xué)題,并非參數(shù)越大越好
現(xiàn)在,OpenAI 的模型也具備解決小學(xué)數(shù)學(xué)應(yīng)用題的能力了。
簡(jiǎn)單的小學(xué)數(shù)學(xué)應(yīng)用問(wèn)題,對(duì)于人類來(lái)說(shuō)不算什么,但對(duì)于模型來(lái)說(shuō),可能是有難度的。比如問(wèn)題:安東尼有 50 支鉛筆。他把 1/2 的鉛筆給了布蘭登,剩下的 3/5 鉛筆給了查理。他保留了剩下的鉛筆。問(wèn)安東尼保留了多少支鉛筆?
像 GPT-3 這樣的大型語(yǔ)言模型雖然取得了許多令人印象深刻的技能,包括模仿人的多種寫(xiě)作風(fēng)格、20 分鐘內(nèi)完成論文等等。然而,類似 GPT-3 這樣的模型很難執(zhí)行需要進(jìn)行準(zhǔn)確多步推理的任務(wù)。就如上述問(wèn)題讓模型給出準(zhǔn)確答案還是困難的。盡管類似 GPT-3 這樣的模型可以推導(dǎo)出正確解決方案大致內(nèi)容,但也經(jīng)常會(huì)產(chǎn)生嚴(yán)重的邏輯錯(cuò)誤。為了在復(fù)雜邏輯領(lǐng)域可以達(dá)到與人類相媲美的性能,模型必須具有判別自身錯(cuò)誤的能力,并謹(jǐn)慎地執(zhí)行之后的過(guò)程。但是,模型如何判別解決方案是否正確,來(lái)自 OpenAI 的研究者提出了一個(gè)訓(xùn)練驗(yàn)證器(verifier)來(lái)判斷模型完成的正確性。在測(cè)試階段會(huì)生成許多候選解決方案并選擇排名最高的一個(gè)。證明驗(yàn)證(verification)顯著提高了 GSM8K 的性能,此外也為這一觀點(diǎn)(隨著數(shù)據(jù)的增加,驗(yàn)證比微調(diào)基線更有效)提供了強(qiáng)有力證據(jù)。具體來(lái)說(shuō),該研究訓(xùn)練了一個(gè)解決小學(xué)數(shù)學(xué)問(wèn)題的系統(tǒng),其準(zhǔn)確率約是經(jīng)過(guò)微調(diào)的 GPT-3 模型的兩倍。它能像真正的學(xué)生一樣可以解決 90% 的數(shù)學(xué)應(yīng)用問(wèn)題:在提供的數(shù)據(jù)集中進(jìn)行了小樣本測(cè)試,結(jié)果表明 9-12 歲的學(xué)生測(cè)試得分為 60%,該研究所提系統(tǒng)在相同的問(wèn)題上測(cè)試得分 55%。這一結(jié)果非常重要,因?yàn)榻裉斓?AI 在常識(shí)性多步推理方面仍然很弱,即使對(duì)小學(xué)生來(lái)說(shuō)也很容易,但 AI 還是存在很大的缺陷。該研究通過(guò)訓(xùn)練模型來(lái)識(shí)別其錯(cuò)誤,以便它可以反復(fù)試錯(cuò),直到找到可行的解決方案。下面展示了該研究所提新方法生成的解決方案其中一個(gè)案例:Tim 種了 5 棵樹(shù)。他每年從每棵樹(shù)上收集 6 個(gè)檸檬。他十年能得到多少檸檬?
OpenAI 基于四個(gè)設(shè)計(jì)原則創(chuàng)建了 GSM8K 數(shù)據(jù)集:高質(zhì)量、高多樣性、中等難度和自然語(yǔ)言解決方案。GSM8K 數(shù)據(jù)集由 8.5K 個(gè)高質(zhì)量小學(xué)數(shù)學(xué)應(yīng)用題組成。每個(gè)問(wèn)題需要 2 到 8 步解決,解決方案主要涉及使用加減乘除等基本算術(shù)運(yùn)算執(zhí)行一系列基礎(chǔ)計(jì)算以獲得最終答案。微調(diào)后的 SOTA 模型在該數(shù)據(jù)集上表現(xiàn)不佳,主要是問(wèn)題的高度多樣性導(dǎo)致的。與此同時(shí),GSM8K 解決方案僅依賴于基本概念,因此實(shí)現(xiàn)高測(cè)試性能是一個(gè)容易實(shí)現(xiàn)的目標(biāo)。GSM8K 數(shù)據(jù)集中的三個(gè)示例問(wèn)題。值得注意的是,GSM8K 中的解決方案是用自然語(yǔ)言而不是純數(shù)學(xué)表達(dá)式編寫(xiě)的。通過(guò)堅(jiān)持使用自然語(yǔ)言,模型生成的解決方案更容易被人類解釋。OpenAI 的方法保持相對(duì)領(lǐng)域不可知。OpenAI 研究了兩種解決 GSM8K 問(wèn)題的方法:微調(diào)和驗(yàn)證。微調(diào)是基線方法,它使用與 GPT-3 中生成式預(yù)訓(xùn)練相同的語(yǔ)言建模目標(biāo)(Brown 等人,2020 年)。在測(cè)試時(shí),OpenAI 通過(guò)自回歸采樣單個(gè)低溫解決方案并檢查最終答案是否正確來(lái)判斷性能。相比之下,驗(yàn)證包括對(duì)多個(gè)高溫解決方案進(jìn)行采樣,為每個(gè)解決方案分配一個(gè)分?jǐn)?shù),并輸出排名最高的解決方案。驗(yàn)證器被訓(xùn)練來(lái)判斷解決方案的正確性,其中訓(xùn)練信號(hào)完全取決于解決方案是否獲得了正確的最終答案。對(duì)于這兩種方法,OpenAI 使用 GPT-3 系列模型作為初始化,主要關(guān)注 175B 和 6B 大小的模型。175B 模型最大,產(chǎn)生的結(jié)果最令引人矚目,而 6B 模型更易于實(shí)現(xiàn)研究目。OpenAI 通過(guò)更新模型參數(shù)來(lái)進(jìn)行微調(diào),以最小化所有訓(xùn)練 token 的交叉熵?fù)p失。下圖 2 顯示了對(duì) 20 個(gè) epoch 時(shí)不同大小的訓(xùn)練集進(jìn)行微調(diào)后的測(cè)試性能。結(jié)果不出所料,可以看到 175B 模型明顯優(yōu)于較小的模型。假設(shè)一個(gè)對(duì)數(shù)線性趨勢(shì),我們可以簡(jiǎn)單地推斷這些結(jié)果,以估計(jì)當(dāng)使用完整的 GSM8K 訓(xùn)練集時(shí),需要具有 10^16 個(gè)參數(shù)的模型才能達(dá)到 80% 的求解率。盡管如此,175B 模型似乎需要至少兩個(gè)額外數(shù)量級(jí)的訓(xùn)練數(shù)據(jù)才能達(dá)到 80% 的求解率。在下圖 3 中,OpenAI 展示了 6B 模型測(cè)試性能在 100 個(gè)訓(xùn)練 epoch 的過(guò)程中如何變化。當(dāng)允許模型對(duì)每個(gè)問(wèn)題進(jìn)行 N 個(gè)單獨(dú)的猜測(cè)時(shí),OpenAI 使用 test@N 表示至少一次正確解決的問(wèn)題的百分比。盡管很快開(kāi)始過(guò)擬合測(cè)試損失,但 Test@1 的性能幾乎單調(diào)地提高。并且,隨著 epoch 次數(shù)的增加,test@100 的性能比 test@1 下降得更快。選擇具有良好覆蓋性的模型對(duì)于成功訓(xùn)練驗(yàn)證器至關(guān)重要。從實(shí)證角度來(lái)看,test@100 性能在前幾個(gè) epoch 內(nèi)達(dá)到峰值。出于這個(gè)原因,OpenAI 使用訓(xùn)練了 2 個(gè) epoch 的模型來(lái)生成用于訓(xùn)練驗(yàn)證器的樣本。如果改為微調(diào) 6B 模型以直接輸出最終答案而無(wú)需任何中間步驟,則性能會(huì)從 20.6% 急劇下降至 5.2%。為了改進(jìn)微調(diào)基準(zhǔn),OpenAI 訓(xùn)練驗(yàn)證器判斷模型生成的解決方案的正確性,并在測(cè)試時(shí)搜索這些驗(yàn)證器。以問(wèn)題和候選解決方案為條件,驗(yàn)證器輸出解決方案正確的概率。僅根據(jù)它們是否達(dá)到正確的最終答案,將訓(xùn)練解決方案標(biāo)記為正確或不正確。不過(guò),在實(shí)踐中,一些解決方案會(huì)使用有缺陷的推理得出正確的最終答案,從而導(dǎo)致誤報(bào)。如下圖 4 所示,OpenAI 按如下方式訓(xùn)練驗(yàn)證器: 在訓(xùn)練集上對(duì)模型(生成器)進(jìn)行 2 個(gè) epoch 的微調(diào);
從生成器中為每個(gè)訓(xùn)練問(wèn)題抽取 100 個(gè)完成樣本,并將每個(gè)解決方案標(biāo)記為正確或不正確;
在數(shù)據(jù)集上訓(xùn)練一個(gè)單一 epoch 的驗(yàn)證器。
在測(cè)試時(shí),OpenAI 對(duì)每個(gè)測(cè)試問(wèn)題采樣了 100 個(gè)完成情況,用驗(yàn)證器對(duì)它們進(jìn)行排名,然后返回得分最高的那個(gè)。下圖 5 展示了 6B 和 175B 模型的驗(yàn)證和微調(diào)兩種方法之間的對(duì)比情況,結(jié)果發(fā)現(xiàn)在低數(shù)據(jù)集下使用驗(yàn)證方法是沒(méi)有好處的。有趣的是,175B 驗(yàn)證器比 6B 驗(yàn)證器更早「起飛」,超越微調(diào)基線需要的時(shí)間更少。在完整的訓(xùn)練集上,隨著 epoch 的增加,使用驗(yàn)證方法的 6B 模型最終略優(yōu)于微調(diào)的 175B 模型,性能提升大約相當(dāng)于模型大小增加 30 倍。訓(xùn)練驗(yàn)證器既可以在全部的生成解決方案里進(jìn)行單個(gè)標(biāo)量預(yù)測(cè)(single scalar prediction),也可以在解決方案的每個(gè) token 后進(jìn)行單個(gè)標(biāo)量預(yù)測(cè),OpenAI 選擇后者,即訓(xùn)練驗(yàn)證器在每個(gè) token 之后進(jìn)行預(yù)測(cè)。實(shí)驗(yàn)結(jié)果如圖 6a 所示,它們分別標(biāo)記為「解決方案級(jí)別」和「token 級(jí)別」。在圖 6b 中,通過(guò)消融實(shí)驗(yàn)驗(yàn)證訓(xùn)練驗(yàn)證器中使用目標(biāo)(objective)的作用, OpenAI 將使用兩個(gè)目標(biāo)與僅使用驗(yàn)證目標(biāo)進(jìn)行比較。在圖 6c 中,OpenAI 對(duì)生成器和驗(yàn)證器的大小進(jìn)行了實(shí)驗(yàn),研究發(fā)現(xiàn)使用大的生成器、小的驗(yàn)證器組合性能顯著優(yōu)于小的生成器、大的驗(yàn)證器組合。與AI俱進(jìn),化時(shí)光為翎:「AI中國(guó)」機(jī)器之心2021年度評(píng)選暨特別策劃
機(jī)器之心正式啟動(dòng)「AI中國(guó)」2021年度評(píng)選暨「與AI俱進(jìn),化時(shí)光為翎」特別策劃,包括2021年度評(píng)選、年度內(nèi)容專題、年度報(bào)告和AI科技年會(huì)四項(xiàng)內(nèi)容。我們希望借此與AI公司并肩,與創(chuàng)新產(chǎn)業(yè)同行,評(píng)選出企業(yè)榜、解決方案榜、 生態(tài)榜、行業(yè)事件榜和專業(yè)品牌榜,并與機(jī)器之心讀者分享他們的技術(shù)突破與實(shí)踐中的精彩行業(yè)故事。最終評(píng)選結(jié)果將在AI科技年會(huì)現(xiàn)場(chǎng)發(fā)布。歡迎各企業(yè)機(jī)構(gòu)掃碼報(bào)名或了解更多詳情。
本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)
點(diǎn)擊舉報(bào)。