国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項超值服

開通VIP
比GPT-4還強(qiáng),20億參數(shù)模型做算術(shù)題,準(zhǔn)確率幾乎100%

機(jī)器之心報道

編輯:陳萍、小舟

語言模型做數(shù)學(xué)題,能力又升級了。

當(dāng)前,大型語言模型 (LLM) 在處理 NLP 領(lǐng)域的各種下游任務(wù)方面已經(jīng)表現(xiàn)出卓越的能力。特別是,GPT-4、ChatGPT 等開創(chuàng)性模型已經(jīng)接受了大量文本數(shù)據(jù)的訓(xùn)練,使它們具備強(qiáng)大的文本理解和生成能力,能夠生成連貫且上下文相關(guān)的響應(yīng),在各種 NLP 任務(wù)中具有高度通用性。

然而,LLM 在數(shù)學(xué)推理方面的性能卻不盡如人意。LLM 很難準(zhǔn)確地執(zhí)行復(fù)雜的算術(shù)運(yùn)算,尤其是涉及超過 8 位數(shù)字乘法的運(yùn)算,還有涉及小數(shù)、分?jǐn)?shù)的運(yùn)算。

基于此,來自清華大學(xué)、TAL AI Lab 和智譜 AI 的研究者聯(lián)合提出了一個能夠完美執(zhí)行復(fù)雜算術(shù)運(yùn)算的新模型 ——MathGLM。

  • 論文地址:https://arxiv.org/pdf/2309.03241v2.pdf

  • 項目地址:https://github.com/THUDM/MathGLM#arithmetic-tasks

該研究表明:在足夠的訓(xùn)練數(shù)據(jù)下,20 億參數(shù)的語言模型能夠準(zhǔn)確地進(jìn)行多位算術(shù)運(yùn)算,準(zhǔn)確率幾乎達(dá)到了 100%,且不會出現(xiàn)數(shù)據(jù)泄露(data leakage)。這個結(jié)果大幅超越了 GPT-4(其多位乘法運(yùn)算準(zhǔn)確率僅為 4.3%)。

方法介紹

本文提出了一個名為 MathGLM 的模型來探討 LLM 在數(shù)學(xué)推理方面的效率。

MathGLM 模型需要完成的算術(shù)任務(wù)大致可以分為兩類:基本算術(shù)運(yùn)算和復(fù)雜混合運(yùn)算。其中基本算術(shù)運(yùn)算包含基本的數(shù)學(xué)任務(wù),這些任務(wù)圍繞兩個數(shù)字的簡單計算。而復(fù)雜混合運(yùn)算涉及不同算術(shù)運(yùn)算和數(shù)字格式(例如整數(shù)、小數(shù)、分?jǐn)?shù)等)的組合。表 1 為 MathGLM 任務(wù)分類。

為了增強(qiáng) MathGLM 的算術(shù)能力,本文采用了基于 Transformer 的僅解碼器架構(gòu),并使用自回歸目標(biāo)(autoregressive objective)在生成的算術(shù)數(shù)據(jù)集上從頭開始訓(xùn)練它。

算術(shù)任務(wù)的學(xué)習(xí)

算術(shù)訓(xùn)練數(shù)據(jù)集是精心設(shè)計的,包括加法、減法、乘法、除法和求冪等多種運(yùn)算。此外,它還包含多種數(shù)字格式,例如整數(shù)、小數(shù)、百分比、分?jǐn)?shù)和負(fù)數(shù)。數(shù)據(jù)集規(guī)模大小不一,范圍從 100 萬到 5000 萬條記錄不等。 

在每個數(shù)據(jù)集中,單個算術(shù)表達(dá)式由 2 到 10 個運(yùn)算步驟組成,涵蓋一系列數(shù)學(xué)運(yùn)算,例如加法 (+)、減法 (-)、乘法 (×)、除法 (/) 和求冪 (^)。圖 3 為從算術(shù)數(shù)據(jù)集中提取的一些訓(xùn)練示例:

表 2 概述了 MathGLM 模型的不同規(guī)模,包括 4 種不同類型的模型,每種模型都有不同的參數(shù)大小。最大的模型參數(shù)量為 2B,容量最強(qiáng);其余參數(shù)量分別為 500M 、100M 以及最小的 10M 參數(shù)模型。

對數(shù)學(xué)應(yīng)用問題的學(xué)習(xí)

除了算術(shù)任務(wù)外,本文還訓(xùn)練(微調(diào))了一系列基于 Transformer 的語言模型,稱為通用語言模型 (GLM,General Language Model)及其聊天版本來解決數(shù)學(xué)應(yīng)用問題。訓(xùn)練過程使用了公開的 Chinese Ape210K 數(shù)據(jù)集,該數(shù)據(jù)集包含 21 萬道中文小學(xué)數(shù)學(xué)題,每個題的答案都是直接計算得出的。

為了提高 MathGLM 在數(shù)學(xué)應(yīng)用題上的性能,本文采用分步策略來重建 Ape210K 數(shù)據(jù)集,并將其轉(zhuǎn)換為逐步計算每個數(shù)學(xué)問題答案的版本。圖 4 展示了原始 Ape210K 數(shù)據(jù)集和本文重建版本之間的對比。

本文采用 GLM 的不同變體作為骨干來訓(xùn)練 MathGLM,包括具有 335M 參數(shù)的 GLM-large、GLM-6B、GLM2-6B 和 GLM-10B。此外,本文還使用 ChatGLM-6B 和 ChatGLM2-6B 主干網(wǎng)絡(luò)訓(xùn)練 MathGLM。這些骨干模型賦予 MathGLM 基本的語言理解能力,使其能夠有效理解數(shù)學(xué)應(yīng)用題中包含的語言信息。

實驗

本文設(shè)計了兩種不同類型的實驗,包括算術(shù)任務(wù)和數(shù)學(xué)應(yīng)用題。

對于算術(shù)任務(wù),本文預(yù)訓(xùn)練了一個基于 Transformer 的 MathGLM 模型,該模型具有 500M 參數(shù),并將其與領(lǐng)先的大型語言模型 (LLM)(例如 GPT-4 和 ChatGPT)的性能進(jìn)行了比較。結(jié)果如表 3 所示, MathGLM 優(yōu)于所有其他模型,表明 MathGLM 在處理算術(shù)任務(wù)方面具有卓越的性能。

即使只有 1000 萬個參數(shù)的 MathGLM-10M,結(jié)果也令人驚訝。MathGLM-10M 在一系列綜合算術(shù)任務(wù)中的性能優(yōu)于 GPT-4 和 ChatGPT。 

此外,當(dāng)比較不同參數(shù)規(guī)模的 MathGLM 時,本文觀察到 MathGLM 的算術(shù)性能與其參數(shù)數(shù)量的增加直接相關(guān)。這一發(fā)現(xiàn)表明,隨著模型尺寸的增加,它們的性能表現(xiàn)出相應(yīng)的增強(qiáng)。

綜上所述,研究者對復(fù)雜算術(shù)任務(wù)的評估結(jié)果表明 MathGLM 具有卓越的性能。通過分解算術(shù)任務(wù),這些模型的性能顯著超過了 GPT-4 和 ChatGPT。

此外,本文還對 GPT-4、ChatGPT、text-davinci-003、code-davinci-002、Galacica、LLaMA、OPT、BLOOM 和 GLM 進(jìn)行了比較。本文從前面討論的大數(shù)據(jù)集中隨機(jī)抽取了一個包含 100 個測試用例的緊湊算術(shù)數(shù)據(jù)集。結(jié)果如表 4 所示。

通過以上分析結(jié)果可以看出,MathGLM 在 20 億參數(shù)下達(dá)到了 93.03% 的準(zhǔn)確率,超越了所有其他 LLM。

對于數(shù)學(xué)應(yīng)用問題,本文在 Ape210K 數(shù)據(jù)集上進(jìn)行了實驗。表 8 報告了包括 MathGLM 變體、 GPT-4、ChatGPT 等在內(nèi)的結(jié)果。

結(jié)果表明,當(dāng)與 GLM-10B 配合使用時,MathGLM 在答案準(zhǔn)確性方面達(dá)到了與最先進(jìn)的 GPT-4 模型相當(dāng)?shù)男阅芩健?/span>

此外,將 MathGLM 的性能與 GLM-Large、GLM-6B 和 GLM-10B 進(jìn)行比較時,出現(xiàn)了一個明顯的趨勢:MathGLM 在算術(shù)準(zhǔn)確性和答案準(zhǔn)確性方面都表現(xiàn)出顯著增強(qiáng)。

為了評估模型在不同年級數(shù)學(xué)問題上的解決能力,該研究在 K6 數(shù)據(jù)集上測試評估了幾種模型的性能,包括:GPT-4、ChatGPT、Chinese-Alpaca-13B、MOSS-16B、Ziya-LLaMA-13B、Baichuan-7B、ChatGLM-6B、ChatGLM2-6B 和 MathGLM-GLM-10B,結(jié)果如下圖 8 所示。

本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
清華系ChatGPT發(fā)布!唐杰團(tuán)隊打造,專對中文優(yōu)化,把握新聞動態(tài)
醬酒頤和 投資 引言
訓(xùn)練ChatGPT的必備資源:語料、模型和代碼庫完全指南
對話智譜AI CEO張鵬:中國通用大模型,做行業(yè)生意|順為系
【算術(shù)suànshù 算數(shù)】
計算思想 | ChatGPT能否具備CS thinking 和 Critical-Reason-thinking
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服