国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
思維鏈如何釋放語言模型的隱藏能力?最新理論研究揭示其背后奧秘


MLNLP社區(qū)是國內(nèi)外知名的機器學(xué)習(xí)與自然語言處理社區(qū),受眾覆蓋國內(nèi)外NLP碩博生、高校老師以及企業(yè)研究人員。
社區(qū)的愿景是促進(jìn)國內(nèi)外自然語言處理,機器學(xué)習(xí)學(xué)術(shù)界、產(chǎn)業(yè)界和廣大愛好者之間的交流和進(jìn)步,特別是初學(xué)者同學(xué)們的進(jìn)步。
轉(zhuǎn)載自 | 機器之心
思維鏈提示(CoT)是大模型涌現(xiàn)中最神秘的現(xiàn)象之一,尤其在解決數(shù)學(xué)推理和決策問題中取得了驚艷效果。CoT到底有多重要呢?它背后成功的機制是什么?本文中,北大的幾位研究者證明了CoT在實現(xiàn)大語言模型(LLM)推理中是不可或缺的,并從理論和實驗角度揭示了CoT如何釋放LLM的巨大潛力。
最近的研究發(fā)現(xiàn),思維鏈提示(Chain of Thought prompting,簡稱為 CoT)可以顯著提升大語言模型(LLM)的性能,尤其適用于處理涉及數(shù)學(xué)或推理的復(fù)雜任務(wù)。不過盡管取得了很大成功,但 CoT 背后的機制以及如何釋放 LLM 的潛力仍然難以捉摸。
近日,北京大學(xué)的一項新研究從理論視角揭示了 CoT 背后的奧秘。
論文鏈接:https://arxiv.org/abs/2305.15408
基于 Transformer 的大語言模型已經(jīng)成為自然語言處理中的通用模型,在各種任務(wù)上都獲得了廣泛的應(yīng)用。主流的大模型通?;谧曰貧w范式來實現(xiàn),具體而言,各種不同的任務(wù)(如文本翻譯、文本生成、問題回答等)都可以統(tǒng)一地視為序列生成問題,其中問題的輸入和問題描述被一起被編碼為一個單詞(token)序列,稱為提示(prompt);問題的答案便可以轉(zhuǎn)化為基于提示來條件生成后續(xù)單詞的任務(wù)。
在大模型領(lǐng)域中有大量的研究已經(jīng)表明,精心設(shè)計的提示詞對模型的表現(xiàn)起著至關(guān)重要的作用。特別是在涉及算術(shù)或推理相關(guān)的任務(wù)時, CoT 已被表明能夠大大提高所生成答案的正確性。如下圖所示,對于一個需要數(shù)學(xué)推理的任務(wù),大模型直接生成的答案往往是錯誤的(下圖 a,b)。但是如果通過修改提示使得大模型輸出整個思維鏈(中間推導(dǎo)步驟),最終便能夠得到正確答案(下圖 c,d)。
在實踐中,思維鏈提示有兩種主流的實現(xiàn)方式:一種是在提示中添加特定短語,如 “Let’s think step by step” 來觸發(fā)(如上圖 c);另一種是通過提供少量的思維鏈演示的例子來讓大模型模擬相應(yīng)的推導(dǎo)過程(如上圖 d)。
然而,盡管 CoT 在大量實驗上都取得了顯著的表現(xiàn),但背后的理論機制卻仍然是個謎。一方面,大模型在直接回答數(shù)學(xué)、推理等問題方面是否確實存在固有理論缺陷?另一方面,為什么 CoT 可以提升大模型在這些任務(wù)上的能力?這篇論文從理論角度對上述問題進(jìn)行了回答。
具體而言,研究者從模型表達(dá)能力的角度來研究 CoT:對于數(shù)學(xué)任務(wù)和一般的決策任務(wù),本文研究了基于自回歸的 Transformer 模型在以下兩個方面的表達(dá)能力:(1)直接生成答案,以及(2)采用 CoT 的方式生成完整的解決步驟。 

CoT 是解決數(shù)學(xué)問題的關(guān)鍵

以 GPT-4 為代表的大模型已經(jīng)展現(xiàn)出了令人震驚的數(shù)學(xué)能力。例如,它能夠正確求解大部分高中數(shù)學(xué)題,甚至已經(jīng)成為數(shù)學(xué)家們的研究助手。
為了研究大模型在數(shù)學(xué)方面的能力,本文選取了兩個非?;A(chǔ)但核心的數(shù)學(xué)任務(wù):算術(shù)和方程(下圖給出了這兩個任務(wù)的輸入輸出示例)。由于它們是解決復(fù)雜數(shù)學(xué)問題的基本組件,因此通過對這兩個核心數(shù)學(xué)問題的研究,我們可以對大模型在一般數(shù)學(xué)問題上的能力有一個更深刻的理解。
研究者首先探究了 Transformer 是否能夠輸出上述問題的答案而不輸出中間步驟。他們考慮了一種與實際非常吻合的假設(shè) ——log 精度 Transformer,即 Transformer 的每個神經(jīng)元只能表示有限精度的浮點數(shù)(精度為 log n 比特),其中 n 是句子的最大長度。這一假設(shè)與實際非常接近,例如在 GPT-3 中,機器精度(16 位或 32 位)通常要遠(yuǎn)小于最大輸出句子長度(2048)。
在這一假設(shè)下,研究者證明了一個核心不可能結(jié)果:對于常數(shù)層、寬度為 d 的自回歸 Transformer 模型,以直接輸出答案的方式求解上述兩個數(shù)學(xué)問題時,需要使用極大的模型寬度 d。具體而言,d 需要以超越多項式的增長速度隨輸入長度 n 的增長而變大。
造成這一結(jié)果的本質(zhì)原因在于,上述兩個問題不存在高效的并行算法,因此 Transformer 作為一種典型的并行模型無法對其進(jìn)行求解。文章使用理論計算機科學(xué)中的電路復(fù)雜性理論對上述定理進(jìn)行了嚴(yán)格證明。
那么,如果模型不直接輸出答案,而是按照上圖的形式輸出中間推導(dǎo)步驟呢?研究者進(jìn)一步通過構(gòu)造證明了,當(dāng)模型可以輸出中間步驟時,一個固定大?。ú灰蕾囉谳斎腴L度 n)的自回歸 Transformer 模型便可以解決上述兩個數(shù)學(xué)問題。
對比之前的結(jié)果可以看出,加入 CoT 極大地提升了大模型的表達(dá)能力。研究者進(jìn)一步對此給出了直觀的理解:這是因為 CoT 的引入會將生成的輸出單詞不斷回饋到輸入層,這大大增加了模型的有效深度,使其正比于 CoT 的輸出長度,從而極大地提升了 Transformer 的并行復(fù)雜度。

CoT 是解決一般決策問題的關(guān)鍵

除了數(shù)學(xué)問題,研究者進(jìn)一步考慮了 CoT 在解決一般任務(wù)上的能力。他們從決策問題出發(fā),考慮了一種解決決策問題的通用框架,稱為動態(tài)規(guī)劃。
動態(tài)規(guī)劃(DP)的基本思想在于將復(fù)雜問題分解為一系列可以按順序解決的小規(guī)模子問題。其中對問題的分解確保了各個子問題之間存在顯著的相互關(guān)聯(lián)(重疊),從而使得每個子問題可以利用之前的子問題上的答案來高效解決。
最長上升子序列(LIS)和求解編輯距離(ED)是《算法導(dǎo)論》一書中提出的兩個著名的 DP 問題,下表列出了這兩個問題的狀態(tài)空間、轉(zhuǎn)移函數(shù)的聚合函數(shù)。
研究者證明了,自回歸 Transformer 模型可以按照解決子問題的順序輸出一個完整的動態(tài)規(guī)劃思維鏈,從而對于所有能夠用動態(tài)規(guī)劃解決的任務(wù)都能輸出正確答案。同樣地,研究者進(jìn)一步證明了生成思維鏈?zhǔn)潜匾模簩τ诤芏嗬щy的動態(tài)規(guī)劃問題,一個常數(shù)層、多項式大小的 Transformer 模型無法直接輸出正確答案。文章通過上下文無關(guān)文法成員測試這一問題給出了反例。

實驗

研究者最后設(shè)計了大量實驗對上述理論進(jìn)行了驗證,考慮了四種不同的任務(wù):算術(shù)表達(dá)式求值、解線性方程組、求解最長上升子序列以及求解編輯距離。
實驗結(jié)果表明,當(dāng)使用 CoT 數(shù)據(jù)進(jìn)行訓(xùn)練時,一個 3 層的自回歸 Transformer 模型已經(jīng)能夠在所有任務(wù)上均取得幾乎完美的表現(xiàn)。然而,直接輸出正確答案在所有任務(wù)上的表現(xiàn)都很差(即使使用更深的模型)。這一結(jié)果清楚地展示了自回歸 Transformer 在解決各種復(fù)雜任務(wù)上的能力,并表明了 CoT 在解決這些任務(wù)中的重要性。
研究者還探究了學(xué)得的自回歸模型是否可以進(jìn)一步外推到更長的數(shù)據(jù)。他們?yōu)檫\算任務(wù)構(gòu)建了一個 CoT 訓(xùn)練數(shù)據(jù)集,其中運算符數(shù)量從 1 到 15,并在算子數(shù)量 n ∈ {16, 17, 18} 的表達(dá)式上測試模型。結(jié)果如下圖 3 所示,研究者的三層 Transformer 模型依然在更長的序列上表現(xiàn)良好,表明模型在某種程度上確實學(xué)習(xí)了底層機制。因此,研究者相信在更多不同長度的數(shù)據(jù)上訓(xùn)練的模型最終可以揭示完整的算術(shù)規(guī)則。
本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
GPT-4 做「世界模型」,讓LLM從「錯題」中學(xué)習(xí),推理能力顯著提升
有了Fine-tune-CoT方法,小模型也能做推理,完美逆襲大模型
AI;預(yù)訓(xùn)練模型技術(shù)總結(jié)與進(jìn)展(更新中)
是什么讓ChatGPT變得如此聰明?
Meta開源文本生成音樂大模型,我們用《七里香》歌詞試了下
深入聊一聊chatGPT模型原理(無公式)
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服