最近,AI領(lǐng)域又迎來了一項(xiàng)重磅研究成果——DeepSeek R1
。這一推理模型在性能上取得了重大突破,甚至能與OpenAI
的o1-1217
相媲美。它的出現(xiàn),不僅為大語言模型(LLMs)的發(fā)展開辟了新路徑,也為整個AI研究領(lǐng)域注入了新的活力。今天,就讓我們深入解讀一下DeepSeek R1
背后的研究論文,看看它究竟有哪些創(chuàng)新點(diǎn)和過人之處。
在AI發(fā)展的浪潮中,LLMs正快速迭代,不斷縮小與通用人工智能(AGI)之間的差距。后訓(xùn)練作為訓(xùn)練流程的關(guān)鍵一環(huán),能有效提升模型在推理任務(wù)中的準(zhǔn)確率,還能讓模型更好地契合社會價值和用戶偏好。此前,OpenAI的o1系列模型通過增加思維鏈推理過程的長度,在推理任務(wù)上取得了顯著進(jìn)展,但如何實(shí)現(xiàn)有效的測試時擴(kuò)展,仍然是學(xué)界亟待解決的難題。
在這樣的背景下,DeepSeek R1的研究團(tuán)隊(duì)另辟蹊徑,嘗試運(yùn)用純強(qiáng)化學(xué)習(xí)(RL)來提升語言模型的推理能力。他們的目標(biāo)很明確:探索LLMs在沒有任何監(jiān)督數(shù)據(jù)的情況下,通過純RL過程自我進(jìn)化出推理能力的潛力。
研究團(tuán)隊(duì)以DeepSeek-V3-Base為基礎(chǔ)模型,采用GRPO(Group Relative Policy Optimization)作為RL框架。在訓(xùn)練過程中,他們驚喜地發(fā)現(xiàn),DeepSeek R1-Zero(不依賴監(jiān)督微調(diào)的純RL模型)展現(xiàn)出了強(qiáng)大且有趣的推理行為。經(jīng)過數(shù)千次RL訓(xùn)練步驟,DeepSeek R1-Zero在推理基準(zhǔn)測試中的表現(xiàn)大幅提升。以AIME 2024測試為例,其單樣本通過率(pass@1)從最初的15.6% 飆升至71.0%;若采用多數(shù)投票策略,這一成績更是能提升到86.7%,與OpenAI-o1-0912的水平相當(dāng)。
不過,DeepSeek R1-Zero
也并非十全十美,它存在可讀性差、語言混合等問題。為了解決這些問題,并進(jìn)一步提升推理性能,研究團(tuán)隊(duì)推出了DeepSeek R1
。DeepSeek R1
通過引入少量冷啟動數(shù)據(jù)和多階段訓(xùn)練流程,成功克服了DeepSeek R1-Zero
的部分缺陷,最終在性能上達(dá)到了與OpenAI-o1-1217
相媲美的水平。
DeepSeek R1-Zero
的訓(xùn)練過程可謂獨(dú)樹一幟。團(tuán)隊(duì)采用GRPO算法,這一算法舍棄了與策略模型大小相同的評論家模型,通過群組分?jǐn)?shù)來估計(jì)基線,大大節(jié)省了訓(xùn)練成本。
在獎勵建模方面,團(tuán)隊(duì)采用了基于規(guī)則的獎勵系統(tǒng),主要包含準(zhǔn)確性獎勵和格式獎勵。準(zhǔn)確性獎勵用于評估模型的回答是否正確,比如在數(shù)學(xué)問題中,模型需按指定格式給出最終答案,以便進(jìn)行正確性驗(yàn)證;格式獎勵則要求模型將思考過程放在“
為了引導(dǎo)模型的訓(xùn)練,團(tuán)隊(duì)設(shè)計(jì)了一個簡潔的模板。該模板要求模型先進(jìn)行推理,再給出最終答案,并且盡量避免對內(nèi)容進(jìn)行特定限制,以便觀察模型在RL過程中的自然發(fā)展。
在訓(xùn)練過程中,DeepSeek R1-Zero展現(xiàn)出了令人驚嘆的自我進(jìn)化能力。隨著訓(xùn)練步數(shù)的增加,它在AIME 2024測試中的準(zhǔn)確率穩(wěn)步提升。不僅如此,模型還學(xué)會了自我反思和探索多種解題方法。在遇到復(fù)雜問題時,它會重新評估之前的步驟,嘗試不同的解題思路,這種“頓悟時刻”充分體現(xiàn)了強(qiáng)化學(xué)習(xí)的魅力,讓模型能夠自主發(fā)展出先進(jìn)的解題策略。
DeepSeek R1
的訓(xùn)練流程分為四個階段,旨在解決DeepSeek R1-Zero
存在的問題,并進(jìn)一步提升模型性能。
在冷啟動階段,團(tuán)隊(duì)構(gòu)建并收集了少量高質(zhì)量的長思維鏈(CoT)數(shù)據(jù),對DeepSeek-V3-Base模型進(jìn)行微調(diào),以此作為RL訓(xùn)練的初始演員。這些冷啟動數(shù)據(jù)經(jīng)過精心設(shè)計(jì),具有良好的可讀性,能夠有效避免模型在訓(xùn)練初期出現(xiàn)不穩(wěn)定的情況。
在推理導(dǎo)向的強(qiáng)化學(xué)習(xí)階段,團(tuán)隊(duì)采用了與DeepSeek R1-Zero相同的大規(guī)模RL訓(xùn)練過程,但在此基礎(chǔ)上引入了語言一致性獎勵,以緩解思維鏈中出現(xiàn)的語言混合問題。雖然這一獎勵機(jī)制會導(dǎo)致模型性能略有下降,但卻使模型的輸出更符合人類的閱讀習(xí)慣。
當(dāng)推理導(dǎo)向的RL訓(xùn)練接近收斂時,團(tuán)隊(duì)利用拒絕采樣和監(jiān)督微調(diào)(SFT)來收集更多數(shù)據(jù)。他們不僅從推理任務(wù)中收集數(shù)據(jù),還納入了寫作、角色扮演等其他領(lǐng)域的數(shù)據(jù),以增強(qiáng)模型的通用能力。在這個過程中,團(tuán)隊(duì)對數(shù)據(jù)進(jìn)行了嚴(yán)格篩選,過濾掉了語言混合、冗長段落和代碼塊等難以閱讀的內(nèi)容。
為了使模型更好地符合人類偏好,團(tuán)隊(duì)還進(jìn)行了全場景的強(qiáng)化學(xué)習(xí)。在這個階段,他們綜合運(yùn)用多種獎勵信號和多樣化的提示分布,對模型進(jìn)行進(jìn)一步訓(xùn)練。對于推理數(shù)據(jù),仍然采用基于規(guī)則的獎勵;對于通用數(shù)據(jù),則借助獎勵模型來捕捉人類偏好。通過這種方式,模型在保證推理能力的同時,更加注重對用戶的幫助和無害性。
為了讓更高效的小模型也具備強(qiáng)大的推理能力,研究團(tuán)隊(duì)從DeepSeek R1向小模型進(jìn)行知識蒸餾。他們直接使用DeepSeek R1生成的800k樣本對Qwen和Llama等開源模型進(jìn)行微調(diào)。實(shí)驗(yàn)結(jié)果令人驚喜,經(jīng)過蒸餾的小模型在推理能力上有了顯著提升。例如,DeepSeek-R1-Distill-Qwen-7B在AIME 2024測試中取得了55.5%的成績,超越了QwQ-32B-Preview;DeepSeek-R1-Distill-Qwen-32B在多個測試中表現(xiàn)優(yōu)異,其成績與o1-mini相當(dāng)。這一成果表明,將大模型的推理模式蒸餾到小模型中是一種非常有效的方法,能夠讓小模型在保持高效性的同時,獲得強(qiáng)大的推理能力。
研究團(tuán)隊(duì)對DeepSeek R1
及蒸餾后的小模型進(jìn)行了廣泛的實(shí)驗(yàn)評估,涵蓋了多個基準(zhǔn)測試,包括MMLU
、MMLU-Pro
、GPQA Diamond
、AIME 2024
、LiveCodeBench
等,同時還與多個強(qiáng)大的基線模型進(jìn)行了對比。
在教育導(dǎo)向的知識基準(zhǔn)測試中,DeepSeek R1
的表現(xiàn)優(yōu)于DeepSeek-V3
,尤其在STEM
相關(guān)問題上,通過大規(guī)模RL訓(xùn)練取得了顯著的準(zhǔn)確率提升。在FRAMES
等長上下文依賴的問答任務(wù)中,DeepSeek R1
也展現(xiàn)出了強(qiáng)大的文檔分析能力。
在數(shù)學(xué)任務(wù)和編碼算法任務(wù)中,DeepSeek R1
的性能與OpenAI-o1-1217
相當(dāng),大幅超越了其他模型。在寫作任務(wù)和開放域問答任務(wù)中,DeepSeek R1
在AlpacaEval 2.0
和ArenaHard
測試中表現(xiàn)出色,其生成的總結(jié)長度簡潔,避免了長度偏差,進(jìn)一步證明了其在多任務(wù)處理上的穩(wěn)健性。
蒸餾后的小模型同樣表現(xiàn)優(yōu)異,DeepSeek-R1-Distill-Qwen-7B
在AIME 2024
測試中超越了GPT-4o-0513
等非推理模型;DeepSeek-R1-Distill-Qwen-14B
在所有評估指標(biāo)上均超過了QwQ-32B-Preview
;DeepSeek-R1-Distill-Qwen-32B
和DeepSeek-R1-Distill-Llama-70B
在大多數(shù)基準(zhǔn)測試中顯著超過o1-mini
。這些結(jié)果充分展示了蒸餾技術(shù)的有效性,以及DeepSeek R1
強(qiáng)大的推理能力和泛化能力。
DeepSeek R1的出現(xiàn)無疑為LLMs的發(fā)展帶來了新的思路和方法,但研究團(tuán)隊(duì)并沒有滿足于此。他們在論文中指出了未來的研究方向,旨在進(jìn)一步提升DeepSeek R1的性能和應(yīng)用范圍。
在通用能力方面,DeepSeek R1在函數(shù)調(diào)用、多輪對話、復(fù)雜角色扮演和json輸出等任務(wù)上還有提升空間。團(tuán)隊(duì)計(jì)劃探索如何利用長思維鏈來優(yōu)化這些任務(wù)的處理能力。
在語言混合問題上,目前DeepSeek R1主要針對中文和英文進(jìn)行了優(yōu)化,在處理其他語言的查詢時可能會出現(xiàn)語言混合的情況。未來,團(tuán)隊(duì)將致力于解決這一問題,使模型能夠更好地處理多種語言的任務(wù)。
在提示工程方面,DeepSeek R1對提示較為敏感,少樣本提示會導(dǎo)致其性能下降。團(tuán)隊(duì)建議用戶采用零樣本設(shè)置來描述問題和指定輸出格式,以獲得最佳效果。未來,他們也將進(jìn)一步研究如何優(yōu)化模型對提示的適應(yīng)性,提高模型在不同提示條件下的穩(wěn)定性。
在軟件工程任務(wù)方面,由于評估時間較長,影響了RL過程的效率,DeepSeek R1在軟件工程基準(zhǔn)測試上的提升有限。未來版本將通過對軟件工程數(shù)據(jù)進(jìn)行拒絕采樣或在RL過程中引入異步評估來提高效率,從而提升模型在軟件工程任務(wù)中的表現(xiàn)。
DeepSeek R1的研究成果為LLMs的推理能力提升提供了重要的參考和借鑒,其創(chuàng)新的訓(xùn)練方法和優(yōu)秀的實(shí)驗(yàn)結(jié)果讓人對AI的未來發(fā)展充滿期待。相信在研究團(tuán)隊(duì)的不斷努力下,DeepSeek R1將在未來取得更大的突破,為AI領(lǐng)域帶來更多的驚喜。作為AI愛好者,我們不妨持續(xù)關(guān)注DeepSeek R1的發(fā)展動態(tài),見證AI技術(shù)的不斷進(jìn)步。