国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
談?wù)剬?duì)DeepSeek-R1的一些理解

一、寫在前面

在OpenAI o1剛放出來(lái)時(shí),它有限的技術(shù)報(bào)告里,有2個(gè)內(nèi)容格外抓人眼球:

  • Inference/test-time scaling
  • RL

我一直是把這2者理解為兩個(gè)獨(dú)立的個(gè)體,在這個(gè)基礎(chǔ)上,當(dāng)時(shí)我給出了一些關(guān)于o1實(shí)現(xiàn)思路的猜想(https://zhuanlan.zhihu.com/p/773907223):

我認(rèn)為o1走的可能是上述framework3的路線,總結(jié)來(lái)說(shuō):

  • Inference/test-time scaling這一塊的主要作用是為RL過(guò)程自動(dòng)化地制造高質(zhì)量數(shù)據(jù)集。包括用于format模型產(chǎn)生思考過(guò)程的long cot數(shù)據(jù)集,以及帶preference labels的數(shù)據(jù)集。我把這一塊的系統(tǒng)抽象為PRM + some search methods的形式。例如討論度很高的MCTS,本質(zhì)上也可理解為 fixed PRM + some search methods。
  • RL:這部分應(yīng)該就是openAI自己慣有的一套R(shí)L流程。
  • 在這樣的訓(xùn)練框架下,最終推理時(shí)是否要再次引入inference-time scaling模塊,就是一個(gè)可選項(xiàng)了。只要RL過(guò)程做得充分好,那么直接用訓(xùn)完的policy模型就可以,完全不需要再做優(yōu)化。

那么,我為什么當(dāng)時(shí)會(huì)認(rèn)為 inference-time scaling 和 RL 應(yīng)該是2個(gè)獨(dú)立的過(guò)程呢?因?yàn)樵谖业恼J(rèn)知里,我認(rèn)為如果沒(méi)有顯式的引導(dǎo),模型是不具備產(chǎn)生long cot(乃至帶反思的cot)的能力的(在模型訓(xùn)練初期,這個(gè)能力是指formatting模型,讓它知道要產(chǎn)出這種格式的回答;在訓(xùn)練過(guò)程中再來(lái)慢慢提升這種回答的質(zhì)量)這個(gè)顯示引導(dǎo)就是指諸如sft這樣的過(guò)程。所以在這個(gè)認(rèn)知里,上面的2個(gè)過(guò)程就應(yīng)該是獨(dú)立的。

而我第一次發(fā)現(xiàn)這樣的認(rèn)知可能有問(wèn)題,是在我閱讀紅杉對(duì)openAI的訪談中,在這個(gè)萬(wàn)字長(zhǎng)文里,有一句話格外引起我的興趣,我當(dāng)時(shí)把它劃了出來(lái):

這句話的意思是:沒(méi)有人為的刻意為之,模型在某種訓(xùn)練過(guò)程中自發(fā)出現(xiàn)了反思的行為。而如果這一點(diǎn)都是能實(shí)現(xiàn)的,那是否意味著沒(méi)有人為的刻意為之,模型本來(lái)也具備產(chǎn)生long cot的能力呢?

如果是這樣的話,那么o1可能除了數(shù)據(jù)工程 + 慣常的RL技巧外,整個(gè)系統(tǒng)要比想的簡(jiǎn)單很多。可是我的水平有限,實(shí)在不知道除了顯式引導(dǎo)外,模型怎么可能自發(fā)產(chǎn)生這樣的能力呢?

而直到前幾天,又是蹭著熱點(diǎn)讀到了dpsk-r1的這篇技術(shù)報(bào)告,我這下才發(fā)現(xiàn):原來(lái)單純的RL就可以激發(fā)模型產(chǎn)出帶有l(wèi)ong cot(甚至是反思)的回復(fù)的能力!(可能在此之前已有很多研究發(fā)現(xiàn)了這點(diǎn),是我對(duì)這一塊的follow-up太少了,確實(shí)直到跟著熱點(diǎn)讀了dpsk-r1,才發(fā)現(xiàn)了這點(diǎn))。這里單純的RL是指:我并沒(méi)有顯式提供一些真正的long cot數(shù)據(jù)讓模型去背去學(xué),我只是在sys_msg里告訴模型先思考,再回答。接著通過(guò)RL一輪又一輪的訓(xùn)練,模型產(chǎn)出的responses越來(lái)越長(zhǎng),且在某個(gè)時(shí)刻出現(xiàn)了自我評(píng)估和反思的行為。這個(gè)實(shí)驗(yàn)探索就是dpsk-r1-zero在做的事情。

如果RL有這種能力,那么inference time scaling 和 RL 就可以不是2個(gè)獨(dú)立的過(guò)程,而是在RL的過(guò)程里自發(fā)出現(xiàn)了inference time scaling的現(xiàn)象,而如果它們不再獨(dú)立,那么類o1的訓(xùn)練架構(gòu)也許就比我們想得要簡(jiǎn)單很多。

原本我只是抱著追熱點(diǎn)的心態(tài)掃一下dpsk r1,我甚至沒(méi)打算看完它的tech report。不過(guò)開頭關(guān)于dpsk-r1-zero的實(shí)驗(yàn)結(jié)論一下吸引了我,所以把核心內(nèi)容簡(jiǎn)單記錄下,我會(huì)側(cè)重訓(xùn)練流,略去評(píng)估。(這邊的重點(diǎn)并不在于討論什么路子是對(duì)的、什么是錯(cuò)的,只是對(duì)我來(lái)說(shuō)發(fā)現(xiàn)一種可能)。

二、DeepSeek-R1-Zero

在dpsk r1的這篇報(bào)告里,提到了2個(gè)模型,分別是 DeepSeek-R1-Zero 和 DeepSeek-R1,總結(jié)來(lái)看:

  • zero算是一個(gè)實(shí)驗(yàn)性質(zhì)的模型,在zero上不通過(guò)任何sft的方式,僅使用RL + 規(guī)則RM,就能激發(fā)模型產(chǎn)出帶反思的long cot。這個(gè)重要的實(shí)驗(yàn)發(fā)現(xiàn)進(jìn)一步啟發(fā)了r1的訓(xùn)練。

  • r1是受到zero RL相關(guān)的實(shí)驗(yàn)結(jié)果啟發(fā),而新訓(xùn)的最終版的模型。zero所采用的RL方法(即什么樣的RL能激發(fā)模型主動(dòng)產(chǎn)出long cot,甚至是反思)將被 r1 參考。

下面簡(jiǎn)單記錄下兩者的訓(xùn)練細(xì)節(jié)。

2.1 強(qiáng)化學(xué)習(xí)方法

dpsk家的GRPO,不是文本關(guān)注的重點(diǎn),暫略。

2.2 獎(jiǎng)勵(lì)模型-規(guī)則式RM

在訓(xùn)練DeepSeek-R1-Zero時(shí),采用了基于規(guī)則的獎(jiǎng)勵(lì)系統(tǒng),主要包括兩種類型的獎(jiǎng)勵(lì):

(1)準(zhǔn)確性獎(jiǎng)勵(lì)(Accuracy Rewards)用于評(píng)估模型responses的準(zhǔn)確性。例如數(shù)學(xué)問(wèn)題的答案是否正確,代碼是否通過(guò)測(cè)試用例等。

(2)格式獎(jiǎng)勵(lì)(Format Rewards)

  • 作用:除了準(zhǔn)確性獎(jiǎng)勵(lì)模型外,還需要評(píng)估模型的輸出是否遵從了一定的格式要求,以此規(guī)范模型的思維過(guò)程。
  • 具體要求:要求模型將其思維過(guò)程放在'’和'’標(biāo)簽之間。這種格式化有助于明確模型的推理步驟。

(3)為什么不使用神經(jīng)網(wǎng)絡(luò)式的RM?

  • Reward Hacking
  • 訓(xùn)練資源與復(fù)雜性

2.3 RL數(shù)據(jù)的prompt設(shè)計(jì)

為了訓(xùn)練DeepSeek-R1-Zero,我們首先設(shè)計(jì)了一個(gè)簡(jiǎn)單的模板,指導(dǎo)基礎(chǔ)模型遵循我們指定的指令:

  • 從中可以看出,這個(gè)模版就是sys_msg + question,整體作為prompt
  • 這里不是說(shuō)用sft,而是說(shuō)直接用這個(gè)prompt喂給base模型(就是actor),同時(shí)由于RM是規(guī)則式的,不需要用數(shù)據(jù)訓(xùn)練了,所以接下來(lái)就可以正常走rlhf過(guò)程了。

模版如下:

2.4 關(guān)于zero的重要結(jié)論

和別的模型的性能比較這里略去,簡(jiǎn)單介紹一下對(duì)于R1 zero性能重要的幾個(gè)結(jié)論:

  • r1 zero證明了無(wú)需sft,直接用base model做RL,已經(jīng)可以取得強(qiáng)大的reasoning能力。

  • 使用多數(shù)投票策略(例如對(duì)一條prompt采樣多次,取出現(xiàn)次數(shù)最多的那個(gè)答案)可以進(jìn)一步增強(qiáng)模型性能。

  • 隨著訓(xùn)練steps的增加,r1 zero傾向于產(chǎn)出更長(zhǎng)的response(long cot),并且還出現(xiàn)了反思行為。這些都是在沒(méi)有外部干預(yù)的情況下,r1 zero模型在訓(xùn)練中自我進(jìn)化的結(jié)果。

    • response的長(zhǎng)度隨著訓(xùn)練時(shí)間增加而變長(zhǎng)(思考得更多了)
  • r1 zero自然而然學(xué)會(huì)了重新評(píng)估和反思

2.5 zero的缺陷

  • 可讀性差
  • 多種語(yǔ)言混合

所以接下來(lái)探索deepseek r1,這是獨(dú)立于r1 zero的正式訓(xùn)練流程了。可以說(shuō),r1 zero的訓(xùn)練是一個(gè)探索性的過(guò)程,它驗(yàn)證了RL本身對(duì)于激勵(lì)模型產(chǎn)生推理的能力。在這個(gè)探索結(jié)論上,開始正式進(jìn)入r1的訓(xùn)練。

三、DeepSeek-R1

r1的訓(xùn)練總體訓(xùn)練過(guò)程如下:

  • 從base模型開始:
    • 使用量少、質(zhì)量高的冷啟動(dòng)數(shù)據(jù)(cold data)來(lái)sft base模型,使得base模型可以有個(gè)良好的初始化
    • 使用RL提升模型的推理能力
    • 在RL階段接近收斂時(shí),用這個(gè)時(shí)候的checkpoint生成高質(zhì)量的數(shù)據(jù),將它們與現(xiàn)有的sft數(shù)據(jù)混合,創(chuàng)建新的sft數(shù)據(jù)集
  • 再次從base模型開始:
    • 使用新創(chuàng)建的sft數(shù)據(jù)集做finetune
    • 執(zhí)行二階段RL
    • 得到最終的r1

3.1 使用冷啟動(dòng)數(shù)據(jù)做sft

  • 冷啟動(dòng)數(shù)據(jù)收集的方法如下(共收集約千條):
    • few_shot:用帶有l(wèi)ong cot的例子作為few_shot,引導(dǎo)模型生成回答(引導(dǎo)的是base模型)
    • 直接在prompt中,要求模型生成帶有反思和驗(yàn)證的回答(引導(dǎo)的也是base模型)
    • 收集前面對(duì)r1 zero的部分結(jié)果
    • 使用人工對(duì)數(shù)據(jù)做一些后處理
    • 最后,我們要求冷啟動(dòng)數(shù)據(jù)遵從一定的數(shù)據(jù)格式:
|special_token|<reasoning_process>|special_token|<summary>
  • 使用這千條冷啟動(dòng)數(shù)據(jù),對(duì)base模型進(jìn)行sft。

3.2 冷啟動(dòng)sft后的RL

  • RM衡量的內(nèi)容有2方面(看樣子也是規(guī)則式的):
    • 語(yǔ)言混合問(wèn)題:這里RM在打分時(shí),也要對(duì)語(yǔ)言一致性進(jìn)行打分(計(jì)算目標(biāo)語(yǔ)言詞匯的比例)
    • 答案的準(zhǔn)確性
  • 然后繼續(xù)做類似于r1 zero的RL過(guò)程

3.3 創(chuàng)建新的sft數(shù)據(jù)集

這里新的sft數(shù)據(jù)集來(lái)自兩個(gè)方面,一共約80w條。

1. 當(dāng)前正在訓(xùn)練的模型產(chǎn)出的結(jié)果(reasoning data)

  • 取RL接近收斂時(shí)的checkpoint
  • 構(gòu)造prompt模版,使用拒絕采樣的方式來(lái)篩選軌跡數(shù)據(jù)。在判斷一條軌跡是否應(yīng)該保留時(shí),除了使用之前規(guī)則式的RM,還會(huì)引入deepseek v3作判斷(比如這條軌跡所指向的答案和v3的結(jié)果是否一致)。引入多個(gè)判斷標(biāo)準(zhǔn)的目的是為了更好擴(kuò)展數(shù)據(jù)集,保證多樣性(這是我猜的)
  • 最后在做一些過(guò)濾,這部分收集約60w條新sft數(shù)據(jù)集

2. 不是當(dāng)前正在訓(xùn)練的模型產(chǎn)出的結(jié)果(no reasoning data)

  • 已經(jīng)有的高質(zhì)量sft數(shù)據(jù)集(dpsk v3做sft的數(shù)據(jù)集)
  • 通過(guò)prompt引導(dǎo)deepseek v3產(chǎn)出的有cot的數(shù)據(jù)集等
  • 這部分大約收集了20w

3.4 使用新的sft數(shù)據(jù)集繼續(xù)finetune,并做RL

  • 再次回到base模型上,首先用這80w的新數(shù)據(jù)對(duì)它做2個(gè)epoch的sft。

  • 接著執(zhí)行2個(gè)階段的RL:

    • 第1階段RL:旨在增強(qiáng)模型推理方面的能力。采取類似r1 zero的RL方法,使用基于規(guī)則的RM,對(duì)模型進(jìn)行RL訓(xùn)練,以提升模型在數(shù)學(xué)、代碼和邏輯方面的推理能力。(這里用的數(shù)據(jù)集應(yīng)該不是那80w,是類似于zero直接構(gòu)建prompt)

    • 第2階段RL:旨在針對(duì)模型的helpfulness和 harmlessness,類似于dpsk v3的訓(xùn)練pipeline

3.5 為什么還有sft的過(guò)程

當(dāng)你觀察上面對(duì)r1的兩個(gè)階段訓(xùn)練時(shí),你會(huì)發(fā)現(xiàn)它們依然用到了sft,表現(xiàn)在:

  • 在第1階段,使用千條冷啟動(dòng)數(shù)據(jù)做sft,這千條冷啟動(dòng)數(shù)據(jù)都是帶有l(wèi)ong cot的reasoning data
  • 在第2階段,使用約80w條新的數(shù)據(jù)做sft,這里有60w reasoning data和20w general data。

那么你看可能會(huì)有這樣的疑問(wèn):如果還用sft,那前面zero的實(shí)驗(yàn)是不是白做了? 既然得到了RL本身就有激發(fā)模型做long cot和反思的能力,那要sft干嘛?這豈不是和開頭所說(shuō)的RL中實(shí)現(xiàn)inference time scaling有矛盾嗎?

這里談一下我的理解:

  • 首先,總體來(lái)看,sft的作用是為了讓模型擁有一個(gè)好的訓(xùn)練起點(diǎn)。
  • 具體來(lái)說(shuō),在冷啟動(dòng)階段,你只是用了千條數(shù)據(jù)做sft而已;在第2階段,雖然使用了80w這一較多數(shù)量的數(shù)據(jù),但這波數(shù)據(jù)的使用是一次性的,你不需要讓這個(gè)過(guò)程貫穿在RL on-policy訓(xùn)練的每個(gè)step。而且相比于設(shè)計(jì)一個(gè)復(fù)雜獨(dú)立的inference系統(tǒng),它的生成是容易的。這里做的事情不過(guò)是讓模型擁有強(qiáng)壯的訓(xùn)練起點(diǎn)。
  • 而在擁有這個(gè)起點(diǎn)之后,更強(qiáng)的推理和反思能力,則是靠RL來(lái)做,這正是受到zero的啟發(fā)。

四、蒸餾dense模型

使用以上80w數(shù)據(jù),對(duì)llama和qwen系的部分dense模型做sft,然后檢測(cè)這些模型的推理能力。

結(jié)論:對(duì)于小模型,不需要依然RL,只用蒸餾就可以使得其推理能力得到顯著提升(對(duì)于大模型會(huì)是怎么樣的,這里沒(méi)有提)

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
DeepSeek-V3 是怎么訓(xùn)練的|深度拆解
華佗來(lái)了,首個(gè)具備復(fù)雜推理能力的醫(yī)學(xué)大語(yǔ)言模型!港中文等發(fā)布HuatuoGPT-o1
淺讀 DeepSeek-V2 技術(shù)報(bào)告
國(guó)產(chǎn)AI卷翻硅谷,奧特曼發(fā)文“陰陽(yáng)”,類o1模型都在卷什么?
LLMs之DeepSeek:DeepSeek-R1的簡(jiǎn)介、安裝和使用方法、案例應(yīng)用之詳細(xì)攻略
解讀 ChatGPT 背后的技術(shù)重點(diǎn):RLHF、IFT、CoT、紅藍(lán)對(duì)抗
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服