會(huì)議要點(diǎn)
1、DeepSeek模型
DeepSeek R1:
論文技術(shù)報(bào)告寫得好,發(fā)布時(shí)包含R1和R2兩個(gè)模型,兩者使用技術(shù)不同。
R1未用SFT(微調(diào)),用post training(后續(xù)訓(xùn)練)的強(qiáng)化學(xué)習(xí)能力,效果不太好;R2用了SFT,效果更好。
在一些邏輯推理題和代碼生成的評(píng)測(cè)中,DeepSeek R1與OpenAI的GPT相比,分?jǐn)?shù)差距較大,原因是模型處理能力不同,R1注重邏輯推理。
DeepSeek R1的訓(xùn)練采用基于強(qiáng)化學(xué)習(xí)的post training模型,主要用到GPO算法,該算法是在設(shè)計(jì)DeepSeek Math模型時(shí)的新算法,但真正的核心可能是強(qiáng)化學(xué)習(xí)訓(xùn)出的自博弈或自成長(zhǎng)模型的效果。
強(qiáng)化學(xué)習(xí)中獎(jiǎng)勵(lì)模型的設(shè)計(jì)很重要,其決定了模型的學(xué)習(xí)方向,這里面講了如何設(shè)計(jì)獎(jiǎng)勵(lì)來引導(dǎo)模型。
隨著訓(xùn)練時(shí)間和迭代時(shí)間的增加,DeepSeek R1的精度會(huì)提高,能夠?qū)崿F(xiàn)自學(xué)習(xí),但存在中英文混淆回答和推理時(shí)停不下來等問題。
DeepSeek V3:
被認(rèn)為是降低算力的重要模型,V3模型發(fā)布后,英偉達(dá)股價(jià)下跌。
V3模型被認(rèn)為是最好的大模型,后發(fā)布的2.5max模型比V3略好,但差距不大。
V3的訓(xùn)練分為三階段:高質(zhì)量訓(xùn)練,數(shù)據(jù)越多越好;逐步擴(kuò)展序列長(zhǎng)度;進(jìn)行SFT和知識(shí)蒸餾的后訓(xùn)練。
V3在工程上有很大改變,算法上采用無輔助損失的均衡負(fù)載策略(MOE架構(gòu)),使專家之間的路由更穩(wěn)定,減少Loss抖動(dòng)和訓(xùn)練回滾,模型參數(shù)量變大,激活也增多。
采用多方位聯(lián)合提升訓(xùn)練,使用英偉達(dá)未開源的分布式訓(xùn)練框架,業(yè)界大多用英偉達(dá)提供的Megatron分布式框架進(jìn)行魔改。
首次用FP8混合精度進(jìn)行訓(xùn)練,證明了FP8能夠work,提升了訓(xùn)練效率,業(yè)界首創(chuàng)。
推理方面,以前大模型推理在單機(jī)或經(jīng)過量化后在一個(gè)節(jié)點(diǎn)進(jìn)行,現(xiàn)在V3用白卡進(jìn)行部署,采用GPU分離,32卡全量推理,320卡做增量推理,以實(shí)現(xiàn)極致的吞吐量,雖推理成本高,但能容納更多用戶訪問,降低價(jià)格。
V3訓(xùn)練先做預(yù)訓(xùn)練,再擴(kuò)展長(zhǎng)度,最后進(jìn)行后訓(xùn)練,后訓(xùn)練方式包括監(jiān)督微調(diào)、強(qiáng)化學(xué)習(xí)、蒸餾等,通過多步訓(xùn)練使RE效果更好,還進(jìn)行了集群訓(xùn)練的并行策略配置和工程優(yōu)化,提高了模型訓(xùn)練速度。
推理成本方面,V3采用算法與工程結(jié)合的方式,根據(jù)模型的專家數(shù)量確定所需卡的數(shù)量,并非越多越好,否則會(huì)增加并行成本,導(dǎo)致推理變慢,存在一個(gè)瓶頸,超過該瓶頸后增加卡數(shù)無意義。
2、模型蒸餾
DeepSeek模型的蒸餾:
用reasoning的模型進(jìn)行蒸餾,即DeepSeek RE蒸餾,能夠明顯提升模型效果,小模型在接受新知識(shí)和新數(shù)據(jù)方面可能得到提升。
以前的蒸餾技術(shù)未用到reasoning模型,而DeepSeek RE證明了這一新技術(shù)路線,OpenAI或其他機(jī)構(gòu)可能會(huì)借鑒這一方案,使小模型的能力得到提升。
3、強(qiáng)化學(xué)習(xí)在大語言模型中的應(yīng)用
強(qiáng)化學(xué)習(xí)應(yīng)用于大語言模型的問題:
業(yè)界曾嘗試用強(qiáng)化學(xué)習(xí)加大模型的方式,受AlphaGo啟發(fā),使用蒙特卡羅搜索樹,但難以得到收斂結(jié)果,業(yè)界在這一錯(cuò)誤路線上進(jìn)行了大量探索。
O1的成功表明強(qiáng)化學(xué)習(xí)加到大語言模型的訓(xùn)練中是可行的,關(guān)鍵在于掌握訓(xùn)練的能力和技巧,包括調(diào)參等,強(qiáng)化學(xué)習(xí)的訓(xùn)練難度大,容易不收斂或發(fā)散。
強(qiáng)化學(xué)習(xí)應(yīng)用于大語言模型的優(yōu)勢(shì):
強(qiáng)化學(xué)習(xí)應(yīng)用于大語言模型最重要的是讓模型具備自我推理的能力,而SFT做不到長(zhǎng)文本的自我演繹和自問自答。
強(qiáng)化學(xué)習(xí)針對(duì)AI for science或有明確垂直場(chǎng)景的客戶群體,如OpenAI的O系列在邏輯推理方面的應(yīng)用,而對(duì)于創(chuàng)作性或普通問答的客戶群體,可能不是RL的路線。
4、模型結(jié)構(gòu)與技術(shù)路線
未來技術(shù)路線的探討:
DeepSeek V3采用MOE(Mixture of Experts)技術(shù)路線,而LLaMA堅(jiān)定走稠密路線,業(yè)界大多參考LLaMA的稠密路線,只有幻方走稀疏路線。
未來哪種技術(shù)路線是主流尚不明確,可能兩種路線長(zhǎng)期并存,取決于開源模型的效果和業(yè)界的選擇,數(shù)據(jù)、算力和研發(fā)層面的工程能力是影響模型效果的重要因素。
5、模型的泛化能力
目前對(duì)實(shí)現(xiàn)模型泛化的技術(shù)路線不清楚,存在很多偶然性。
GPT系列在post-training scaling中不斷發(fā)展,但retraining的scaling開始放緩,post-training消耗大量算力,其與training消耗資源的量化比較較難。
COT(思維鏈)的研究存在很多不確定性,包括其數(shù)據(jù)準(zhǔn)備、長(zhǎng)短控制、思考層數(shù)等,業(yè)界正在對(duì)COT的相關(guān)問題進(jìn)行研究。
6、模型的成本與應(yīng)用
模型成本與訓(xùn)練方式:
DeepSeek V3的訓(xùn)練成本僅計(jì)算了正兒八經(jīng)訓(xùn)練模型的部分,其試錯(cuò)、數(shù)據(jù)準(zhǔn)備等沉沒成本未算,且后訓(xùn)練部分的算力使用情況不確定,但總體比預(yù)訓(xùn)練少。
國(guó)內(nèi)可能會(huì)參考DeepSeek的方案來降低訓(xùn)練模型的成本,但國(guó)外技術(shù)自主路線較強(qiáng),可能不太會(huì)完全照搬。
DeepSeek v3通過工程和算法的雙向優(yōu)化來攤薄成本,若業(yè)界往此方向發(fā)展,可能會(huì)降低成本,但具體情況需看工程優(yōu)化情況。
模型的推理成本與應(yīng)用場(chǎng)景:
DeepSeek的推理成本下降,是通過采用Mixture of Experts架構(gòu),結(jié)合算法和工程優(yōu)化,增大吞吐,以降低token數(shù)和實(shí)驗(yàn)時(shí)間,從而降低價(jià)格,但推理成本是否絕對(duì)下降需看并發(fā)量和吞吐量。
對(duì)于MOE架構(gòu),其是否成為推理模型的主流架構(gòu)取決于推理場(chǎng)景,在云端有大量用戶訪問請(qǐng)求的前提下,MOE架構(gòu)能提高性價(jià)比,但在追求極致時(shí)延的場(chǎng)景,如板載卡或推理卡上,稠密模型更適合。
目前推理端有從使用A100、A40等轉(zhuǎn)向使用H800、H100等做推理的趨勢(shì),短時(shí)間內(nèi)推理端的算力需求可能會(huì)有所下降。
7、強(qiáng)化學(xué)習(xí)的技術(shù)細(xì)節(jié)
RL的PPO邏輯和優(yōu)化點(diǎn):
PPO算法復(fù)雜,涉及多個(gè)模型的邏輯調(diào)度。
actor生成數(shù)據(jù)和分布,critics通過reference model約束并更新critics model,world model評(píng)判actor model的輸出,整體有四個(gè)模型,現(xiàn)在通過將兩個(gè)模型變?yōu)橐粋€(gè)函數(shù),減少了一個(gè)完全相同參數(shù)的模型,使訓(xùn)練更易且穩(wěn)定。
獎(jiǎng)勵(lì)模型的實(shí)現(xiàn)難度與挑戰(zhàn):
實(shí)現(xiàn)格式獎(jiǎng)勵(lì)的難度不大,但確定每個(gè)獎(jiǎng)勵(lì)對(duì)模型的作用和影響,以及針對(duì)不同垂直場(chǎng)景和通用場(chǎng)景的獎(jiǎng)勵(lì)配比,需要大量調(diào)參技巧,嘗試難度較大。
V3模型算力節(jié)約的環(huán)節(jié):
dual pipeline的設(shè)計(jì)實(shí)現(xiàn)了雙流并行,使計(jì)算和通訊幾乎全面掩蓋,是一個(gè)重要?jiǎng)?chuàng)新點(diǎn)。
FP8的成功實(shí)踐是首次混合精度的新嘗試,對(duì)降低算力有重要意義。
并行策略中TP等于1,EP等于6,是以前未嘗試過的,極大降低了模型的算力資源消耗。
Q&A
Q:DeepSeek中的aha moment是必需的嗎?
A:不一定是必需的,像GPT-3.5模型就沒有aha moment。有aha moment更多證明模型在思考,如提出數(shù)學(xué)問題時(shí)模型會(huì)做邏輯推理和反思。
Q:DeepSeek模型在訓(xùn)練和應(yīng)用過程中有哪些問題?
A:存在兩個(gè)問題,一是中英文混淆回答;二是推理時(shí)停不下來,自問自答,導(dǎo)致推理成本極高,且可能最后答案跑偏。
Q:如何解決DeepSeek模型的問題?
A:通過一個(gè)高質(zhì)量的數(shù)據(jù)集CodeStar做冷啟動(dòng)和微調(diào),類似OpenAI剛發(fā)布GPT時(shí)用COT做問答或牽引,這里用了小規(guī)模的COT數(shù)據(jù)集做牽引和冷啟動(dòng)訓(xùn)練,即SFT的過程。
Q:GPT模型的數(shù)據(jù)組成是怎樣的?
A:有兩部分?jǐn)?shù)據(jù),一部分是帶有COT的數(shù)據(jù),一部分是沒有COT的數(shù)據(jù),通過這種方式組成以證明其泛化性比較好。
Q:關(guān)于RE模型的蒸餾情況是怎樣的?
A:業(yè)界提出蒸餾技術(shù)很久了,RE模型蒸餾到兩個(gè)(千萬、拉馬),蒸餾之后效果很好,文中沒有寫蒸餾的具體細(xì)節(jié),只說了一些baseline測(cè)試的數(shù)據(jù)集情況。
Q:RLM為什么沒有用過程獎(jiǎng)勵(lì),以及沒有用蒙特卡羅搜索樹等搜索算法?
A:如果獎(jiǎng)勵(lì)過程學(xué)習(xí),可能導(dǎo)致reward hacking這種思維布局。使用蒙特卡羅搜索樹或其他搜索算法會(huì)導(dǎo)致搜索空間急劇膨脹。
Q:DeepSeek的訓(xùn)練流程是怎樣的?
A:DeepSeek v3經(jīng)過一個(gè)GPO,單個(gè)模型就能學(xué)習(xí)出一個(gè)RECO模型,初步具備OpenAI的RE模型的能力,但存在推理過程可讀性差、中英文及多語言混淆問題。之后做SFT,拿到一堆COT數(shù)據(jù)冷啟動(dòng)并預(yù)微調(diào)給到V3,V3經(jīng)過GPO過程變成RE。RE通過regression sampling得到COT數(shù)據(jù),重新微調(diào)后給到V3,再強(qiáng)化給到RE,這種輪回方式即多步訓(xùn)練(multistage),使得RE效果變好。RE訓(xùn)練完后,蒸餾出千萬、拉馬3.3兩個(gè)模型。
Q:GPO算法與PPO算法有什么關(guān)系,GPO算法有什么特點(diǎn)?
A:Kimi直接用PPO算法能實(shí)現(xiàn)類似效果,證明GPO不是必須的。在強(qiáng)化學(xué)習(xí)里,PPO算法中有“action(表演者)”,policy model也叫actor,是一個(gè)大語言模型。輸入問題或point給大模型,其輸出答案后給到reference model、world model、value model(也叫critic model )。傳統(tǒng)方式中表演者和評(píng)判者互博弈存在問題,因?yàn)?/span>policy model和world model都是大模型,在一個(gè)集群里訓(xùn)練成本和效果復(fù)雜。而RE里直接干掉critic model,讓world model輸出多個(gè)答案求均值,再與policy model做KL散度計(jì)算,減少了critic model,使模型訓(xùn)練更穩(wěn)定。兩種方式都能實(shí)現(xiàn),關(guān)鍵在于算法控制。
Q:為什么Kimi和GPO能夠?qū)崿F(xiàn)相關(guān)成果?
A:很重要的是掌握強(qiáng)化學(xué)習(xí)的調(diào)試方法,強(qiáng)化學(xué)習(xí)在環(huán)境中學(xué)習(xí),環(huán)境不受控。Kimi在工程上做得很好,GPO在算法上做得比較好。
Q:Deepseek v3模型與之前版本相比,在訓(xùn)練方式上有哪些特點(diǎn)?
A:Deepseek v3主要分三階段訓(xùn)練。首先是高質(zhì)量訓(xùn)練,數(shù)據(jù)越多越好;第二步是逐步擴(kuò)展序列長(zhǎng)度,從4K到32K到128K,隨著數(shù)據(jù)量減少,數(shù)據(jù)長(zhǎng)度變長(zhǎng);最后進(jìn)行SFT以及知識(shí)蒸餾等post training相關(guān)內(nèi)容。訓(xùn)練時(shí)先做訓(xùn)練,再擴(kuò)展長(zhǎng)度,然后做后訓(xùn)練,后訓(xùn)練采用監(jiān)督微調(diào)、強(qiáng)化學(xué)習(xí)、蒸餾等多種方式把模型效果做好。
Q:Deepseek v3在算法上有哪些改變?
A:算法上有兩個(gè)重要改變。一是采用了無輔助損失的均衡負(fù)載策略,即MOE架構(gòu),為解決專家多導(dǎo)致路由不確定、專家計(jì)算量不均衡的問題,讓專家計(jì)算量盡可能相近;二是引入新算法創(chuàng)新點(diǎn),在使用均衡負(fù)載策略后,整體效果變好,Loss無抖動(dòng),無需訓(xùn)練回滾,實(shí)現(xiàn)專家變多、模型參數(shù)量增大,v3模型參數(shù)量從v2的兩千多億提升到6710億。
Q:Deepseek v3在訓(xùn)練框架和精度方面有什么特點(diǎn)?
A:Deepseek v3沒有公布其訓(xùn)練框架。在訓(xùn)練精度方面,它首次使用FP8混合精度訓(xùn)練,之前大模型基本用BF16訓(xùn)練,使用FP8訓(xùn)練可使訓(xùn)練時(shí)間大幅減少。
Q:Deepseek v3的推理方式與以往有什么不同?
A:以往大模型推理多在單機(jī)八卡或量化后在一個(gè)節(jié)點(diǎn)進(jìn)行,追求低時(shí)延。而Deepseek v3用白卡部署推理,采用GPU分離,32卡全量推理,320卡做增量推理,雖推理成本高,但通過大集群做到極致的吞吐量,能在同一時(shí)間段容納更多用戶量、訪問用戶量和請(qǐng)求量,與以前用一個(gè)節(jié)點(diǎn)做推理有很大區(qū)別,且單機(jī)推理走向白卡推理,將test time的restoring或scaling撐大。
Q:Deepseek V3與Llama 3.1在訓(xùn)練資源和效果上有哪些差異?
A:Deepseek V3用2K的H800訓(xùn)練了53天,Llama 1 405B(模型參數(shù)量比Deepseek V3少一個(gè)等級(jí),一個(gè)是671B一個(gè)405B)用16K的H100訓(xùn)練了54天,H100網(wǎng)絡(luò)帶寬是900多GBPS,H800受限后網(wǎng)絡(luò)帶寬是400GBPS,算上網(wǎng)絡(luò)帶寬,Deepseek V3訓(xùn)練成本可能是Llama 3.1的十分之一。推理時(shí),Deepseek V3整體吞吐比Llama V1好,相比Llama 3.1節(jié)省了很多資源。
Q:是否可以得出預(yù)訓(xùn)練以后會(huì)普遍降本,post training各憑本事的結(jié)論?
A:老黃畫的曲線有一定正確性,預(yù)訓(xùn)練開始降本,post training開始升,但涉及的算力規(guī)模量可能不同。
星球:550。需要的加
聯(lián)系客服