文:王智遠(yuǎn) | ID:Z201440昨天寫(xiě)完DeepSeek-V3的文章,看到一段吐槽:
OpenAI 是一家以創(chuàng)造先進(jìn)人工智能技術(shù)為目標(biāo)的公司。DeepSeek-V3,是在一個(gè)開(kāi)源系統(tǒng)上進(jìn)行性能和成本效益優(yōu)化的。看起來(lái)有點(diǎn)偷懶。我不確定這段評(píng)論是不是AI寫(xiě)的,但大概明白那位朋友的意思,他認(rèn)為OpenAI更注重創(chuàng)造,而DeepSeek-V3只是在別人做好的基礎(chǔ)上,做了系統(tǒng)優(yōu)化。那么,如果作為后來(lái)者,把AI的一個(gè)個(gè)模型都當(dāng)作系統(tǒng)來(lái)優(yōu)化,并且做到最好,是不是更有利于深入到實(shí)際應(yīng)用場(chǎng)景中呢?我個(gè)人認(rèn)為,是的。
為什么這么說(shuō)呢?
先介紹一個(gè)詞:數(shù)據(jù)蒸餾技術(shù)(Dataset Distillation)。它的本意是一種機(jī)器學(xué)習(xí)方法,核心是把大量數(shù)據(jù)中的精華信息,濃縮到一個(gè)更小的數(shù)據(jù)集中,然后進(jìn)行訓(xùn)練。
具體來(lái)說(shuō),通過(guò)一系列算法和策略,對(duì)原始數(shù)據(jù)進(jìn)行深度處理。這包括去除數(shù)據(jù)中的噪聲、降低數(shù)據(jù)的維度,以及提取出最關(guān)鍵的信息。經(jīng)過(guò)這些步驟,最終能得到一個(gè)既精煉又實(shí)用的數(shù)據(jù)集,讓AI學(xué)習(xí)后更加精準(zhǔn);這樣做的好處是,既能提升模型的性能,又能減少訓(xùn)練過(guò)程中所需的數(shù)據(jù)量和計(jì)算資源。如果還是不太明白,我來(lái)舉個(gè)例子。想象一下,你有一本厚厚的《窮查理寶典》,里面包含了大量的知識(shí)點(diǎn)。但看到一半時(shí),你發(fā)現(xiàn)找到重要的信息并不容易。這時(shí),該怎么辦呢?最好的選擇之一,按照索引目錄,或者制作一個(gè)精簡(jiǎn)版的手冊(cè),只保留關(guān)鍵內(nèi)容。這樣,你既能快速獲取核心知識(shí),又不用每次都翻那本厚重的書(shū)。數(shù)據(jù)蒸餾技術(shù)就像這個(gè)過(guò)程,它從海量數(shù)據(jù)中提取出最重要的信息,生成一個(gè)小巧但高效的數(shù)據(jù)集。比如,在訓(xùn)練圖像識(shí)別模型時(shí),原本可能需要成千上萬(wàn)張圖片。但通過(guò)數(shù)據(jù)蒸餾,可能只需要幾百?gòu)埦x圖片,就能達(dá)到相似的識(shí)別效果。那么,使用數(shù)據(jù)蒸餾技術(shù),一定是壞事嗎?不一定。我認(rèn)為有三個(gè)原因。第一,它能提升效率。數(shù)據(jù)蒸餾可以讓模型變得更輕量化,運(yùn)行速度更快。這對(duì)硬件性能有限的設(shè)備特別重要,比如手機(jī)、物聯(lián)網(wǎng)設(shè)備。模型通過(guò)壓縮知識(shí)量,保留核心信息,再配合注意力訓(xùn)練,這樣既能節(jié)省時(shí)間和資源,又能讓模型高效學(xué)習(xí)。第二,它能保護(hù)隱私。數(shù)據(jù)蒸餾本身像一種抽象的表達(dá),它不需要存儲(chǔ)或處理完整的原始數(shù)據(jù),因此隱私泄露的風(fēng)險(xiǎn)自然更低。比如:在醫(yī)療場(chǎng)景中,使用經(jīng)過(guò)蒸餾的模型,可以讓算法學(xué)到診斷能力,但又不用直接接觸患者的隱私數(shù)據(jù)。第三,它能快速遷移知識(shí)。對(duì)于跨領(lǐng)域的應(yīng)用,蒸餾可以幫助新模型迅速學(xué)習(xí)已有模型的能力,不用從零開(kāi)始訓(xùn)練,這種“以老帶新”的方式,可以大幅縮短開(kāi)發(fā)周期,還能避免重復(fù)勞動(dòng)。寫(xiě)到這兒,可能有人會(huì)問(wèn):蒸餾后AI怎么學(xué)習(xí)呢? 簡(jiǎn)單來(lái)說(shuō),大概分兩步。 :?第一步,可以想象有一個(gè)已經(jīng)訓(xùn)練好的大模型,就像一位老師。它掌握了大量知識(shí)。蒸餾的過(guò)程,就是讓這位老師把最重要的知識(shí)提煉出來(lái),教給一個(gè)小模型,也就是學(xué)生。 比如,大模型會(huì)告訴小模型:“這張圖片是貓,關(guān)鍵特征是耳朵和胡須?!毙∧P筒恍枰涀∷屑?xì)節(jié),只要抓住這些核心信息就夠了。 第二步,就是讓學(xué)生自己練習(xí)。小模型拿到這些提煉后的知識(shí)后,會(huì)用自己的方式去學(xué)習(xí)和理解。它通過(guò)反復(fù)練習(xí),逐漸掌握這些核心信息。最終,它也能像大模型一樣完成任務(wù),比如識(shí)別圖片中的貓。 這就像你學(xué)數(shù)學(xué)時(shí),老師不會(huì)讓你背下所有題目,而是教你解題的思路和關(guān)鍵公式。你記住這些重點(diǎn)后,就能自己解決類(lèi)似的問(wèn)題。蒸餾后的AI也是這樣,它學(xué)的是“解題方法”,而不是“全部題目”;這樣一來(lái),小模型既能高效學(xué)習(xí),又不需要像大模型那樣消耗大量資源。明白這一點(diǎn),你也就理解了數(shù)據(jù)蒸餾技術(shù)(Dataset Distillation)最本質(zhì)作用。
其實(shí),deepSeek-V3本質(zhì)也用的數(shù)據(jù)蒸餾技術(shù),只不過(guò),它的技術(shù)架構(gòu)層面自己沒(méi)有用,而是從 DeepSeek-R1 模型中提煉推理能力。
看到這,你也許又懵了,DeepSeek-R1 模型是什么?DeepSeek-R1是一個(gè)更早、更復(fù)雜的模型,它具備強(qiáng)大的推理和反思能力。它的設(shè)計(jì)初衷是為了解決更高級(jí)的問(wèn)題,比如:需要深度思考和驗(yàn)證的任務(wù)。DeepSeek-V3 則是在它的基礎(chǔ)上,通過(guò)數(shù)據(jù)蒸餾技術(shù),提取了 R1 的核心推理模式,而不是直接復(fù)制它的所有功能。這樣做的好處是,DeepSeek-V3 既能保留 R1 的精華,又變得更輕量化,更適合實(shí)際應(yīng)用場(chǎng)景。實(shí)在無(wú)法理解,你可以思考成:R1 是“老師”,V3 是“學(xué)生”,學(xué)生從老師那里學(xué)到了最重要的解題思路,而不是死記硬背所有答案。那么,我們?cè)趺粗?DeepSeek-R1 一定也用了數(shù)據(jù)蒸餾技術(shù)呢?其實(shí),要判斷一個(gè)模型有沒(méi)有用數(shù)據(jù)蒸餾技術(shù),只需要搞清楚三個(gè)問(wèn)題就夠了。第一個(gè)問(wèn)題是:R1 是否生成了比簡(jiǎn)單的硬標(biāo)簽更豐富的輸出?比如,概率分布或者中間推理鏈。這些輸出是否被用來(lái)指導(dǎo)后續(xù)模型的訓(xùn)練? 更通俗地說(shuō),這個(gè)問(wèn)題可以理解為:R1 是不是不僅僅給出了答案,還提供了更多的信息。比如,它是怎么得出這個(gè)答案的,或者它對(duì)這個(gè)答案有多大的把握。這些額外的信息,會(huì)被用來(lái)幫助其他模型更好地學(xué)習(xí)。 針對(duì)這個(gè)問(wèn)題,我查了一下 DeepSeek-R1 的技術(shù)和 API 文檔,結(jié)論是:是的。理由有三點(diǎn): DeepSeek-R1 在推理過(guò)程中,不僅會(huì)輸出最終的硬標(biāo)簽(比如分類(lèi)結(jié)果或具體答案),還會(huì)提供概率分布信息。這種概率分布反映了模型對(duì)不同可能性的置信度,能夠更細(xì)致地描述模型的決策過(guò)程。在后續(xù)模型訓(xùn)練中,這些概率分布可以作為軟標(biāo)簽,用于知識(shí)蒸餾;這樣,學(xué)生模型(比如 DeepSeek-V3)就能更好地學(xué)習(xí)教師模型(R1)的推理模式,從而提升性能和泛化能力。 DeepSeek-R1 采用了思維鏈技術(shù),在解決復(fù)雜問(wèn)題時(shí),會(huì)生成一系列中間推理步驟。這些步驟展示了模型對(duì)問(wèn)題的逐步理解和解決過(guò)程,提供了更豐富的上下文信息。在后訓(xùn)練階段,這些中間推理鏈被提取出來(lái),用于指導(dǎo)后續(xù)模型的訓(xùn)練。通過(guò)知識(shí)蒸餾,R1 的思維鏈能力被遷移到其他模型(比如 DeepSeek-V3)中,顯著提升了這些模型的推理能力和任務(wù)表現(xiàn)。這一點(diǎn),可以在 DeepSeek-V3 的報(bào)告中看到。 第三,指導(dǎo)后續(xù)模型訓(xùn)練;相比于傳統(tǒng)的硬標(biāo)簽,這些信號(hào)能夠更全面地傳遞教師模型的知識(shí)和推理能力。比如,在知識(shí)蒸餾過(guò)程中,學(xué)生模型不僅學(xué)習(xí)最終的輸出結(jié)果,還學(xué)習(xí)教師模型的決策過(guò)程和中間推理步驟。這樣,學(xué)生模型就能獲得更強(qiáng)的泛化能力和更高的準(zhǔn)確性。 所以,DeepSeek-R1 通過(guò)生成概率分布和中間推理鏈,提供了比硬標(biāo)簽更豐富的輸出,這些輸出被有效地用于指導(dǎo)后續(xù)模型的訓(xùn)練。
第二個(gè)問(wèn)題是: R1 是否提取了內(nèi)部特征(比如中間層的表征),并用這些特征來(lái)優(yōu)化 V3 的推理能力?
說(shuō)白了,R1在運(yùn)行過(guò)程中,是否記錄了一些中間步驟的信息,比如它是如何一步步思考的。然后,這些信息是否又被用在幫助 V3 更好地學(xué)習(xí)和推理。經(jīng)過(guò)我的查閱,R1確實(shí)在內(nèi)部特征(如中間層表征)上進(jìn)行了提取,并用于優(yōu)化V3的推理能力。具體來(lái)說(shuō),DeepSeek-V3在其后訓(xùn)練階段引入了一種新的方法,從長(zhǎng)鏈思考(CoT)模型,特別是DeepSeek R1系列模型中提取推理能力,并將這些能力整合到標(biāo)準(zhǔn)的LLM中,尤其是DeepSeek-V3。看到這,有些朋友會(huì)有疑問(wèn)了:中間層表征什么意思?在深度學(xué)習(xí)模型中,中間層表征指模型在處理輸入數(shù)據(jù)時(shí),每一層(尤其是隱藏層)輸出的特征表示,這些表征捕捉了輸入數(shù)據(jù)在不同抽象層次上的信息。想象一下,你在看一幅畫(huà)。第一眼,你可能只注意到畫(huà)中的顏色和形狀,這是最基礎(chǔ)的信息。接著,你開(kāi)始注意到畫(huà)中的物體,比如樹(shù)、房子或者人,這是更深一層的理解,最后,你可能還會(huì)思考這幅畫(huà)的主題或情感,比如它表達(dá)的是快樂(lè)還是憂傷。深度學(xué)習(xí)模型的工作方式也類(lèi)似。輸入數(shù)據(jù)(比如一張圖片)經(jīng)過(guò)模型的每一層時(shí),會(huì)被逐步分析和抽象。第一層可能只提取簡(jiǎn)單的特征,比如邊緣或顏色;中間層會(huì)提取更復(fù)雜的特征,比如形狀或紋理。最后一層則可能識(shí)別出具體的物體或場(chǎng)景。這些中間層表征,就是模型在每一層對(duì)輸入數(shù)據(jù)的理解和提取的信息,它幫助模型逐步從簡(jiǎn)單到復(fù)雜地理解數(shù)據(jù),最終完成任務(wù)。而DeepSeek-R1模型呢?通過(guò)分析模型的中間層輸出,提取關(guān)鍵的特征表示;具體方法有兩點(diǎn):它通過(guò)可視化工具(比如 Grad-CAM、t-SNE)分析中間層特征。這些工具可以更直觀地看到模型在處理數(shù)據(jù)時(shí),每一層提取了哪些信息。使用注意力機(jī)制或特征重要性評(píng)分(比如 SHAP 值)來(lái)確定哪些特征對(duì)推理任務(wù)最關(guān)鍵,簡(jiǎn)單來(lái)說(shuō),找出哪些信息對(duì)模型的決策影響最大。即,利用降維技術(shù)(比如 PCA 或自動(dòng)編碼器),提取最具代表性的特征,這樣可以減少數(shù)據(jù)的復(fù)雜性,同時(shí)保留最關(guān)鍵的信息,讓模型更高效地學(xué)習(xí)和推理。如果無(wú)法理解,可以通俗的把整個(gè)過(guò)程想象成:你在整理一本厚厚的書(shū),首先,通過(guò)目錄快速找到重要的章節(jié),了解書(shū)的主要內(nèi)容,這就叫特征可視化;然后,你會(huì)用熒光筆標(biāo)記出最關(guān)鍵的部分,比如核心觀點(diǎn)或重要數(shù)據(jù),這叫特征重要性評(píng)估。最后,你會(huì)把書(shū)中的精華內(nèi)容總結(jié)成幾頁(yè)筆記,方便以后快速查閱。這是特征壓縮。DeepSeek-R1工作方式也類(lèi)似。它分析中間層輸出,找到最關(guān)鍵的信息,再把這些信息壓縮成更精煉的形式,幫助模型更高效地學(xué)習(xí)和推理。因此,我的結(jié)論是:DeepSeek-R1 確實(shí)提取了內(nèi)部特征,并通過(guò)特征可視化、特征重要性評(píng)估和特征壓縮等方法,將關(guān)鍵信息用于優(yōu)化DeepSeek-V3的推理能力。
第三個(gè)問(wèn)題:R1是不是專(zhuān)門(mén)為其他模型提供知識(shí)轉(zhuǎn)移的服務(wù),而不只是自己用?換句話說(shuō),R1是不是幫助別的模型學(xué)習(xí)新知識(shí)?
DeepSeek-V3用了一個(gè)很聰明的方法,把DeepSeek R1系列模型的推理能力,轉(zhuǎn)移到標(biāo)準(zhǔn)的LLM里面。這樣不僅讓DeepSeek-V3變得更聰明,還能控制輸出的風(fēng)格和長(zhǎng)度。可以肯定地說(shuō),R1系列模型確實(shí)是為其他模型提供知識(shí)轉(zhuǎn)移的服務(wù),這是官方都承認(rèn)的。綜上,鑒于這三個(gè)問(wèn)題,可以說(shuō):deepSeek-V3的確用了數(shù)據(jù)蒸餾技術(shù)。其實(shí),國(guó)內(nèi)很多推理模式,都是基于蒸餾 O1 Preview 的數(shù)據(jù)。這種方式把別人走過(guò)的彎路,變成了自己的捷徑,讓新模型站在“巨人”的肩膀上。我這句話不是胡說(shuō)。這篇論文的名字叫:《O1 Replication Journey – Part 2: Surpassing O1-preview through Simple Distillation Big Progress or Bitter Lesson?》發(fā)表在arXiv.org平臺(tái)上「1」。其中公開(kāi)指出了,從O1的API中進(jìn)行簡(jiǎn)單蒸餾,再加上監(jiān)督微調(diào),可以在復(fù)雜的數(shù)學(xué)推理任務(wù)中實(shí)現(xiàn)卓越的性能。在美國(guó)邀請(qǐng)數(shù)學(xué)考試(AIME)中,僅對(duì)數(shù)萬(wàn)個(gè)樣本O1提取的長(zhǎng)思維鏈進(jìn)行微調(diào)的基礎(chǔ)模型,在技術(shù)復(fù)雜性最小的情況下優(yōu)于O1預(yù)覽。所以,這也是為什么大多數(shù)AI產(chǎn)品,做高中題效果提升好,做博士級(jí)別的題目效果一般的原因。因?yàn)?,高中?jí)別的題目有明確的解題思路和標(biāo)準(zhǔn)答案,適合通過(guò)蒸餾、微調(diào)來(lái)提升性能;而博士級(jí)別的題目要更深層次的創(chuàng)新和復(fù)雜推理,單純依賴(lài)蒸餾技術(shù)難以覆蓋這些高難度的需求。但是,如果各種小模型,先用蒸餾技術(shù)過(guò)濾一遍高中題,再推向市場(chǎng),這何嘗不是一種進(jìn)步呢?就說(shuō)這么多,不要嘲笑別人巧取捷徑,要多思考,它用了特殊方法,節(jié)省下多少算力;畢竟,DeepSeek-V3訓(xùn)練成本只有557.6萬(wàn)美元,這只是訓(xùn)練Meta的Llama 3.1所需估計(jì)的5億美元的1.1%。
[1].O1 Replication Journey – Part 2: Surpassing O1-preview through Simple Distillation Big Progress or Bitter Lesson?地址:https://arxiv.org/abs/2411.16489
本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)
點(diǎn)擊舉報(bào)。