DeepSeek最近發(fā)表的論文DeepSeek-R1中介紹了一種創(chuàng)新的方法,通過強(qiáng)化學(xué)習(xí)(RL)提升大型語言模型(LLM)的推理能力。這項(xiàng)研究在如何僅依靠強(qiáng)化學(xué)習(xí)而不是過分依賴監(jiān)督式微調(diào)的情況下,增強(qiáng)LLM解決復(fù)雜問題的能力上,取得了重要進(jìn)展。
DeepSeek-R1 不是一個(gè)單獨(dú)的模型,而是包括DeepSeek-R1-Zero和DeepSeek-R1的模型系列。
下面我來闡明 DeepSeek-R1 和 DeepSeek-R1-Zero 之間的關(guān)鍵差異:
DeepSeek-R1-Zero是團(tuán)隊(duì)初步嘗試僅用純強(qiáng)化學(xué)習(xí)而不進(jìn)行任何監(jiān)督式微調(diào)的實(shí)驗(yàn)。他們從基礎(chǔ)模型出發(fā),直接運(yùn)用強(qiáng)化學(xué)習(xí),讓模型通過不斷試錯(cuò)來發(fā)展其推理能力。這種方法雖然取得了較好的成果(在 AIME 2024 測試中達(dá)到了 71% 的準(zhǔn)確率),但在可讀性和語言連貫性上存在明顯不足。該模型擁有 6710 億個(gè)參數(shù),使用了混合專家(MoE)架構(gòu),其中每個(gè)詞觸發(fā)的參數(shù)約為 370 億。此模型展現(xiàn)了一些新興的推理行為,例如自我核查、反思和長鏈推理(CoT)。
與之對比,DeepSeek-R1采用了更復(fù)雜的多階段訓(xùn)練方法。它不僅僅采用強(qiáng)化學(xué)習(xí),而是先在一小組精心挑選的示例(稱為“冷啟動(dòng)數(shù)據(jù)”)上進(jìn)行監(jiān)督式微調(diào),然后再應(yīng)用強(qiáng)化學(xué)習(xí)。這種方法克服了 DeepSeek-R1-Zero 的局限,同時(shí)取得了更優(yōu)的表現(xiàn)。這個(gè)模型同樣維持了 6710 億的參數(shù)數(shù)量,但在回答的可讀性和條理性上有所提高。
強(qiáng)化學(xué)習(xí):不同于傳統(tǒng)依賴監(jiān)督學(xué)習(xí)的模型,DeepSeek-R1 大規(guī)模采用了強(qiáng)化學(xué)習(xí)。此訓(xùn)練方法利用群體相對策略優(yōu)化(GRPO),重點(diǎn)提升精度和格式化獎(jiǎng)勵(lì),以增強(qiáng)推理能力,無需依賴大量標(biāo)注數(shù)據(jù)。
蒸餾技術(shù):為普及高效能模型,DeepSeek 也推出了 R1 的蒸餾版本,參數(shù)規(guī)模從15億到700億不等。這些模型采用了如Qwen和Llama等架構(gòu),表明即使是較小和更高效的模型也能包含復(fù)雜的推理能力。蒸餾過程通過使用 DeepSeek-R1 生成的合成推理數(shù)據(jù)對這些小型模型進(jìn)行微調(diào),以較低的計(jì)算成本保持高性能。
起始于基礎(chǔ)模型
直接應(yīng)用強(qiáng)化學(xué)習(xí)
根據(jù)準(zhǔn)確度和格式采用簡單獎(jiǎng)勵(lì)機(jī)制
初始階段采用數(shù)千個(gè)高品質(zhì)樣本進(jìn)行監(jiān)督式微調(diào)
針對推理任務(wù)進(jìn)行強(qiáng)化學(xué)習(xí)
通過拒絕抽樣方法收集新的訓(xùn)練數(shù)據(jù)
對所有類型的任務(wù)進(jìn)行最終強(qiáng)化學(xué)習(xí)
推理基準(zhǔn)測試:DeepSeek-R1 在各種基準(zhǔn)測試中表現(xiàn)出色: AIME 2024:實(shí)現(xiàn)了 79.8% 的通過率,高于 OpenAI 的 o1–1217 的 79.2%。 MATH-500:得分高達(dá) 97.3%,略優(yōu)于 o1–1217 的 96.4%。 SWE-bench 驗(yàn)證:在編程任務(wù)中表現(xiàn)優(yōu)越,證明了其編程能力。
成本效率:DeepSeek-R1 的 API 服務(wù)每百萬輸入令牌的成本為0.14美元,比 OpenAI 的類似模型便宜很多。
該論文指出了若干改進(jìn)領(lǐng)域:
模型在處理需要特定輸出格式的任務(wù)時(shí)偶爾會(huì)遇到困難。
軟件工程相關(guān)任務(wù)的性能還有提升空間。
在多語言環(huán)境下,語言混合帶來了挑戰(zhàn)。
少樣本提示通常會(huì)導(dǎo)致性能下降。
未來的研究將致力于解決這些問題,并拓展模型在函數(shù)調(diào)用、多輪交互和復(fù)雜角色扮演場景等領(lǐng)域的能力。
DeepSeek-R1及其變體基于 MIT 許可證發(fā)布,支持開源合作和商業(yè)使用,包括模型蒸餾。此舉對促進(jìn)創(chuàng)新和降低人工智能模型開發(fā)門檻具有關(guān)鍵意義。
這些模型及其蒸餾版本支持 GGML、GGUF、GPTQ 和 HF 等多種格式,使其在本地部署上具有靈活性。
我們可以通過三種方式使用DeepSeek:官方web訪問、API使用、本地部署。
DeepSeek聊天平臺提供了一個(gè)友好的用戶界面,允許用戶無需任何設(shè)置即可與DeepSeek-R1進(jìn)行互動(dòng)。
訪問步驟: 瀏覽至DeepSeek聊天平臺 注冊一個(gè)賬號,或者如果您已有賬號,直接登錄。 登錄后,可以選擇“深度思考”模式,體驗(yàn)DeepSeek-R1的逐步推理功能。
DeepSeek 提供了一個(gè)與 OpenAI 格式兼容的 API,方便開發(fā)者將其嵌入各種應(yīng)用程序中進(jìn)行程序化訪問。
當(dāng)前注冊還可以享有10塊錢的贈(zèng)送額度
使用 API 的步驟:
a. 獲取 API 密鑰:
訪問DeepSeekAPI平臺,注冊賬號并生成您的專屬 API 密鑰。
b. 配置您的環(huán)境:
設(shè)置base_url為https://api.deepseek.com/v1。
使用您的 API 密鑰進(jìn)行認(rèn)證,通常在 HTTP 頭部通過 Bearer Token 進(jìn)行。
c. 發(fā)起 API 調(diào)用:
利用 API 向 DeepSeek-R1 發(fā)送指令并接收響應(yīng)。
您可以在DeepSeekAPI文檔中找到詳細(xì)的文檔和示例。
# 請先安裝 OpenAI SDK:`pip3 install openai`from openai import OpenAIclient = OpenAI(api_key='<DeepSeek API Key>', base_url='https://api.deepseek.com')response = client.chat.completions.create( model='deepseek-chat', messages=[ {'role': 'system', 'content': 'You are a helpful assistant'}, {'role': 'user', 'content': 'Hello'}, ], stream=False)print(response.choices[0].message.content)
兩種模型(R1 和 R1-Zero):
**硬件需求:**由于模型規(guī)模龐大,完整模型需要較強(qiáng)的硬件支持。推薦使用具有大量視頻內(nèi)存(VRAM)的 GPU,例如 Nvidia RTX 3090 或更高級別。如果使用 CPU,你至少需要 48GB 的 RAM 和 250GB 的磁盤空間,但若不使用 GPU 加速,性能會(huì)顯著下降。
**蒸餾模型:**對于硬件要求不那么高的本地部署,DeepSeek 提供了參數(shù)范圍從 15 億到 700 億的蒸餾版本,適合硬件配置較低的系統(tǒng)。例如,一個(gè) 7B 參數(shù)的模型可以在至少擁有 6GB VRAM 的 GPU 上運(yùn)行,或在大約 4GB RAM 的 CPU 上運(yùn)行 GGML/GGUF 格式。
您可以使用Ollama來在本地部署和運(yùn)行模型:(Ollama 是一個(gè)工具,允許您在個(gè)人計(jì)算機(jī)上本地運(yùn)行開源 AI 模型。您可以從這里下載它:
https://ollama.com/download)
在進(jìn)一步操作之前,我們需要確保 Ollama 已經(jīng)正確安裝。請打開您的終端或命令提示符,輸入以下命令:
ollama--version
如果您看到版本號顯示出來,說明安裝成功了!如果沒有顯示,那么請仔細(xì)檢查您是否已按照安裝步驟正確執(zhí)行。
通過 Ollama 下載 DeepSeek R1 非常便捷。您只需在終端中執(zhí)行以下命令:
ollama run deepseek-r1
默認(rèn)版本是:7B 模型(CPU 大概需要4G內(nèi)存,1.5B大概需要1.7G內(nèi)存),DeepSeek R1 的參數(shù)范圍從 1.5B 到 671B,可以使用ollama run deepseek-r1:1.5b適合自己的模型版本,下載時(shí)間可能會(huì)根據(jù)您的網(wǎng)絡(luò)速度而異。下載期間,可以喝杯水或者活動(dòng)一下身體,稍作等待吧?
下載完成后,您就可以啟動(dòng) DeepSeek R1 了。使用以下命令:
ollama run deepseek-r1
就這樣,您已經(jīng)在本地機(jī)器上順利啟動(dòng)了 DeepSeek R1!感覺如何,是不是so easy?
現(xiàn)在我們已經(jīng)成功啟動(dòng)了 DeepSeek R1,接下來就是更加有趣的部分——實(shí)際使用它!讓我們一起探索這款強(qiáng)大的 AI 模型能做些什么神奇的事情。
DeepSeek R1 在創(chuàng)意寫作方面非常擅長。嘗試給它這樣一個(gè)寫作提示:
寫一個(gè)短故事,講述一個(gè)機(jī)器人發(fā)現(xiàn)自己擁有情感的經(jīng)歷。
您會(huì)對它輸出的既有創(chuàng)意又條理清晰的故事感到驚喜!
本文即將結(jié)束,這次我們講解了在本地環(huán)境中使用 Ollama 運(yùn)行 DeepSeek R1。 DeepSeek R1 這樣的強(qiáng)大 AI 模型運(yùn)行在個(gè)人電腦上,不僅僅是展示一項(xiàng)引人注目的技術(shù),更是我們對未來人工智能發(fā)展方向的一種探索。這樣做讓高級語言模型的強(qiáng)大功能直接落在我們的手中,使得個(gè)性化定制、深入實(shí)驗(yàn)以及更好的隱私保護(hù)成為可能。讓我們想象以下幾種可能:
開發(fā)者可以為特定領(lǐng)域創(chuàng)建出高度定制化的 AI 助手。
研究人員在沒有云服務(wù)依賴的情況下,可以更自由地試驗(yàn) AI 模型。
對于那些注重隱私的用戶,他們可以利用先進(jìn)的 AI 技術(shù),而無需擔(dān)心個(gè)人數(shù)據(jù)泄露。
這一切都指向一個(gè)無限的可能性世界!