国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
LLMs之DeepSeek:DeepSeek-R1的簡(jiǎn)介、安裝和使用方法、案例應(yīng)用之詳細(xì)攻略

LLMs之DeepSeek:DeepSeek-R1的簡(jiǎn)介、安裝和使用方法、案例應(yīng)用之詳細(xì)攻略

目錄


相關(guān)文章

LLMs之MoE之DeepSeek-V3:DeepSeek-V3的簡(jiǎn)介、安裝和使用方法、案例應(yīng)用之詳細(xì)攻略

LLMs之MoE之DeepSeek-V3:DeepSeek-V3的簡(jiǎn)介、安裝和使用方法、案例應(yīng)用之詳細(xì)攻略-CSDN博客

LLMs之DeepSeek:DeepSeek-R1的簡(jiǎn)介、安裝和使用方法、案例應(yīng)用之詳細(xì)攻略

https://yunyaniu.blog.csdn.net/article/details/145293767

DeepSeek-R1的簡(jiǎn)介

2025年1月20日,正式發(fā)布 DeepSeek-R1,并同步開源模型權(quán)重。DeepSeek-R1是 DeepSeek 推出的第一代推理模型,它包含兩個(gè)主要版本:DeepSeek-R1-Zero 和 DeepSeek-R1。DeepSeek-R1-Zero 和 DeepSeek-R1 基于 DeepSeek-V3-Base 進(jìn)行訓(xùn)練。有關(guān)模型架構(gòu)的更多詳細(xì)信息,請(qǐng)參閱DeepSeek-V3存儲(chǔ)庫(kù)。
>> DeepSeek-R1-Zero:這是一個(gè)通過(guò)大規(guī)模強(qiáng)化學(xué)習(xí)?(RL) 訓(xùn)練的模型,無(wú)需預(yù)先進(jìn)行監(jiān)督微調(diào) (SFT)。它在推理方面表現(xiàn)出色,展現(xiàn)出自我驗(yàn)證、反思生成長(zhǎng)鏈思維?(CoT) 等能力。然而,它也存在一些問(wèn)題,例如無(wú)限重復(fù)、可讀性差和語(yǔ)言混合。
>> DeepSeek-R1:為了解決 DeepSeek-R1-Zero 的問(wèn)題并進(jìn)一步提升推理性能,DeepSeek-R1在 RL 訓(xùn)練之前加入了冷啟動(dòng)數(shù)據(jù)。其性能與 OpenAI-o1 在數(shù)學(xué)、代碼和推理任務(wù)上相當(dāng)。
DeepSeek-R1 遵循 MIT License,允許用戶通過(guò)蒸餾技術(shù)借助 R1 訓(xùn)練其他模型。
DeepSeek-R1 上線 API,對(duì)用戶開放思維鏈輸出,通過(guò)設(shè)置 model='deepseek-reasoner' 即可調(diào)用。
DeepSeek 官網(wǎng)與 App 即日起同步更新上線。

此外,項(xiàng)目還開源了 DeepSeek-R1-Zero、DeepSeek-R1,以及六個(gè)基于 Llama 和 Qwen 蒸餾出的密集模型 (DeepSeek-R1-Distill 模型)。其中,DeepSeek-R1-Distill-Qwen-32B 在多個(gè)基準(zhǔn)測(cè)試中超越了 OpenAI-o1-mini,在密集模型中取得了新的最先進(jìn)結(jié)果。

GitHub地址GitHub - deepseek-ai/DeepSeek-R1

1、算法原理

方法

意義

后訓(xùn)練階段

后訓(xùn)練階段:直接在基礎(chǔ)模型上應(yīng)用強(qiáng)化學(xué)習(xí)(RL),不依賴于監(jiān)督式微調(diào)(SFT)作為初步步驟。這種方法使模型能夠探索解決復(fù)雜問(wèn)題的鏈?zhǔn)剿季S(CoT),從而發(fā)展出DeepSeek-R1-Zero。

提出了開發(fā) DeepSeek-R1 的流程:

>> 兩個(gè)RL階段:發(fā)現(xiàn)更優(yōu)的推理模式并對(duì)齊人類偏好。

>> 兩個(gè)SFT階段:為模型的推理和非推理能力提供初始種子。

模型可以探索鏈?zhǔn)剿伎?#xff08;CoT),用于解決復(fù)雜問(wèn)題。

>> 開發(fā)了 DeepSeek-R1-Zero,具備自我驗(yàn)證、反思生成長(zhǎng)鏈?zhǔn)剿伎?/span>的能力。

>> 首次通過(guò)研究驗(yàn)證了大型語(yǔ)言模型的推理能力可以純粹通過(guò)RL激勵(lì)實(shí)現(xiàn),無(wú)需SFT。

>> 為未來(lái)研究提供了突破性的方向。該流程可以幫助行業(yè)開發(fā)更優(yōu)質(zhì)的模型

蒸餾

蒸餾:小模型也能發(fā)揮強(qiáng)大作用。

大模型的推理模式可以通過(guò)蒸餾傳遞到小模型中,性能優(yōu)于直接在小模型上通過(guò)RL發(fā)現(xiàn)的推理模式。

>> 使用 DeepSeek-R1?生成的推理數(shù)據(jù),微調(diào)了多個(gè)在研究社區(qū)中廣泛使用的稠密模型。

>> 評(píng)估結(jié)果表明,蒸餾后的較小稠密模型在基準(zhǔn)測(cè)試中表現(xiàn)卓越。

>> DeepSeek-R1及其API為研究社區(qū)提供了蒸餾更優(yōu)秀小模型的基礎(chǔ)。

>> 向社區(qū)開源了基于 Qwen2.5 和 Llama3 系列的以下模型檢查點(diǎn):

- 1.5B、7B、8B、14B、32B 和 70B。

2、模型性能

README 中提供了 DeepSeek-R1在多個(gè)基準(zhǔn)測(cè)試上的評(píng)估結(jié)果,涵蓋了英語(yǔ)和中文的各種推理、代碼和數(shù)學(xué)任務(wù)。 這些結(jié)果表明 DeepSeek-R1在這些任務(wù)上取得了與 OpenAI-o1 相當(dāng)甚至更好的性能。 具體來(lái)說(shuō),它在以下基準(zhǔn)測(cè)試中表現(xiàn)出色:

英語(yǔ):MMLU, MMLU-Redux, MMLU-Pro, DROP, IF-Eval, GPQA-Diamond, SimpleQA, FRAMES, AlpacaEval2.0, ArenaHard

代碼:LiveCodeBench, Codeforces, SWE Verified, Aider-Polyglot

數(shù)學(xué):AIME 2024, MATH-500, CNMO 2024

中文:CLUEWSC, C-Eval, C-SimpleQA

DeepSeek-R1模型:性能對(duì)齊 OpenAI-o1 正式版

DeepSeek-R1 在后訓(xùn)練階段大規(guī)模使用了強(qiáng)化學(xué)習(xí)技術(shù),在僅有極少標(biāo)注數(shù)據(jù)的情況下,極大提升了模型推理能力。在數(shù)學(xué)、代碼、自然語(yǔ)言推理等任務(wù)上,性能比肩 OpenAI o1 正式版。

在此,我們將 DeepSeek-R1 訓(xùn)練技術(shù)全部公開,以期促進(jìn)技術(shù)社區(qū)的充分交流與創(chuàng)新協(xié)作。

論文鏈接: DeepSeek-R1/DeepSeek_R1.pdf at main · deepseek-ai/DeepSeek-R1 · GitHub

?DeepSeek-R1-Distill模型:蒸餾小模型超越 OpenAI o1-mini

我們?cè)陂_源 DeepSeek-R1-Zero 和 DeepSeek-R1 兩個(gè) 660B 模型的同時(shí),通過(guò) DeepSeek-R1 的輸出,蒸餾了 6 個(gè)小模型開源給社區(qū),其中 32B 和 70B 模型在多項(xiàng)能力上實(shí)現(xiàn)了對(duì)標(biāo) OpenAI o1-mini 的效果。

HuggingFace 鏈接: https://huggingface.co/deepseek-ai

3、使用建議

將溫度設(shè)置為 0.5-0.7 之間(推薦 0.6),以防止無(wú)限重復(fù)或輸出不連貫。

避免添加系統(tǒng)提示;所有指令都應(yīng)包含在用戶提示中。

對(duì)于數(shù)學(xué)問(wèn)題,建議在提示中包含指令,例如:“將最終答案放在 \boxed{} 中”。

評(píng)估模型性能時(shí),建議進(jìn)行多次測(cè)試并平均結(jié)果。

4、開放的許可證和用戶協(xié)議

為了推動(dòng)和鼓勵(lì)開源社區(qū)以及行業(yè)生態(tài)的發(fā)展,在發(fā)布并開源 R1 的同時(shí),我們同步在協(xié)議授權(quán)層面也進(jìn)行了如下調(diào)整:
模型開源 License 統(tǒng)一使用 MIT。我們?cè)槍?duì)大模型開源的特點(diǎn),參考當(dāng)前行業(yè)的通行實(shí)踐,特別引入 DeepSeek License 為開源社區(qū)提供授權(quán),但實(shí)踐表明非標(biāo)準(zhǔn)的開源 License 可能反而增加了開發(fā)者的理解成本。為此,此次我們的開源倉(cāng)庫(kù)(包括模型權(quán)重)統(tǒng)一采用標(biāo)準(zhǔn)化、寬松的 MIT License,完全開源,不限制商用,無(wú)需申請(qǐng)。
產(chǎn)品協(xié)議明確可“模型蒸餾”。為了進(jìn)一步促進(jìn)技術(shù)的開源和共享,我們決定支持用戶進(jìn)行“模型蒸餾”。我們已更新線上產(chǎn)品的用戶協(xié)議,明確允許用戶利用模型輸出、通過(guò)模型蒸餾等方式訓(xùn)練其他模型。

DeepSeek-R1的安裝和使用方法

1、安裝

模型下載:DeepSeek-R1 和 DeepSeek-R1-Distill 模型都可以在 Hugging Face 上下載。

DeepSeek-R1 模型

模型#總參數(shù)#已激活參數(shù)上下文長(zhǎng)度下載
DeepSeek-R1-Zero671B37B128千🤗 HuggingFace
DeepSeek-R1671B37B128千🤗 HuggingFace

DeepSeek-R1-Zero 和 DeepSeek-R1 基于 DeepSeek-V3-Base 進(jìn)行訓(xùn)練。有關(guān)模型架構(gòu)的更多詳細(xì)信息,請(qǐng)參閱DeepSeek-V3存儲(chǔ)庫(kù)。

DeepSeek-R1-Distill 模型

模型基礎(chǔ)模型下載
DeepSeek-R1-Distill-Qwen-1.5BQwen2.5-數(shù)學(xué)-1.5B🤗 HuggingFace
DeepSeek-R1-Distill-Qwen-7BQwen2.5-Math-7B🤗 HuggingFace
DeepSeek-R1-Distill-Llama-8B駱駝-3.1-8B🤗 HuggingFace
DeepSeek-R1-Distill-Qwen-14BQwen2.5-14B🤗 HuggingFace
DeepSeek-R1-Distill-Qwen-32BQwen2.5-32B🤗 HuggingFace
DeepSeek-R1-Distill-Llama-70BLlama-3.3-70B-指導(dǎo)🤗 HuggingFace

DeepSeek-R1-Distill 模型基于開源模型進(jìn)行了微調(diào),使用了 DeepSeek-R1 生成的樣本。我們對(duì)其配置和分詞器進(jìn)行了輕微更改。請(qǐng)使用我們的設(shè)置來(lái)運(yùn)行這些模型。

2、使用方法

T1、本地運(yùn)行

DeepSeek-R1 模型

有關(guān)在本地運(yùn)行 DeepSeek-R1 的更多信息,請(qǐng)?jiān)L問(wèn)DeepSeek-V3 repo。

DeepSeek-R1-Distill 模型

DeepSeek-R1-Distill 模型可以以與 Qwen 或 Llama 模型相同的方式使用。使用 vLLM 和 SGLang 運(yùn)行 DeepSeek-R1-Distill-Qwen-32B 模型的示例命令

vLLM
vllm serve deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --tensor-parallel-size 2 --max-model-len 32768 --enforce-eager
SGLang
python3 -m sglang.launch_server --model deepseek-ai/DeepSeek-R1-Distill-Qwen-32B --trust-remote-code --tp 2

T2、采用API

DeepSeek 提供了兼容 OpenAI 的 API,地址為 platform.deepseek.com。

下面的代碼以 Python 語(yǔ)言為例,展示了如何訪問(wèn)思維鏈和最終回答,以及如何在多輪對(duì)話中進(jìn)行上下文拼接

官方文檔:推理模型 (deepseek-reasoner) | DeepSeek API Docs

非流式

from openai import OpenAI
client = OpenAI(api_key="<DeepSeek API Key>", base_url="https://api.deepseek.com")

# Round 1
messages = [{"role": "user", "content": "9.11 and 9.8, which is greater?"}]
response = client.chat.completions.create(
    model="deepseek-reasoner",
    messages=messages
)

reasoning_content = response.choices[0].message.reasoning_content
content = response.choices[0].message.content

# Round 2
messages.append({'role': 'assistant', 'content': content})
messages.append({'role': 'user', 'content': "How many Rs are there in the word 'strawberry'?"})
response = client.chat.completions.create(
    model="deepseek-reasoner",
    messages=messages
)
# ...
流式

from openai import OpenAI
client = OpenAI(api_key="<DeepSeek API Key>", base_url="https://api.deepseek.com")

# Round 1
messages = [{"role": "user", "content": "9.11 and 9.8, which is greater?"}]
response = client.chat.completions.create(
    model="deepseek-reasoner",
    messages=messages,
    stream=True
)

reasoning_content = ""
content = ""

for chunk in response:
    if chunk.choices[0].delta.reasoning_content:
        reasoning_content += chunk.choices[0].delta.reasoning_content
    else:
        content += chunk.choices[0].delta.content

# Round 2
messages.append({"role": "assistant", "content": content})
messages.append({'role': 'user', 'content': "How many Rs are there in the word 'strawberry'?"})
response = client.chat.completions.create(
    model="deepseek-reasoner",
    messages=messages,
    stream=True
)
# ...

T3、在線聊天

用戶可以通過(guò) DeepSeek 的官方網(wǎng)站 chat.deepseek.com 與 DeepSeek-R1 進(jìn)行交互。

在線測(cè)試地址:DeepSeek

邏輯問(wèn)題測(cè)試:測(cè)試“甲乙丙丁誰(shuí)是小偷”——兩者均回答正確,雖然OpenAI更快,但DeepSeek-R1性價(jià)超高!

邏輯問(wèn)題測(cè)試:測(cè)試央視撒貝寧提出的“誰(shuí)是小偷”邏輯問(wèn)題

DeepSeek-R1的案例應(yīng)用

持續(xù)更新中……

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
大模型最新情報(bào)
OpenAI停服,國(guó)產(chǎn)大模型免費(fèi)用!開發(fā)者Token自由實(shí)現(xiàn)了
大模型“免費(fèi)”送,廠商們圖什么?
“美國(guó)最該尷尬的,是今天中國(guó)開源模型們重大的貢獻(xiàn)”
Embedchain 簡(jiǎn)介:為 LLM 量身定做的數(shù)據(jù)平臺(tái)
Fluent文檔翻譯中使用的工具
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服