其中,本地部署這幾天在互聯(lián)網(wǎng)上有很多錯(cuò)誤的信息,我們這里給大家一點(diǎn)專(zhuān)業(yè)的建議,以正視聽(tīng)。
模型的種類(lèi):
在本地部署之前,請(qǐng)務(wù)必了解deepseek-R系列模型的種類(lèi):
滿血版的deepseek-R1, 參數(shù)671B,理論上起碼需要350G以上顯存/內(nèi)存才能夠部署FP4的量化版本。對(duì)絕大多數(shù)家用電腦來(lái)說(shuō),這是不可能有實(shí)際意義的部署的,哪怕是最新的5090顯卡32G顯存,推理速度也不高,每秒低于10token的推理輸出速度不具備使用價(jià)值。
deepseek-R1-distill蒸餾版模型,這是大家可以真正用得上的版本;模型大小從1.5B到70B都有。
他們和滿血版的區(qū)別是,滿血版是基于deepseek-v3再訓(xùn)練的,而上述的蒸餾版,從名字就知道是在另外的開(kāi)源模型阿里的QWEN千問(wèn)和META的LLAMA基礎(chǔ)上再訓(xùn)練實(shí)現(xiàn)的。
滿血版的部署:
滿血版的部署需要專(zhuān)業(yè)服務(wù)器,建議在1T內(nèi)存+起碼雙H100 80G的推理服務(wù)器實(shí)現(xiàn),可以選SGLANG框架或者VLLM框架;視硬件選擇最優(yōu)方案。
家用級(jí)本地模型部署:
目前網(wǎng)上最流行的通用部署方法是ollama,在ollama網(wǎng)站可以看懂模型:
背后的1.5B-70B模型,也就是上述的蒸餾模型的量化版本。
一般情況下,ollama可以自適應(yīng)顯卡,Nvidia和AMD都可以。
在windows環(huán)境下,大家可以在ollama.com下載ollama軟件,安裝完成后,打開(kāi)一個(gè)CMD窗口輸入下列指令:
ollama run deepseek-r1
模型就會(huì)自動(dòng)下載,默認(rèn)下載的是7B大小的模型。如果需要32B,則需要輸入:
ollama run deepseek-r1:32b
ollama部署的都是量化版本。因此對(duì)顯存的要求大幅降低,一般來(lái)說(shuō),8G顯存可以部署8B級(jí)別模型;24G顯存可以剛好適配到32B的模型。
如果你只有集顯也想試試,可以試試下載lm-studio軟件。軟件內(nèi)也內(nèi)置了模型下載,對(duì)新手更加友好。
這里說(shuō)一句,網(wǎng)上最近有一些腦子進(jìn)水的謬論,誤導(dǎo)大家用固態(tài)硬盤(pán)虛擬內(nèi)存去部署,我們強(qiáng)烈不建議這樣做,推理速度非常緩慢不說(shuō),由于長(zhǎng)期滿負(fù)荷讀寫(xiě)大幅降低固態(tài)硬盤(pán)壽命也是可能的。
手機(jī)版本部署:
此外,我們也可以通過(guò)手機(jī)大模型部署框架MNN來(lái)實(shí)現(xiàn)調(diào)用:MNN-LLM是阿里巴巴基于MNN引擎開(kāi)發(fā)的大語(yǔ)言模型運(yùn)行方案,解決大語(yǔ)言模型在本地設(shè)備的高效部署問(wèn)題(手機(jī)/個(gè)人電腦/嵌入式設(shè)備)。
目前能用的是1.5B的R1蒸餾模型。APP的下載地址是:
https://github.com/alibaba/MNN/releases/download/3.0.0/mnn_3.0.0_android_armv7_armv8_cpu_opencl_vulkan.zip
目前需要你下載上述APK文件,然后在手機(jī)上手動(dòng)安裝,安裝后可以在APP內(nèi)自行下載模型。
手機(jī)的1.5本地部署版本也是可以實(shí)現(xiàn)長(zhǎng)思考的!速度在VIVO X100(天璣9300)上也表現(xiàn)得很不錯(cuò),有接近30TOKEN/S的表現(xiàn)。當(dāng)然,模型和框架都還很稚嫩,存在一些小問(wèn)題。
本地模型不是滿血版!
下面,我們來(lái)聊大家比較關(guān)心的deepseek本地模型模型能力,性能測(cè)試見(jiàn)下圖:
注意,官方提供的測(cè)評(píng)集并不全面,都是一些R1思維類(lèi)模型的強(qiáng)化項(xiàng)目,比如AIME2024這種專(zhuān)精數(shù)理編程代碼的測(cè)試集。這意味著,R1這些本地版本,在正常的文本表現(xiàn)中,并不一定能打得贏傳統(tǒng)的GPT4O這樣的大模型。
而各位要注意到的是,即使是蒸餾模型中最大的70B,模型規(guī)模也僅為滿血版671B的1/10。另外,我們也可以看到,隨著模型規(guī)模的大小不同,模型的性能差異其實(shí)非常大,遠(yuǎn)比你看到的分?jǐn)?shù)要大的多。
所以,大家也不要指望1.5B那么小的模型能有多么驚艷,也不要因?yàn)?.5B模型的水平比較一般而否定deepseek-R1。因?yàn)?,本地蒸餾版本模型性能是遠(yuǎn)低于線上API和網(wǎng)頁(yè)版本。很多朋友通過(guò)本地部署了蒸餾版本之后反饋感覺(jué)表現(xiàn)不夠好,那是非常正常的!
我們測(cè)試下來(lái),感覺(jué)最能發(fā)揮deepseek威力的方法,是通過(guò)本地agent框架,在開(kāi)放搜索能力的前提下通過(guò)API調(diào)用deepseek。雖然這要花錢(qián),但請(qǐng)相信我,和你得到的價(jià)值比起來(lái),deepseek每百萬(wàn)token 16元的價(jià)格完全值得你付出的每一分錢(qián)!
以上是我們調(diào)用deepseek-reasoner 的API獲得的一個(gè)通過(guò)黑咖啡調(diào)節(jié)血糖的回答;和網(wǎng)頁(yè)版相比甚至更加詳細(xì),更加句句有依據(jù)!
最后,deepseek真的很寵大家,大年三十還放了個(gè)全模態(tài)模型Janus!識(shí)圖、生圖一模解決,這才是正適合大家本地用的AI模型!
這個(gè)Janus,我們?cè)谶^(guò)年的時(shí)候會(huì)嘗試來(lái)個(gè)嘗鮮!敬請(qǐng)期待!
喜歡本文,請(qǐng)?jiān)谟蚁陆墙o我們點(diǎn)下“好看”
聯(lián)系客服