本文除了介紹安裝大模型 phi-4 和千問(wèn) 2.5以外，還會(huì)詳細(xì)介紹大模型本地部署的一些概念，適合感興趣的朋友閱讀，，完整閱讀預(yù)計(jì) 10分鐘。

如果你只想看安裝部分，可以跳著看哦~

我現(xiàn)在的生活已經(jīng)離不開(kāi) AI 了，他幫我度過(guò)了許多工作中的卡殼時(shí)刻。

不過(guò)我經(jīng)常遇到：

在飛機(jī)上趕方案，正好卡住，想找 AI 幫忙，但是許多航班并沒(méi)有網(wǎng)絡(luò)服務(wù)。

需要處理公司內(nèi)部事務(wù)，需要 AI 幫忙分析，但是...不敢把內(nèi)容傳到其他平臺(tái)。

急需一個(gè)本地能跑的大模型，如果能聯(lián)網(wǎng)搜索，就更好了。

看完本文，你就能收獲一個(gè)能聯(lián)網(wǎng)搜索的本地 AI 對(duì)話軟件。

本地大模型的優(yōu)勢(shì)：

?? 完全免費(fèi)：不用每月支付 ChatGPT Plus 的訂閱費(fèi)

?? 速度飛快：本地運(yùn)行，不用等待網(wǎng)絡(luò)延遲（快慢取決于你的電腦配置）

?? 隱私安全：所有對(duì)話都在你自己電腦上完成，數(shù)據(jù)安全有保障

?? 完全控制：可以自由選擇和調(diào)整模型

? 永不掉線：不需要聯(lián)網(wǎng)也能用，在飛機(jī)上、火車(chē)上沒(méi)有網(wǎng)絡(luò)也能隨時(shí)可用

簡(jiǎn)單來(lái)說(shuō)，100% 本地運(yùn)行，100% 安全，100% 免費(fèi)。

而整個(gè)過(guò)程只需要 35 分鐘，并且不需要任何編程基礎(chǔ)。

?? 安裝 Ollama：10分鐘

?? 下載模型：15分鐘（取決于網(wǎng)速）

?? 安裝瀏覽器插件：5分鐘

?? 設(shè)置和測(cè)試：5分鐘

Ps. 如果部署出錯(cuò)，可以在后臺(tái)留言，我盡可能幫你解決。

開(kāi)始之前

需要檢查電腦配置

/ 01

懶得看的可以直接跳到二節(jié)。

什么樣的配置能跑本地模型？

簡(jiǎn)單理解，大部分能運(yùn)行吃雞的游戲都能安裝大模型。

大模型的運(yùn)行主要看顯存，硬件配置上，最基礎(chǔ)的配置需要至少8GB顯存或統(tǒng)一內(nèi)存，不過(guò)這種配置只能跑4bit量化（先不用管量化的概念）的7B小模型，效果和性能都比較一般。

如果想要日常使用，建議配置16GB顯存，這樣可以跑INT8量化的13B模型，或者完整加載7B模型，使用體驗(yàn)會(huì)好很多。

比較理想的配置是24GB顯存，可以完整加載13B模型，量化后甚至可以跑更大的模型。

如果是專業(yè)開(kāi)發(fā)，最好是 32GB及以上的顯存，這樣就能玩轉(zhuǎn)更多大模型，也有更好的擴(kuò)展性。

說(shuō)到實(shí)際使用體驗(yàn)，消費(fèi)級(jí)顯卡大概需要2-4秒才能給出回復(fù)，專業(yè)顯卡可以做到1-2秒，如果用CPU推理可能要等5-10秒。

另外，本地大模型運(yùn)行時(shí)，最好預(yù)留30%的顯存給系統(tǒng)開(kāi)銷(xiāo)，特別是長(zhǎng)對(duì)話可能會(huì)逐漸累積顯存占用。

檢查我的配置

Windows用戶：

按下 Win + X，選擇'系統(tǒng)'，在系統(tǒng)頁(yè)面可以查看內(nèi)存大小。

按下 Win + X，選擇'設(shè)備管理器'，在設(shè)備管理器中可以查看顯卡型號(hào)。

如果“顯示適配器”顯示 Inten(R) HD Graphics xxxx ，意味著你的設(shè)備是集顯，雖然說(shuō)不完全不能裝，但可能性能會(huì)比較糟糕。

Mac用戶：

點(diǎn)擊左上角蘋(píng)果圖標(biāo)，選擇'關(guān)于本機(jī)'，可以看到內(nèi)存大小和芯片型號(hào)。

基礎(chǔ)配置要求

Windows電腦配置要求：

?? 內(nèi)存：最少 8GB，建議 16GB

?? 顯卡：需要 NVIDIA 顯卡，顯存至少 4GB（比如 GTX 1060 或更好的）

?? CPU：2014 年后的CPU一般都可以

?? 硬盤(pán)：至少要有 20GB 的空閑空間

推薦配置：

入門(mén)級(jí)可以選 RTX 3060 12GB，

主流配置是 RTX 4080 16GB，

高端就是 RTX 4090 24GB（也可以等 5090…）。

Mac電腦配置要求：

Intel Mac：

?? 內(nèi)存：最少 8GB，建議 16GB

M系列 Mac（M4/M3/M2/M1）：

?? 統(tǒng)一內(nèi)存：最少 8GB，建議 16GB 或以上

? 性能提示：統(tǒng)一內(nèi)存越大，運(yùn)行越流暢

推薦配置：

M1 Pro 及以上的機(jī)型（16GB以上統(tǒng)一內(nèi)存）都可以嘗試。

推薦 M4 Pro 以上機(jī)型，性價(jià)比最高。

開(kāi)始安裝 Ollama

/ 02

Ollama 是本地跑開(kāi)源大模型最好的軟件之一，不管是 windows 還是Mac，都能通過(guò)它跑各類(lèi)模型。

瀏覽器打開(kāi) ollama.com ，點(diǎn)擊下載按鈕，選擇對(duì)應(yīng)的操作系統(tǒng)可以了。

安裝Ollama的流程及其簡(jiǎn)單，直接無(wú)腦下一步即可。

接下來(lái)運(yùn)行控制臺(tái)。Windows 按下 Win + R ，輸入cmd。

蘋(píng)果用戶找到 “終端” ，啟動(dòng)。

輸入

ollama -v

看到下面的信息就表示安裝成功了。

ollama version is 0.5.4

如果沒(méi)有安裝成功，請(qǐng)重新安裝試試，或者后臺(tái)留言。

挑選合適的模型

/ 03

已經(jīng)安裝好了 Ollama 之后，接下來(lái)就是選擇合適的模型。

推薦模型

如果你平時(shí)使用英文環(huán)境，推薦：

phi-4llama 3.2mixtralgemma2

如果你平時(shí)使用中文環(huán)境，推薦：

qwen2.5glm4

如果你想要使用大模型寫(xiě)代碼，推薦：

qwen2.5-coder

接下來(lái)，就是挑選合適的模型尺寸。

模型尺寸可以在 ollama.com/search 上查看

下面藍(lán)色的標(biāo)簽含義是：模型支持的尺寸，比如千問(wèn)（qwen2.5）模型就有 0.5b - 72b 等多種尺寸可選。

進(jìn)入模型介紹頁(yè)面后，還可以點(diǎn) Tags 查看模型的所有尺寸。

Ollama 的模型命名相對(duì)規(guī)則，遵循下面規(guī)則。

大模型的尺寸有哪些？

從小到大來(lái)說(shuō)，目前主流的大模型尺寸大概：

· 1B左右的小模型能做一些基礎(chǔ)的對(duì)話和補(bǔ)全：比如 llama3.2 就只有 1B。

· 7B是目前最受歡迎的尺寸，速度快而且可以應(yīng)付大部分對(duì)話與思考場(chǎng)景。像 Llama3.1-8B、Mistral-7B都是這個(gè)大小，在家用顯卡上就能跑，而且效果已經(jīng)相當(dāng)不錯(cuò)。

· 13B算是性能和資源消耗的平衡點(diǎn)，比如 Qwen2.5-14B。這個(gè)尺寸的模型能力明顯比7B強(qiáng)，但對(duì)硬件要求也更高。

· 30B-35B是專業(yè)級(jí)需求性價(jià)比最高的尺寸，這個(gè)檔位的開(kāi)源大模型不太多，一些不錯(cuò)的比如Yi-34B 或 Qwen2.5-32B。

· 70B現(xiàn)在是開(kāi)源大模型的天花板級(jí)別，像Llama2-70B、Qwen2.5-72B 就是這個(gè)量級(jí)。不過(guò)一般人在本地很難跑起來(lái)，得多個(gè)顯卡才行，主要是研究機(jī)構(gòu)和大廠在用。

· 更大的模型比如GPT-4，參數(shù)量可能上千億，具體多大外界也不太清楚（據(jù)說(shuō) 4o-mini 只有 8b，但沒(méi)有官方證實(shí)），但這種級(jí)別的模型需要大量算力和優(yōu)化技術(shù)支持，一般都是通過(guò)API調(diào)用。

為了便于分辨顯存和大模型之間的關(guān)系，我簡(jiǎn)單列了一個(gè)關(guān)系表。

如果覺(jué)得模糊，后臺(tái)回復(fù)“顯卡”下載原版高清版本。

顯卡可運(yùn)行大模型關(guān)系表：

什么是大模型量化？

什么是量化？

量化就是把AI模型中的數(shù)字變得更'簡(jiǎn)單'。原本模型里的數(shù)字精確到小數(shù)點(diǎn)后很多位，量化后用更簡(jiǎn)單的數(shù)字代替，這樣可以讓模型變得更小，運(yùn)行更快。

核心概念：

用更省空間的方式表示數(shù)字。比如：

原始數(shù)字：3.14159265359 → 量化后：3.14
原始數(shù)字：9.99999999999 → 量化后：10

通俗的例子，就像微信發(fā)照片：

原圖：超清晰，但文件很大
壓縮圖：稍微模糊一點(diǎn)，但文件小很多
實(shí)際聊天時(shí)，壓縮圖也夠用

為什么要量化？

沒(méi)有量化的問(wèn)題：

模型太大，家用電腦帶不動(dòng)
運(yùn)行太慢，響應(yīng)不及時(shí)
需要很貴的顯卡

量化后的好處：

體積變小，普通電腦也能用
運(yùn)行變快，響應(yīng)更及時(shí)
便宜的顯卡也能跑

或者安裝下面的模型？

了解基本概念過(guò)后，我們就可以更好地挑選合適自己的大模型了。

我們可以點(diǎn)擊開(kāi)始按鈕，輸入 cmd 之后回車(chē)，打開(kāi)命令控制臺(tái)。

Ollama 的安裝指令是：

ollama run 模型名稱

推薦你使用：

ollama run qwen2.5:3b

ollama run qwen2.5:7b

ollama run qwen2.5:14b

ollama run phi4

ollama run glm4

輸入指令之后，如果你已經(jīng)下載好了模型，就會(huì)直接進(jìn)進(jìn)入對(duì)話，如果沒(méi)有，就會(huì)進(jìn)入下載流程。

當(dāng)你看到這個(gè)界面的時(shí)候，恭喜你，你已經(jīng)完成了大模型的本地部署。

但丑丑的控制臺(tái)體驗(yàn)不好，我們要想辦法搞一個(gè)好看的界面。

下載一個(gè)好用的瀏覽器插件

/ 04

這里推薦一個(gè)開(kāi)源的聊天界面：page-assist

這是一個(gè)體驗(yàn)極佳的開(kāi)源插件，整體交互體驗(yàn)類(lèi)似ChatGPT。

首先，先訪問(wèn) github ，安裝或者下載瀏覽器插件。

https://github.com/n4ze3m/page-assist

如果你能訪問(wèn)谷歌，就點(diǎn)擊右側(cè)的鏈接直接安裝；

如果你不能訪問(wèn)谷歌，就點(diǎn)擊右下角的 Release ，下載官方安裝包。

下載完成之后，找到一個(gè)合適的地方，解壓縮。

推薦保存到 D盤(pán)的 Program Files 文件夾下面。

本站僅提供存儲(chǔ)服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊舉報(bào)。

国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

我現(xiàn)在的生活已經(jīng)離不開(kāi) AI 了，他幫我度過(guò)了許多工作中的卡殼時(shí)刻。

不過(guò)我經(jīng)常遇到：

在飛機(jī)上趕方案，正好卡住，想找 AI 幫忙，但是許多航班并沒(méi)有網(wǎng)絡(luò)服務(wù)。

需要處理公司內(nèi)部事務(wù)，需要 AI 幫忙分析，但是...不敢把內(nèi)容傳到其他平臺(tái)。

簡(jiǎn)單來(lái)說(shuō)，100% 本地運(yùn)行，100% 安全，100% 免費(fèi)。

Ollama 是本地跑開(kāi)源大模型最好的軟件之一，不管是 windows 還是Mac，都能通過(guò)它跑各類(lèi)模型。

我現(xiàn)在的生活已經(jīng)離不開(kāi) AI 了，他幫我度過(guò)了許多工作中的卡殼時(shí)刻。

在飛機(jī)上趕方案，正好卡住，想找 AI 幫忙，但是許多航班并沒(méi)有網(wǎng)絡(luò)服務(wù)。

需要處理公司內(nèi)部事務(wù)，需要 AI 幫忙分析，但是...不敢把內(nèi)容傳到其他平臺(tái)。

簡(jiǎn)單來(lái)說(shuō)，100% 本地運(yùn)行，100% 安全，100% 免費(fèi)。

Ollama 是本地跑開(kāi)源大模型最好的軟件之一，不管是 windows 還是Mac，都能通過(guò)它跑各類(lèi)模型。