LLMs之Qwen:Qwen2.5的簡介、安裝和使用方法、案例應(yīng)用之詳細(xì)攻略
導(dǎo)讀:2024年9月19日,阿里云Qwen團(tuán)隊(duì)發(fā)布0.5B、1.5B、3B、7B、14B、32B和72B參數(shù)規(guī)模的7款開源模型,語料詞匯量為18T個tokens(Qwen2系列僅有7T)。Qwen2.5支持高達(dá)128K 的上下文長度,并能生成高達(dá)8K的文本。支持多種推理框架,例如 transformers、Ollama、llama.cpp、vLLM、SGLang等。支持多種訓(xùn)練框架,例如 Axolotl、Llama-Factory、unsloth、Swift等,方便用戶進(jìn)行微調(diào)。
>> 性能表現(xiàn):顯著提升了指令遵循、長文本生成(超過8K tokens)、???????結(jié)構(gòu)化數(shù)據(jù)理解(例如表格)以及???????結(jié)構(gòu)化輸出生成(尤其是JSON)的能力。對各種系統(tǒng)提示的魯棒性更強(qiáng),增強(qiáng)了角色扮演的實(shí)現(xiàn)和聊天機(jī)器人的條件設(shè)置。Qwen2.5支持29種語言。
- 在MMLU、BBH、ARC-C、TruthfulQA、Winogrande、HellaSwag等通用任務(wù)中表現(xiàn)出色,超越了同類模型。
- 在數(shù)學(xué)任務(wù)(GPQA、Theoremqa、MATH、GSM8K)中表現(xiàn)突出,尤其是在MATH中,Qwen2.5-72B-Instruct得分從Qwen2-7B/72B-Instruct的52.9/69.0上升到了75.5/83.1。
- 在代碼任務(wù)(HumanEval、HumanEval+、MBPP、MBPP+、MultiPL-E)中表現(xiàn)優(yōu)異,尤其是在LiveCodeBench中,Qwen2.5-72B-Instruct得分達(dá)到了55.5,優(yōu)于Qwen2-72B-Instruct的32.2。
- 在多語言任務(wù)(Multi-Exam、Multi-Understanding、Multi-Mathematics、Multi-Translation)中表現(xiàn)出色,尤其是在Multi-Understanding中,Qwen2.5-72B得分達(dá)到了89.6,展現(xiàn)出強(qiáng)大的多語言理解能力。
- 更符合人類偏好:Qwen2.5生成的內(nèi)容更加貼近人類的偏好,在Arena-Hard和MT-Bench等評估指標(biāo)上都有顯著提升。
>> 數(shù)據(jù)構(gòu)成:Qwen2.5在最新的超大規(guī)模數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,預(yù)訓(xùn)練數(shù)據(jù)集規(guī)模從 7T tokens 擴(kuò)展到了 18T tokens。
>> 數(shù)據(jù)預(yù)處理流程及其策略:經(jīng)過大規(guī)模數(shù)據(jù)集的預(yù)訓(xùn)練,數(shù)據(jù)預(yù)處理策略包括批量推理、流式推理等。
>> 模型結(jié)構(gòu):Qwen2.5是密集型、僅解碼器結(jié)構(gòu),提供基礎(chǔ)版和指令版。Qwen2.5系列模型均為decoder-only的稠密模型。>> 優(yōu)化策略:提供SFT(監(jiān)督微調(diào))和RLHF(人類反饋強(qiáng)化學(xué)習(xí))的訓(xùn)練指導(dǎo)。支持量化實(shí)踐(如GPTQ、AWQ)以生成高質(zhì)量的量化文件。提到了Qwen2.5-Coder、Qwen2-math等技術(shù),暗示了模型在代碼生成和數(shù)學(xué)推理能力上的提升。
LLMs之Qwen2:Qwen2的簡介、安裝和使用方法、案例應(yīng)用之詳細(xì)攻略_qwen2 硬件要求-CSDN博客
MLM之Qwen:Qwen2-VL的簡介、安裝和使用方法、案例應(yīng)用之詳細(xì)攻略_qwen2-vl 怎么用-CSDN博客
LLMs之Qwen:Qwen2.5的簡介、安裝和使用方法、案例應(yīng)用之詳細(xì)攻略-CSDN博客
2024年9月19日,Qwen2.5 是由阿里云 Qwen 團(tuán)隊(duì)開發(fā)的大型語言模型系列。自 Qwen2 發(fā)布以來的過去三個月里,眾多開發(fā)者基于 Qwen2 語言模型構(gòu)建了新的模型,并為我們提供了寶貴的反饋。在這期間,我們專注于創(chuàng)建更加智能和知識豐富的語言模型。今天,我們很興奮地向大家介紹 Qwen 家族的最新成員:Qwen2.5。
>> 密集、易用、僅解碼器的語言模型,提供 0.5B、1.5B、3B、7B、14B、32B 和 72B 多種尺寸,以及基礎(chǔ)版和指令版變體。
>> 預(yù)訓(xùn)練于我們最新的大規(guī)模數(shù)據(jù)集,包含多達(dá) 18T 令牌。
>> 在遵循指令、生成長文本(超過 8K 令牌)、理解結(jié)構(gòu)化數(shù)據(jù)(如表格)以及生成結(jié)構(gòu)化輸出尤其是 JSON 方面有顯著改進(jìn)。
>> 對系統(tǒng)提示的多樣性更具韌性,增強(qiáng)了角色扮演實(shí)現(xiàn)及聊天機(jī)器人的條件設(shè)置。
>> 上下文長度支持高達(dá) 128K 令牌,并可生成高達(dá) 8K 令牌。
>> 支持超過 29 種語言,包括中文、英語、法語、西班牙語、葡萄牙語、德語、意大利語、俄語、日語、韓語、越南語、泰語、阿拉伯語等。
GitHub地址:GitHub - QwenLM/Qwen2.5: Qwen2.5 is the large language model series developed by Qwen team, Alibaba Cloud.
2024年9月19日:我們發(fā)布了?Qwen2.5 系列。這次額外增加了 3 種模型尺寸:3B、14B 和 32B,提供更多可能性。請查看我們的博客獲取更多信息!
2024年6月6日:我們發(fā)布了 Qwen2 系列。請查看我們的博客!
2024年3月28日:我們發(fā)布了 Qwen 的首個 MoE 模型:Qwen1.5-MoE-A2.7B!目前僅 HF transformers 和 vLLM 支持該模型。我們很快會增加 llama.cpp、mlx-lm 等的支持。請查看我們的博客獲取更多信息!
2024年2月5日:我們發(fā)布了 Qwen1.5 系列。
>> 推理:使用 transformers 進(jìn)行推理的指南,包括批量推理、流式處理等;
>> 本地運(yùn)行:在 CPU 和 GPU 上使用 llama.cpp 和 Ollama 等框架本地運(yùn)行 LLM 的說明;
>> 部署:使用 vLLM、TGI 等框架進(jìn)行大規(guī)模推理的部署演示;
>> 量化:使用 GPTQ、AWQ 量化 LLM 的實(shí)踐,以及如何制作高質(zhì)量量化 GGUF 文件的指南;
>> 訓(xùn)練:后訓(xùn)練說明,包括使用 Axolotl、LLaMA-Factory 等框架的 SFT 和 RLHF(待完成)。
>> 框架:與 RAG、Agent 等應(yīng)用程序框架一起使用的 Qwen 方法。
詳細(xì)的評估結(jié)果報(bào)告在此 �� 博客中。
對于 GPU 內(nèi)存需求及相應(yīng)的吞吐量,請參見這里的結(jié)果(將針對 Qwen2.5 更新)。
建議使用最新版本的 transformers(至少 4.37.0)。這里展示了一個代碼片段,展示如何使用 transformers 與聊天模型交互:
對于量化模型,我們建議您使用對應(yīng)的 GPTQ 和 AWQ 版本,即 Qwen2.5-7B-Instruct-GPTQ-Int8 和 Qwen2.5-7B-Instruct-AWQ。
我們強(qiáng)烈建議用戶特別是中國大陸的用戶使用 ModelScope。snapshot_download 可以幫助您解決下載檢查點(diǎn)的問題。
安裝 ollama 后,您可以使用以下命令啟動 ollama 服務(wù):
ollama serve
# 使用 ollama 時(shí)需要保持此服務(wù)運(yùn)行
要拉取模型檢查點(diǎn)并運(yùn)行模型,請使用 ollama run 命令。您可以通過添加后綴到 qwen2.5 來指定模型大小,例如 :0.5b, :1.5b, :7b, 或 :72b:
您還可以通過其兼容 OpenAI 的 API 訪問 ollama 服務(wù)。請注意,您需要 (1) 在使用 API 時(shí)保持 ollama serve 運(yùn)行,(2) 在使用此 API 之前執(zhí)行 ollama run qwen2.5:7b 以確保模型檢查點(diǎn)已準(zhǔn)備好。
更多詳情,請?jiān)L問 ollama.ai。
下載我們提供的 GGUF 文件或自己創(chuàng)建,然后可以使用最新版本的 llama.cpp 通過一行命令直接使用它們:
如果您在 Apple Silicon 上運(yùn)行,我們也提供了與 mlx-lm 兼容的檢查點(diǎn)。在 HuggingFace Hub 上尋找以 MLX 結(jié)尾的模型,比如 Qwen2.5-7B-Instruct-MLX。
Qwen2.5 已經(jīng)被 lmstudio.ai 支持。您可以直接使用 LMStudio 與我們的 GGUF 文件。
Qwen2.5 已經(jīng)被 OpenVINO 工具包支持。您可以安裝并使用 Intel CPU、集成顯卡或獨(dú)立顯卡運(yùn)行這個聊天機(jī)器人示例。
您可以直接使用 text-generation-webui 創(chuàng)建 Web UI 演示。如果您使用 GGUF,請記得安裝支持 Qwen2.5 的最新 llama.cpp wheel。
克隆 llamafile,運(yùn)行源安裝,然后按照此處的指南使用 GGUF 文件創(chuàng)建您自己的 llamafile。您能夠運(yùn)行一條命令,比如 ./qwen.llamafile,來創(chuàng)建一個演示。
Qwen2.5 得到了多個推理框架的支持。這里我們演示了 vLLM 和 SGLang 的使用。
我們建議您使用最新版本的 vLLM 構(gòu)建兼容 OpenAI 的 API 服務(wù),包括工具使用支持。使用聊天模型啟動服務(wù)器,例如 Qwen2.5-7B-Instruct:
警告
SGLang 當(dāng)前提供的兼容 OpenAI 的 API 尚不支持工具使用或函數(shù)調(diào)用。
請從源代碼安裝 SGLang。類似于 vLLM,您需要啟動一個服務(wù)器并使用兼容 OpenAI 的 API 服務(wù)。首先啟動服務(wù)器:
對于工具使用能力,我們建議查看 Qwen-Agent,它為這些 API 提供了一個封裝,以支持工具使用或函數(shù)調(diào)用。也可以使用 Hugging Face transformers、Ollama 和 vLLM 與 Qwen2.5 進(jìn)行工具使用。請跟隨我們的文檔中的指南了解如何啟用支持。
我們建議您使用訓(xùn)練框架,包括 Axolotl、Llama-Factory、unsloth、Swift 等,利用 SFT、DPO、PPO 等方法微調(diào)您的模型。
持續(xù)更新中……