2024年5月LLM最新排名：GPT-4o出道即巔峰！國內3個大模型榜上有名！

2024.05.31 浙江

大語言模型（Large Language Model，簡稱LLM）是當下生成式AI應用的核心，可以理解為一輛汽車的“引擎”，一個應用程序的“大腦”。LLM模型的通用基礎能力是AI工具性能表現(xiàn)的基礎。今天是2024年5月25日，我們來聊一聊當前LLM模型的最新排名情況。

全球LLM模型綜合排名

本排名的數(shù)據來源為LMSYS Chatbot Arena Leaderboard。LMSYS全稱為LMSYS Organization，由加州大學伯克利分校、加州大學圣地亞哥分校和卡內基梅隆大學合作創(chuàng)立，是一個專注于LLM模型研究和評估的組織。他們開發(fā)了Chatbot Arena，這是一個開放的LLM模型測評平臺，旨在通過收集用戶反饋來評估和比較不同LLMs的性能。Chatbot Arena的核心功能包括模型對戰(zhàn)（Arena Battle），實時聊天（Direct Chat），排行榜（Leaderboard）。

LMSYS采用了類似于國際象棋等競技游戲中廣泛使用的Elo評分系統(tǒng)，通過眾包方式進行匿名、隨機對抗測評。在Chatbot Arena中，系統(tǒng)會隨機選擇兩個不同的大型語言模型進行比較，用戶在與這些模型的互動中進行評估，并在匿名的情況下選擇哪款模型的表現(xiàn)更佳。這種評測方式旨在提供一個公正、透明的評估環(huán)境，幫助研究者和開發(fā)者了解和改進他們的模型。

截至目前，LMSYS共有99個大語言模型參與測評，總投票數(shù)已超百萬。

排名	模型	綜合得分	投票數(shù)	組織	知識截止日期
?? 1	GPT-4o-2024-05-13	1287	20156	OpenAI	2023/10
?? 2	GPT-4-Turbo-2024-04-09	1252	62203	OpenAI	2023/12
?? 3	GPT-4-1106-preview	1250	82286	OpenAI	2023/4
4	Gemini 1.5 Pro API-0409-Preview	1248	62929	Google	2023/11
5	Claude 3 Opus	1246	121218	Anthropic	2023/8
6	GPT-4-0125-preview	1244	76435	OpenAI	2023/12
7	Yi-Large-preview	1236	15671	01 AI	未知
8	Llama-3-70b-Instruct	1203	129016	Meta	2023/12
9	Claude 3 Sonnet	1199	97268	Anthropic	2023/8
10	Bard (Gemini Pro)	1208	12387	Google	在線
11	Reka-Core-20240501	1195	37076	Reka AI	未知
12	GPT-4-0314	1188	55378	OpenAI	2021/9
13	Command R+	1188	62689	Cohere	2024/3
14	Qwen-Max-0428	1186	23568	Alibaba	未知
15	Claude 3 Haiku	1181	86889	Anthropic	2023/8
16	GLM-4-0116	1175	6167	Zhipu AI	未知

GPT-4系列模型

幾乎是毫無疑問地，GPT-4系列模型奪得前三甲，尤其是5月13日剛推出的GPT-4o模型，更是在剛發(fā)布就直接登頂，可謂是“出道即巔峰”，而排在第二和第三的分別是GPT-4-Turbo-2024-04-09和GPT-4-1106-preview。值得一提的是，本次排名的依據是LLM競技場的綜合得分，從上面的得分可以看到，GPT-4o和后面的模型在得分上差距還是非常明顯的，領先第二名35分之多。

谷歌Gemini系列模型

在這個最新的排行榜里，谷歌的Gemini 1.5 Pro以微弱的優(yōu)勢打敗了Claude 3 Opus，位居第四。在之前我也寫了不少的文章來介紹Gemini 1.5 Pro模型，首先是它的上下文長度，達到了驚人的100萬（確切的說是104萬tokens），而5月份的谷歌I/O開發(fā)者大會上，更是宣布Gemini 1.5 Pro的上下文長度已經達到了200萬，但這個長度需要提交申請排waitlist才能體驗。其次是它的多模態(tài)能力。最重磅的是它支持視頻輸入，直接就能夠分析視頻內容。

根據谷歌最新的通知郵件，Gemini 1.5 ProAPI將于5月30日開始正式收費，但在Google AI Studio中使用該模型仍然免費。想體驗的小伙伴可以看我這篇介紹文章：谷歌Gemini 1.5 Pro向所有人開放，無需waitlist！阿里通義千問升級1000萬字長文檔處理功能！。

Claude 3系列模型

Claude 3系列模型共有3檔：Claude 3 Opus，Claude 3 Sonnet，Claude 3 Haiku。這三擋模型的能力依次降低，響應速度依次提高，價格依次降低。這其實也很好理解，推理能力越強的模型需要更多的時間來理解、推斷，所以響應速度也就相對較慢。值得一提的是，Claude 3 Opus曾經超越GPT-4，登頂這個排行榜，后來又被反超。

目前Claude 3 Opus排在第5名，Claude 3 Sonnet第9，而Claude 3 Haiku則位列第15名。

國產模型：`Yi-Large-preview`

第7名，這是目前國產LLM模型在LMSYS榜單中的最高排名，來自零一萬物的Yi-Large-preview。不得不說，這是國內AI領域的榮耀時刻。在此之前，僅有阿里的通義大模型躋身進入過前10名。

零一萬物公司由創(chuàng)新工場創(chuàng)始人兼CEO李開復領導，成立于2023年，短短幾個月內就發(fā)布了首款中英雙語大模型Yi系列。Yi-Large模型是Yi系列模型的最新力作，是一款擁有千億參數(shù)的閉源大模型。除了本文提到的LMSYS排行榜，在斯坦福大學最新的AlpacaEval 2.0評估中，Yi-Large在全球大模型的勝率排名第三，僅次于GPT-4o和GPT-4-Turbo，在中文SuperCLUE評估中則位于國產大模型的榜首。

國產模型：`Qwen-Max-0428`

來自阿里的通義系列模型之一的Qwen-Max-0428，當前排名為第14名。不得不說，最為去年才開始爆發(fā)的新興領域，AI大模型真是卷的厲害。通義千問的這個模型前幾天還是排名第10，過了幾天就被打到了第14名。當然，卷意味著技術的進步，對我們用戶來說是件好事。

注意，這里的Qwen-Max-0428是通義系列模型中的一個閉源的商用模型，而不是開源模型。

國產模型：`GLM-4-0116`

GLM-4-0116模型來自智譜AI，就是開發(fā)智譜清言這款AI工具的主體公司。目前GLM-4-0116排名第16名。智譜AI這家公司源自清華大學計算機系的技術成果轉化，致力于打造新一代認知智能通用模型。根據公開資料，GLM-4-0116是智譜AI最新發(fā)布的第四代基座大模型，其性能逼近GPT-4，具備強大的多模態(tài)能力、長文本處理能力和智能體定制能力。該模型支持128K的上下文窗口長度，可以在一次提示詞中處理高達300頁的文本。在長文本處理能力測試中，GLM-4在128K文本長度內的精度召回率幾乎達到100%。