大語言模型(Large Language Model,簡稱LLM)是當下生成式AI應用的核心,可以理解為一輛汽車的“引擎”,一個應用程序的“大腦”。LLM模型的通用基礎能力是AI工具性能表現(xiàn)的基礎。今天是2024年5月25日,我們來聊一聊當前LLM模型的最新排名情況。
本排名的數(shù)據來源為LMSYS Chatbot Arena Leaderboard。LMSYS全稱為LMSYS Organization,由加州大學伯克利分校、加州大學圣地亞哥分校和卡內基梅隆大學合作創(chuàng)立,是一個專注于LLM模型研究和評估的組織。他們開發(fā)了Chatbot Arena,這是一個開放的LLM模型測評平臺,旨在通過收集用戶反饋來評估和比較不同LLMs的性能。Chatbot Arena的核心功能包括模型對戰(zhàn)(Arena Battle),實時聊天(Direct Chat),排行榜(Leaderboard)。
LMSYS采用了類似于國際象棋等競技游戲中廣泛使用的Elo評分系統(tǒng),通過眾包方式進行匿名、隨機對抗測評。在Chatbot Arena中,系統(tǒng)會隨機選擇兩個不同的大型語言模型進行比較,用戶在與這些模型的互動中進行評估,并在匿名的情況下選擇哪款模型的表現(xiàn)更佳。這種評測方式旨在提供一個公正、透明的評估環(huán)境,幫助研究者和開發(fā)者了解和改進他們的模型。
截至目前,LMSYS共有99個大語言模型參與測評,總投票數(shù)已超百萬。
排名 | 模型 | 綜合得分 | 投票數(shù) | 組織 | 知識截止日期 |
---|---|---|---|---|---|
?? 1 | GPT-4o-2024-05-13 | 1287 | 20156 | OpenAI | 2023/10 |
?? 2 | GPT-4-Turbo-2024-04-09 | 1252 | 62203 | OpenAI | 2023/12 |
?? 3 | GPT-4-1106-preview | 1250 | 82286 | OpenAI | 2023/4 |
4 | Gemini 1.5 Pro API-0409-Preview | 1248 | 62929 | 2023/11 | |
5 | Claude 3 Opus | 1246 | 121218 | Anthropic | 2023/8 |
6 | GPT-4-0125-preview | 1244 | 76435 | OpenAI | 2023/12 |
7 | Yi-Large-preview | 1236 | 15671 | 01 AI | 未知 |
8 | Llama-3-70b-Instruct | 1203 | 129016 | Meta | 2023/12 |
9 | Claude 3 Sonnet | 1199 | 97268 | Anthropic | 2023/8 |
10 | Bard (Gemini Pro) | 1208 | 12387 | 在線 | |
11 | Reka-Core-20240501 | 1195 | 37076 | Reka AI | 未知 |
12 | GPT-4-0314 | 1188 | 55378 | OpenAI | 2021/9 |
13 | Command R+ | 1188 | 62689 | Cohere | 2024/3 |
14 | Qwen-Max-0428 | 1186 | 23568 | Alibaba | 未知 |
15 | Claude 3 Haiku | 1181 | 86889 | Anthropic | 2023/8 |
16 | GLM-4-0116 | 1175 | 6167 | Zhipu AI | 未知 |
幾乎是毫無疑問地,GPT-4系列模型奪得前三甲,尤其是5月13日剛推出的GPT-4o
模型,更是在剛發(fā)布就直接登頂,可謂是“出道即巔峰”,而排在第二和第三的分別是GPT-4-Turbo-2024-04-09
和GPT-4-1106-preview
。值得一提的是,本次排名的依據是LLM競技場的綜合得分,從上面的得分可以看到,GPT-4o
和后面的模型在得分上差距還是非常明顯的,領先第二名35分之多。
在這個最新的排行榜里,谷歌的Gemini 1.5 Pro
以微弱的優(yōu)勢打敗了Claude 3 Opus
,位居第四。在之前我也寫了不少的文章來介紹Gemini 1.5 Pro
模型,首先是它的上下文長度,達到了驚人的100萬(確切的說是104萬tokens),而5月份的谷歌I/O開發(fā)者大會上,更是宣布Gemini 1.5 Pro
的上下文長度已經達到了200萬,但這個長度需要提交申請排waitlist才能體驗。其次是它的多模態(tài)能力。最重磅的是它支持視頻輸入,直接就能夠分析視頻內容。
根據谷歌最新的通知郵件,Gemini 1.5 Pro
API將于5月30日開始正式收費,但在Google AI Studio中使用該模型仍然免費。想體驗的小伙伴可以看我這篇介紹文章:谷歌Gemini 1.5 Pro向所有人開放,無需waitlist!阿里通義千問升級1000萬字長文檔處理功能!。
Claude 3系列模型共有3檔:Claude 3 Opus
,Claude 3 Sonnet
,Claude 3 Haiku
。這三擋模型的能力依次降低,響應速度依次提高,價格依次降低。這其實也很好理解,推理能力越強的模型需要更多的時間來理解、推斷,所以響應速度也就相對較慢。值得一提的是,Claude 3 Opus
曾經超越GPT-4,登頂這個排行榜,后來又被反超。
目前Claude 3 Opus
排在第5名,Claude 3 Sonnet
第9,而Claude 3 Haiku
則位列第15名。
Yi-Large-preview
第7名,這是目前國產LLM模型在LMSYS榜單中的最高排名,來自零一萬物的Yi-Large-preview
。不得不說,這是國內AI領域的榮耀時刻。在此之前,僅有阿里的通義大模型躋身進入過前10名。
零一萬物公司由創(chuàng)新工場創(chuàng)始人兼CEO李開復領導,成立于2023年,短短幾個月內就發(fā)布了首款中英雙語大模型Yi系列。Yi-Large
模型是Yi系列模型的最新力作,是一款擁有千億參數(shù)的閉源大模型。除了本文提到的LMSYS排行榜,在斯坦福大學最新的AlpacaEval 2.0評估中,Yi-Large在全球大模型的勝率排名第三,僅次于GPT-4o
和GPT-4-Turbo
,在中文SuperCLUE評估中則位于國產大模型的榜首。
Qwen-Max-0428
來自阿里的通義系列模型之一的Qwen-Max-0428
,當前排名為第14名。不得不說,最為去年才開始爆發(fā)的新興領域,AI大模型真是卷的厲害。通義千問的這個模型前幾天還是排名第10,過了幾天就被打到了第14名。當然,卷意味著技術的進步,對我們用戶來說是件好事。
注意,這里的Qwen-Max-0428
是通義系列模型中的一個閉源的商用模型,而不是開源模型。
GLM-4-0116
GLM-4-0116
模型來自智譜AI,就是開發(fā)智譜清言這款AI工具的主體公司。目前GLM-4-0116
排名第16名。智譜AI這家公司源自清華大學計算機系的技術成果轉化,致力于打造新一代認知智能通用模型。根據公開資料,GLM-4-0116
是智譜AI最新發(fā)布的第四代基座大模型,其性能逼近GPT-4,具備強大的多模態(tài)能力、長文本處理能力和智能體定制能力。該模型支持128K的上下文窗口長度,可以在一次提示詞中處理高達300頁的文本。在長文本處理能力測試中,GLM-4在128K文本長度內的精度召回率幾乎達到100%。
都讀到這里了,點個贊鼓勵一下吧,小手一贊,年薪百萬!????????。關注我,AI之路不迷路,原創(chuàng)技術文章第一時間推送??。