知乎上業(yè)界玩家做的這個大模型真實評測排名,還有一定參考價值。轉(zhuǎn)發(fā)給大家。
#1 參賽選手
本次新增模型:
O1
gemini-2.0-flash-thinking-exp-1219
DeepSeek V3
Gemini 2.0 Flash
Qwen-QwQ 32b
Qwen-plus 1127、1220
豆包241215
天工 O1 Preview
hunyuan turbo 1223
#2 前情提要
本評測是個人性質(zhì),結(jié)合自己需求和對大模型的理解,使用私有題庫進(jìn)行長期跟蹤評測。不夠權(quán)威,不夠全面。但可以從一個側(cè)面觀察各個大模型的長期進(jìn)化趨勢。
任何評測都無法給出無死角的權(quán)威排行榜,筆者寫這個系列也是分享一種評測思路,以及個人見解。每個人應(yīng)該根據(jù)自己所需,對大模型進(jìn)行考察。
對于V3題庫的說明,此處不贅述,新讀者請參見:https://zhuanlan.zhihu.com/p/695717926
但請允許筆者再次表述一次V3題庫的局限,新題庫聚焦最能反映硬邏輯能力的題型,盡可能逼近模型能力極限,因此不再能反映用戶實際體驗。可以把V3題庫看作高考用來拉開區(qū)分度的大題(極限能力),但能做對大題也不代表前面簡單題就全對(用戶體驗)。讀者需要意識到,你所體驗到的大模型能力,是綜合了各種工程優(yōu)化之后的結(jié)果,不單是邏輯能力。
#3 題目和打分
本次增加Hard題1道,此處列出所有題目大綱和核心考點:
1、程序改錯:代碼理解
2、基于多重規(guī)則判斷單據(jù)合法性:規(guī)則理解,復(fù)雜約束,日期計算
3、旅游路徑規(guī)劃:長文本理解,工具調(diào)用能力
4、【Medium】公元紀(jì)年推算天干紀(jì)年:計算能力,規(guī)則理解
5、【Medium】閱讀代碼輸出結(jié)果:代碼理解,代碼推導(dǎo)
6、【Medium】計算有時間重疊下最少會議室數(shù)量:計算能力
7、【Medium】從代碼中推測json結(jié)構(gòu):代碼理解,短期記憶,數(shù)據(jù)結(jié)構(gòu)理解
8、【Medium】提供上下文的代碼補(bǔ)全:代碼理解,指令遵守
9、【Medium】密文解碼:模擬計算
10、【Medium】棋盤上的圖形:圖形想象,二維記憶能力
11、【Medium】不提供規(guī)則,閱讀某中文編程代碼,并推導(dǎo)輸出:符號理解,遷移學(xué)習(xí)能力
12、【Medium】撲克牌按規(guī)則洗牌求順序:規(guī)則遵循,一維記憶
13、【Medium】正則匹配:推理推演正則匹配結(jié)果
14、【Medium】4x4 數(shù)獨題:多步推理,短期記憶,規(guī)則遵循
15、【Medium】島嶼面積計算:DFS非編程推算
16、【Medium】信息提?。褐噶钭袷?,文本迷惑性,輸出格式要求
17、【Medium】第2題進(jìn)階版,增加輸出要求,增加題目細(xì)節(jié)
18、【Medium】第6題變體,增加會議室數(shù)量,會議人數(shù)條件約束
19、【Medium】故事推理,故事包含復(fù)雜物品交換規(guī)則,求最終物品和主人對應(yīng)關(guān)系
20、【Hard】按規(guī)則擰魔方后求魔方顏色:三維記憶能力
21、【Hard】符號重定義后求表達(dá)式:規(guī)則理解,邏輯陷阱
22、【Hard】壓縮算法模擬:規(guī)則理解,文本計算
23、【Hard】按提示猜單詞:利用規(guī)則推導(dǎo),排除干擾
24、【Hard】給定熱量的沙拉搭配:數(shù)學(xué)計算,數(shù)學(xué)規(guī)則
25、【Hard】二維字符迷宮:求入口到出口路徑
26、【Hard】模擬桌游:提供相互影響的復(fù)雜規(guī)則,推導(dǎo)4位玩家的結(jié)局狀態(tài)
27、【Hard】幾何計算:多條線段求交點:直線方程,幾何理解【New】
其中【Hard】是指目前正確率偏低的題目。【Medium】指回答正確率接近半數(shù)的題目。
打分規(guī)則:
1、每道題有至少1個得分點,回答每正確一點即得1分。最終得分是得分除以得分點總數(shù),再乘以10。(即每道題滿分10分)
2、要求推導(dǎo)過程必須正確,猜對的答案不得分。
3、要求回答必須完全符合題目要求,如果明確要求不寫解釋,而回答包含了解釋部分,即使正確,也記0分。
#4 成績解析
1)O1:基本通關(guān)V3題庫,除了個別題目的個別細(xì)化陷阱點未識別到導(dǎo)致扣分,其他題目均滿分,包括對大模型不友好的逐字符問題,滿分率80%。O1由于隱藏了思考過程,回答結(jié)果相當(dāng)簡略,大部分問題直接給出答案,和簡單的對答案的解析(并不是過程)。幾道和字符相關(guān)的問題,如15島嶼面積,O1并沒有像其他所有模型那樣直接數(shù)字符個數(shù),而是有一點人的直覺,知道要從二維視角全盤審查。25迷宮問題,先前模型基本卡在第一個岔路口,得分極低,O1是首次全對,但沒有給推導(dǎo)過程。
由于Hard題偏少,目前的測試并不能反映O1的極限素質(zhì),還有待后續(xù)的進(jìn)一步加測。
2)Gemini 2.0 Flash和thinking-exp:Flash作為輕量模型,確實離之前Exp系列有一些差距。個別難題Exp能穩(wěn)定做對的,F(xiàn)lash依然拿不到分。但其他問題僅比Exp多一些小錯誤,落后幅度很小。并且在需要逐步推導(dǎo)的題目中,比Exp有更明顯的思維連模式。
而思維鏈版本的thinking模型就比較厲害了,直接追平O1 mini,并且輸出速度也要比mini快。二者對比的話,O1 mini在處理逐字符問題上更得心應(yīng)手,flash對編程問題得分稍高。而計算,逐步推導(dǎo)這類思維鏈優(yōu)勢項目,flash和O1 mini基本都是滿分。
3)DeepSeek V3:DeepSeek在10號更新一版V2.5之后預(yù)告V3,但沒想到僅過了2周V3就來了,小作坊下料就是猛。V3官方宣稱能力在4o之上,實測確實如此。二者相比,V3有部分題目思維鏈模式發(fā)揮優(yōu)勢,得分比4o高。這部分題目V3和之前R1 Lite的推導(dǎo)流程如出一轍。而余下題目,4o靠更低失誤率扳回不少分。不難推測,普通用戶實際使用,或者用簡單問題考察,可能發(fā)現(xiàn)4o更好,這也符合預(yù)期。
V3還是保留了許多2.5的硬傷,編程能力下降還未恢復(fù),R1 Lite做的對的數(shù)學(xué)題,V3只能對一半,可見V3并不是R1的完整版??梢灶A(yù)見下一個版本有望打進(jìn)前三。
4)Qwen系列:本次參與評測的有來個模型,先說備受關(guān)注的QwQ。QwQ總分和gemini flash相近,二者對比,QwQ在部分字符處理,計算,多步推導(dǎo)相關(guān)問題上優(yōu)勢明顯,flash錯誤率極高。而剩余的同樣需要多步推導(dǎo),但難度更高的問題上,QwQ明顯力不從心,表現(xiàn)甚至不如flash。而QwQ似乎沒訓(xùn)練過編程題目,相關(guān)問題得分低下??傮w來看QwQ實驗驗證性質(zhì)偏多,還難以用于線上生產(chǎn)。
plus系列相比自家max系列,迭代更頻繁,價格也更低,但實力整體和max接近。二者在多數(shù)題目上回答近似,得分近似,互有優(yōu)劣,但相差不大。plus在細(xì)節(jié)處理上更好,max在需要更多步推理的問題上表現(xiàn)更好。
值得注意的是,plus最后一次更新1220版,整體劣于1127。
5)豆包:長期以來,豆包憑借運營推廣,和綜合服務(wù)多樣性獲得了較多的用戶口碑。但豆包的模型能力和用戶口碑并不匹配,硬實力只在第二梯隊末尾。豆包Pro 1215更新,模型能力提升巨大,總分來到了57分,進(jìn)入第一梯隊。官方宣稱和4o能力相當(dāng),對比來看,豆包在大部分問題上稍弱于4o,表現(xiàn)在細(xì)節(jié)疏漏較多,復(fù)雜指令要求遵循不到位。但也有少數(shù)題目,豆包憑借微弱的長文本理解優(yōu)勢,得分稍高。用戶體驗應(yīng)該是不如4o,但相差已經(jīng)不遠(yuǎn)。
#5 附錄 - 歷史成績
歷史成績只展示百分值,具備可比性。
#6 全年
去年的全年總結(jié)里( https://zhuanlan.zhihu.com/p/673886532)有寫到,彼時國內(nèi)能超越ChatGPT3.5的模型還只有文心4.0和通義2.1兩個,而今年底主流廠商基本都完成了對3.5的超越,并且有廠商已深入到GPT4和同代的O1區(qū)間。來自北美的大模型廠商領(lǐng)先時間從去年11-12個月,被縮短到3-4個月。在語言大模型以外的領(lǐng)域,像文生圖,文生視頻,國內(nèi)也不斷涌現(xiàn)出新的勢力,與北美頭部也有一戰(zhàn)之力。
另一方面我們也不能忽視北美廠商的先發(fā)優(yōu)勢依然強(qiáng)大,創(chuàng)新能力鋒銳不減。2025年將是淘汰賽的一年,預(yù)計國內(nèi)頭部在保持追趕的同時,中尾部跟不上的玩家將逐漸被淘汰出局。競爭依然殘酷。
為了應(yīng)對明年頭部紛紛向思維鏈和融合模式轉(zhuǎn)化,目前V3題庫也需要進(jìn)一步擴(kuò)充,計劃將Hard題型占比提升到50%以上,重點補(bǔ)充復(fù)雜計算、人類直覺、圖形推理三類題目。希望筆者的評測在25年依然能幫到各位讀者,管中窺豹,從另一個側(cè)面了解大模型進(jìn)化。