古力娜扎走秀视频,刘涛说南昌话视频,angelababy洗澡视频

12月AI大模型橫評-O1第一，deepseek第五

2025.01.01 四川

知乎上業(yè)界玩家做的這個大模型真實評測排名，還有一定參考價值。轉(zhuǎn)發(fā)給大家。

#1 參賽選手
本次新增模型：
O1
gemini-2.0-flash-thinking-exp-1219
DeepSeek V3
Gemini 2.0 Flash
Qwen-QwQ 32b
Qwen-plus 1127、1220
豆包241215
天工 O1 Preview
hunyuan turbo 1223

#2 前情提要
本評測是個人性質(zhì)，結(jié)合自己需求和對大模型的理解，使用私有題庫進(jìn)行長期跟蹤評測。不夠權(quán)威，不夠全面。但可以從一個側(cè)面觀察各個大模型的長期進(jìn)化趨勢。
任何評測都無法給出無死角的權(quán)威排行榜，筆者寫這個系列也是分享一種評測思路，以及個人見解。每個人應(yīng)該根據(jù)自己所需，對大模型進(jìn)行考察。

對于V3題庫的說明，此處不贅述，新讀者請參見：https://zhuanlan.zhihu.com/p/695717926
但請允許筆者再次表述一次V3題庫的局限，新題庫聚焦最能反映硬邏輯能力的題型，盡可能逼近模型能力極限，因此不再能反映用戶實際體驗。可以把V3題庫看作高考用來拉開區(qū)分度的大題（極限能力），但能做對大題也不代表前面簡單題就全對（用戶體驗）。讀者需要意識到，你所體驗到的大模型能力，是綜合了各種工程優(yōu)化之后的結(jié)果，不單是邏輯能力。

#3 題目和打分
本次增加Hard題1道，此處列出所有題目大綱和核心考點：
1、程序改錯：代碼理解
2、基于多重規(guī)則判斷單據(jù)合法性：規(guī)則理解，復(fù)雜約束，日期計算
3、旅游路徑規(guī)劃：長文本理解，工具調(diào)用能力
4、【Medium】公元紀(jì)年推算天干紀(jì)年：計算能力，規(guī)則理解
5、【Medium】閱讀代碼輸出結(jié)果：代碼理解，代碼推導(dǎo)
6、【Medium】計算有時間重疊下最少會議室數(shù)量：計算能力
7、【Medium】從代碼中推測json結(jié)構(gòu)：代碼理解，短期記憶，數(shù)據(jù)結(jié)構(gòu)理解
8、【Medium】提供上下文的代碼補(bǔ)全：代碼理解，指令遵守
9、【Medium】密文解碼：模擬計算
10、【Medium】棋盤上的圖形：圖形想象，二維記憶能力
11、【Medium】不提供規(guī)則，閱讀某中文編程代碼，并推導(dǎo)輸出：符號理解，遷移學(xué)習(xí)能力
12、【Medium】撲克牌按規(guī)則洗牌求順序：規(guī)則遵循，一維記憶
13、【Medium】正則匹配：推理推演正則匹配結(jié)果
14、【Medium】4x4 數(shù)獨題：多步推理，短期記憶，規(guī)則遵循
15、【Medium】島嶼面積計算：DFS非編程推算
16、【Medium】信息提?。褐噶钭袷?，文本迷惑性，輸出格式要求
17、【Medium】第2題進(jìn)階版，增加輸出要求，增加題目細(xì)節(jié)
18、【Medium】第6題變體，增加會議室數(shù)量，會議人數(shù)條件約束
19、【Medium】故事推理，故事包含復(fù)雜物品交換規(guī)則，求最終物品和主人對應(yīng)關(guān)系
20、【Hard】按規(guī)則擰魔方后求魔方顏色：三維記憶能力
21、【Hard】符號重定義后求表達(dá)式：規(guī)則理解，邏輯陷阱
22、【Hard】壓縮算法模擬：規(guī)則理解，文本計算
23、【Hard】按提示猜單詞：利用規(guī)則推導(dǎo)，排除干擾
24、【Hard】給定熱量的沙拉搭配：數(shù)學(xué)計算，數(shù)學(xué)規(guī)則
25、【Hard】二維字符迷宮：求入口到出口路徑
26、【Hard】模擬桌游：提供相互影響的復(fù)雜規(guī)則，推導(dǎo)4位玩家的結(jié)局狀態(tài)
27、【Hard】幾何計算：多條線段求交點：直線方程，幾何理解【New】

其中【Hard】是指目前正確率偏低的題目。【Medium】指回答正確率接近半數(shù)的題目。
打分規(guī)則：
1、每道題有至少1個得分點，回答每正確一點即得1分。最終得分是得分除以得分點總數(shù)，再乘以10。（即每道題滿分10分）
2、要求推導(dǎo)過程必須正確，猜對的答案不得分。
3、要求回答必須完全符合題目要求，如果明確要求不寫解釋，而回答包含了解釋部分，即使正確，也記0分。

#4 成績解析
1）O1：基本通關(guān)V3題庫，除了個別題目的個別細(xì)化陷阱點未識別到導(dǎo)致扣分，其他題目均滿分，包括對大模型不友好的逐字符問題，滿分率80%。O1由于隱藏了思考過程，回答結(jié)果相當(dāng)簡略，大部分問題直接給出答案，和簡單的對答案的解析（并不是過程）。幾道和字符相關(guān)的問題，如15島嶼面積，O1并沒有像其他所有模型那樣直接數(shù)字符個數(shù)，而是有一點人的直覺，知道要從二維視角全盤審查。25迷宮問題，先前模型基本卡在第一個岔路口，得分極低，O1是首次全對，但沒有給推導(dǎo)過程。
由于Hard題偏少，目前的測試并不能反映O1的極限素質(zhì)，還有待后續(xù)的進(jìn)一步加測。

2）Gemini 2.0 Flash和thinking-exp：Flash作為輕量模型，確實離之前Exp系列有一些差距。個別難題Exp能穩(wěn)定做對的，F(xiàn)lash依然拿不到分。但其他問題僅比Exp多一些小錯誤，落后幅度很小。并且在需要逐步推導(dǎo)的題目中，比Exp有更明顯的思維連模式。
而思維鏈版本的thinking模型就比較厲害了，直接追平O1 mini，并且輸出速度也要比mini快。二者對比的話，O1 mini在處理逐字符問題上更得心應(yīng)手，flash對編程問題得分稍高。而計算，逐步推導(dǎo)這類思維鏈優(yōu)勢項目，flash和O1 mini基本都是滿分。

3）DeepSeek V3：DeepSeek在10號更新一版V2.5之后預(yù)告V3，但沒想到僅過了2周V3就來了，小作坊下料就是猛。V3官方宣稱能力在4o之上，實測確實如此。二者相比，V3有部分題目思維鏈模式發(fā)揮優(yōu)勢，得分比4o高。這部分題目V3和之前R1 Lite的推導(dǎo)流程如出一轍。而余下題目，4o靠更低失誤率扳回不少分。不難推測，普通用戶實際使用，或者用簡單問題考察，可能發(fā)現(xiàn)4o更好，這也符合預(yù)期。
V3還是保留了許多2.5的硬傷，編程能力下降還未恢復(fù)，R1 Lite做的對的數(shù)學(xué)題，V3只能對一半，可見V3并不是R1的完整版?？梢灶A(yù)見下一個版本有望打進(jìn)前三。

4）Qwen系列：本次參與評測的有來個模型，先說備受關(guān)注的QwQ。QwQ總分和gemini flash相近，二者對比，QwQ在部分字符處理，計算，多步推導(dǎo)相關(guān)問題上優(yōu)勢明顯，flash錯誤率極高。而剩余的同樣需要多步推導(dǎo)，但難度更高的問題上，QwQ明顯力不從心，表現(xiàn)甚至不如flash。而QwQ似乎沒訓(xùn)練過編程題目，相關(guān)問題得分低下?？傮w來看QwQ實驗驗證性質(zhì)偏多，還難以用于線上生產(chǎn)。
plus系列相比自家max系列，迭代更頻繁，價格也更低，但實力整體和max接近。二者在多數(shù)題目上回答近似，得分近似，互有優(yōu)劣，但相差不大。plus在細(xì)節(jié)處理上更好，max在需要更多步推理的問題上表現(xiàn)更好。
值得注意的是，plus最后一次更新1220版，整體劣于1127。

5）豆包：長期以來，豆包憑借運營推廣，和綜合服務(wù)多樣性獲得了較多的用戶口碑。但豆包的模型能力和用戶口碑并不匹配，硬實力只在第二梯隊末尾。豆包Pro 1215更新，模型能力提升巨大，總分來到了57分，進(jìn)入第一梯隊。官方宣稱和4o能力相當(dāng)，對比來看，豆包在大部分問題上稍弱于4o，表現(xiàn)在細(xì)節(jié)疏漏較多，復(fù)雜指令要求遵循不到位。但也有少數(shù)題目，豆包憑借微弱的長文本理解優(yōu)勢，得分稍高。用戶體驗應(yīng)該是不如4o，但相差已經(jīng)不遠(yuǎn)。

#5 附錄 - 歷史成績
歷史成績只展示百分值，具備可比性。

#6 全年
去年的全年總結(jié)里（ https://zhuanlan.zhihu.com/p/673886532）有寫到，彼時國內(nèi)能超越ChatGPT3.5的模型還只有文心4.0和通義2.1兩個，而今年底主流廠商基本都完成了對3.5的超越，并且有廠商已深入到GPT4和同代的O1區(qū)間。來自北美的大模型廠商領(lǐng)先時間從去年11-12個月，被縮短到3-4個月。在語言大模型以外的領(lǐng)域，像文生圖，文生視頻，國內(nèi)也不斷涌現(xiàn)出新的勢力，與北美頭部也有一戰(zhàn)之力。
另一方面我們也不能忽視北美廠商的先發(fā)優(yōu)勢依然強(qiáng)大，創(chuàng)新能力鋒銳不減。2025年將是淘汰賽的一年，預(yù)計國內(nèi)頭部在保持追趕的同時，中尾部跟不上的玩家將逐漸被淘汰出局。競爭依然殘酷。
為了應(yīng)對明年頭部紛紛向思維鏈和融合模式轉(zhuǎn)化，目前V3題庫也需要進(jìn)一步擴(kuò)充，計劃將Hard題型占比提升到50%以上，重點補(bǔ)充復(fù)雜計算、人類直覺、圖形推理三類題目。希望筆者的評測在25年依然能幫到各位讀者，管中窺豹，從另一個側(cè)面了解大模型進(jìn)化。

本站僅提供存儲服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊舉報。

打開APP，閱讀全文并永久保存查看更多類似文章

用AI做考研數(shù)學(xué)一，我得了136分

考研數(shù)學(xué)得126分、還能編寫小游戲，智譜首個推理模型來了，人人免費用

我們舉辦了一場推理模型“年終考試”，最終奪冠的居然是

火山引擎“奇襲”阿里云

大模型“價格戰(zhàn)”爆發(fā)，誰能搶占商業(yè)化制高點？|價格戰(zhàn)

大模型“免費”送，廠商們圖什么？

更多類似文章 >>

国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看