最近這兩天,字節(jié)跳動的豆包視覺理解模型和月之暗面的Kimi K1視覺思考模型相繼發(fā)布,引發(fā)了業(yè)界的廣泛關(guān)注。
豆包以其驚人的性價比,而Kimi K1則以其強大的端到端圖像理解和思維鏈技術(shù),成為了AI領(lǐng)域的新焦點。

01
豆包:視覺理解的性價比之王
價格革命:
豆包視覺理解模型的發(fā)布,標(biāo)志著AI視覺理解技術(shù)正式邁入了“厘時代”。每千個tokens的輸入價格僅為3厘,這意味著處理約284張720P分辨率的圖片僅需1元,比行業(yè)價格便宜了85%。
能力展示:
豆包不僅僅是一款圖像處理工具,它還能執(zhí)行復(fù)雜的邏輯運算,如分析圖表、處理代碼以及解答學(xué)科難題等。它的細膩視覺描述與創(chuàng)作能力,使其在廣告創(chuàng)作到教育輔助工具等多個領(lǐng)域都有廣泛應(yīng)用。
評測體驗:
在實際測試中,豆包在一些世界常識中也展現(xiàn)了優(yōu)勢,例如在識別山東濟南靈巖寺塔林的問題上,豆包守住了自己的榮耀,回答了上來,從而險勝GPT4o一籌。
GPT的回答:

圖片來自互聯(lián)網(wǎng)
豆包的回答:
圖片來自互聯(lián)網(wǎng)
在一些視覺誤導(dǎo)的問題上,豆包也能準(zhǔn)確回答,比如識別哪根滾珠絲桿最長的問題,豆包準(zhǔn)確回答了左邊第二根最長。
下面分別是GPT和豆包的回答
圖片來自互聯(lián)網(wǎng)
圖片來自互聯(lián)網(wǎng)
02
Kimi K1:端到端圖像理解的先行者
技術(shù)突破:
Kimi K1基于強化學(xué)習(xí)技術(shù)打造,原生支持端到端圖像理解和思維鏈技術(shù),并將能力擴展到數(shù)學(xué)之外的更多基礎(chǔ)科學(xué)領(lǐng)域。

性能表現(xiàn):
在數(shù)學(xué)、物理、化學(xué)等基礎(chǔ)科學(xué)學(xué)科的基準(zhǔn)能力測試中,初代k1模型的表現(xiàn)超過了全球標(biāo)桿模型OpenAI o1、GPT-4o以及Claude 3.5 Sonnet。
用戶體驗:
Kimi K1能夠直接處理用戶輸入的圖像信息并進行思考得出答案,不需要借助外部的OCR或額外視覺模型進行信息處理。用戶不僅能看到答題結(jié)果,還能看到模型思索答案的全過程。
評測體驗:
K1的基礎(chǔ)模型重點優(yōu)化了字符識別能力,在OCRBench上得到903分的當(dāng)前最好(state-of-the-art)結(jié)果,在MathVista-testmini、MMMU-val 和DocVQA基準(zhǔn)測試集上分?jǐn)?shù)分別為69.1、66.7和96.9,處于全球領(lǐng)先水平。