鳳凰網(wǎng)科技 《新視界》出品
從卷參數(shù)、卷文本長度再到開卷多模態(tài),國產(chǎn)大模型的角逐賽打的愈發(fā)激烈。
特別是2024年初以來,“長文本”悄然走入大眾視野,在眾多晦澀技術用詞之外,讓不少用戶眼前一亮。
今年3月,月之暗面的Kimi智能助手宣布可支持200萬字上下文,緊隨其后,通義千問免費開放1000萬字的長文檔處理功能;4月,訊飛星火也可支持長文本、長圖文、長語音,甚至還能進行超擬人語音對話、一句話聲音復刻。5月14日凌晨,OpenAI推出最新旗艦大模型GPT-4o,能夠對文本、音頻、圖像的任意組合作為輸入,并生成文本、音頻和圖像輸出。
大模型能力競爭來到了新的水平線。
不過,不論是模型參數(shù),還是長文本能力,都并非以數(shù)字取勝。簡言之,大模型并非參數(shù)越大越好用,文本也并非越長,效果就越好。
大模型到底好不好用,長文本的價值究竟幾何?為了解答這些疑問,鳳凰網(wǎng)科技對多款國產(chǎn)大模型進行了實測,橫向比較了Kimi、文心一言3.5、通義千問、訊飛星火3.5、智譜清言與商湯商量共6款國產(chǎn)大模型,以日常合同、保險賠付、學習輔導、會議資料整理與日常生活等垂直應用行業(yè)為具體案例,呈現(xiàn)6大國產(chǎn)大模型的差異之處。
01
長文本,好用還是雞肋?
起初將長文本概念帶火的正是月之暗面,其旗下的Kimi智能助手主打的就是長文本。
在月之暗面創(chuàng)始人楊植麟看來,通往通用人工智能(AGI)之路,無損的長上下文將會是一個很關鍵的基礎技術。
目前,Kimi支持200萬字超長無損上下文,其相關負責人表示,長文本可進一步幫助打開對AI應用場景的想象力,包括完整代碼庫分析理解、可自主幫人類完成多步驟復雜任務的智能體Agent、不會遺忘關鍵信息的終身助理、真正統(tǒng)一架構的多模態(tài)模型等。
當然,理論說明并不直觀,既然Kimi號稱有超強長文本能力,我們就來橫向對比下,以日常合同、保險賠付、日常會議等為例,Kimi與文心一言、通義千問、訊飛星火、商湯商量、智譜清言的差別所在。
● 長文本識別及篩選能力實測:
我們在日常生活中有非常多合同使用的場景,而快速閱讀字數(shù)繁多的合同、整理要點是普遍痛點,我們以房屋租賃合同為例,測試了以上幾款產(chǎn)品在處理長文本上的能力。得到的結果如下:
Kimi的回答詳盡且條理清晰,重點信息也做了突出顯示,把注意事項一一列舉了出來。
訊飛星火的總結同樣對要點進行了提煉,并一一列舉了注意事項。
通義千問的列舉詳盡,也對重點內(nèi)容進行了標注。
而文心一言的表現(xiàn)就略顯差一些了,邏輯性不強,對信息的提取不夠凝練。
智譜清言同樣交出了一份合格的回答,涵蓋了核心重點內(nèi)容。
商湯商量分為對話大模型和文檔大模型,合同需要發(fā)給文檔大模型處理,兩個模型入口可能對用戶來說不是很方便,在處理結果上,商湯大模型給出的回答也較為全面。
● 長文本問答能力實測:
我們以汽車出險賠付為例,參照平安保險機動車商業(yè)保險條款,了解事故發(fā)生后我們該如何進行保險理賠。
Kimi的回答依舊條理清晰,可行性較高,基本上解決了機動車出現(xiàn)事故后該具體如何操作問題。
訊飛星火的回答同樣邏輯清晰,雖沒有Kimi的解答那么細,但仍舊全盤列出了現(xiàn)場處理要點以及注意事項。
文心一言的回復相對而言比較泛泛而談,無法一步到位直接解決當下的問題。
通義千問的回答同樣有著不錯的實用性,基本涵蓋了事故發(fā)生后需要進行的操作。
商湯商量的回答較為全面,依然需要在文檔大模型中單獨使用,操作上略有不便。
智譜清言在此問題上的回答雖然相對簡略,但同樣涵蓋了核心步驟。
● 長文本生成能力實測:
在具體的應用場景中,長文本除了識別與歸納,最核心的功能,就是生成功能了。這里我們設定需要這些大模型生成一份人工智能產(chǎn)業(yè)報告(2023)。
在長文本生成方面,Kimi仍舊呈現(xiàn)出了顯著的專業(yè)性,不僅內(nèi)容探討方向更加豐富,且專業(yè)內(nèi)容扎實,實用度高,幾乎可直接拿來做報告的初步提綱。
訊飛星火的文本生成能力同樣可圈可點,雖在條理性上略遜Kimi一籌,但展現(xiàn)出了更強的文采能力。
相比較之下,文心一言的學術性能力就稍遜一籌,產(chǎn)出的內(nèi)容較為簡單、基礎,很難直接使用。
通義千問的回答稍微有一點文不對題,雖然給出了一張封面,但具體內(nèi)容可用性較弱。
商湯商量生成的報告,在結構上比較完整,并涵蓋了當前領域中的專業(yè)術語。
在長文本生成方面,智譜清言的回答中規(guī)中矩,有簡單的基礎信息,但還是專業(yè)度不足。
02
長圖文、長語音,誰在搶跑多模態(tài)大模型
在大模型參數(shù)已經(jīng)卷無可卷的當下,越來越多企業(yè)正在從細分方向突出重圍,以讓人們感覺大模型的好用之處。除了前文提及的長文本,多模態(tài)也是一個關鍵的研究方向。
對于人來說,多模態(tài)是一種十分自然的交互模式。但對于計算機來說,多模態(tài)卻是極其復雜且困難的。
例如,隨著CNN技術的突破,一度帶動了人臉識別、視頻識別技術的廣泛應用,準確率可以遠超人類,但該項技術卻難以在文本理解方面取得顯著的突破。直到2023年,大語言模型掀起了新一輪技術迭代,典型代表如ChatGPT,才使得AIGC再度向前邁進了一步,但以上多項技術突破,仍舊是以單模態(tài)見長。
所以可以認為,當下能夠處理更多模態(tài)信息的如文字、圖像、視頻、語音等多模態(tài)大模型,可以更加靈活自如的與人們交流互動,也就更加接近真正意義上的AGI。
4月底訊飛星火3.5的更新,就在努力朝這一方向演進。不久前商湯日日新5.0也剛剛更新,提升的核心指標也包括多模態(tài)能力,號稱圖文感知能力達到全球領先水平。通義千問與文心一言目前也均有多模態(tài)模型。Kimi方面,實際上在Sora于今年初驚艷亮相之后,其內(nèi)部就在推進多模態(tài)模型的研發(fā),其聯(lián)合創(chuàng)始人周昕宇表示,預計2024年會推出多模態(tài)模型及產(chǎn)品,但截至目前,相關產(chǎn)品仍未面世,可以說,在多模態(tài)能力方面,Kimi已經(jīng)晚了一步。
鳳凰網(wǎng)科技也就目前已經(jīng)發(fā)布的幾款大模型的多模態(tài)處理能力,進行了綜合實測。
比如我們上傳了一張小米su7發(fā)布會的PPT實拍圖,讓大模型對該頁PPT進行重點總結。
訊飛星火準確的識別出了該張PPT中的重點信息,與此同時,對部分信息進行了推理,在多模態(tài)能力上呈現(xiàn)出了部分優(yōu)勢。
智譜也準確識別出PPT的信息,并在最后進行總結。
商湯商量識別出了PPT中的主要文字信息,對于圖片的識別能力稍遜色了一點點。
通義千問和商湯的表現(xiàn)相近,整理了圖片中的文字內(nèi)容,但分析和歸類能力較弱。
文心一言涉及了部分推理演繹,不過理解有部分錯誤,比如將800cltc續(xù)航里程和時速搞混了。
再比如我們在日常生活中有非常多輔導孩子學習的場景,我們截取了一張初中數(shù)學題的圖片,交給大模型進行識別并給出解題思路。
商湯商量識別出了文字內(nèi)容,并進行了解題,但解題思路有誤,把長方形的長和寬搞錯了,直接給出了錯誤答案。
訊飛星火不僅精準的識別出了圖片中的文字,并給出了十分精準且正確的解題思路。如果在日常輔導孩子學習的場景下,非常實用。
通義千問、文心一言和智譜清言的解題思路基本相近,但邏輯上不是特別清晰,對于輔導來說,比較難教給孩子清晰、有邏輯的解題思路。
同樣在圖文識別方面,我們上傳了2023年世界人工智能大會的議程,希望大模型能幫忙整理一份重點。
文心一言識別的很全面細致,但歸納重點的能力稍遜。
訊飛星火的內(nèi)容識別凝練且主次分明,看起來更加方便。
通義千問的信息提取較為全面,但缺乏對重要信息的篩選和過濾。
商湯商量則將圖片中的所有文字進行了提取,基本是原封不動的進行了復述。
智譜清言的識別最為豐富,對論壇信息進行了突出顯示。
在音視頻識別層面,目前業(yè)內(nèi)布局尚不多:
我們上傳了2020東京奧運會,乒乓球男單決賽樊振東與馬龍對決的視頻片段,讓大模型為我們整理下視頻的核心內(nèi)容:
訊飛星火對該視頻內(nèi)容進行了簡要解析,并復述了該段落的核心內(nèi)容。
智譜清言則直接表示無視頻分析能力。
實際上,目前文心一言、通義千問、商湯商量等均不支持音視頻的上傳與解析。
在音視頻這類十分多見的應用場景中,訊飛星火已經(jīng)有了顯著的領先性。
03
基因雖不同,但好用才是正義
當下,越來越多人開始追求大模型實用與否,尤其是在學習、辦公、日常生活等常見場景下的具體應用。
可以看到,在長文本、長圖文與長語音方面,幾款國產(chǎn)大模型已經(jīng)基本上有了顯著差異,比如Kimi的確在長文本方面展現(xiàn)出了較強的能力,但遺憾的是,多模態(tài)能力的缺失,讓Kimi的使用場景有顯著的短板。
此外,加強后的商湯商量、訊飛星火,在多模態(tài)上已經(jīng)比通義千問、文心一言的表現(xiàn)更亮眼一些,尤其是訊飛星火,本就有更強的邏輯推理能力和數(shù)學能力,加上多模態(tài)能力的提升,除了準確的識別文字,還能對音視頻文件進行處理,應用場景更為廣泛。
經(jīng)過長文本識別與生成能力、多模態(tài)輸入和識別能力、數(shù)理能力等幾個維度,得出測試結果如下:
圖|鳳凰網(wǎng)科技作者制作(注:白色星星為半顆星)
隨著大模型的競爭進入新一層,各家已不再盲目追求參數(shù),對于許多人而言,大模型之爭,歸根結底是要回歸可用性,不然就是對算力資源的極大浪費。
當下,不管是大人輔導小孩學習、打工人整理會議記錄、還是學生黨整理學習筆記等應用場景,大模型正與人們的生活產(chǎn)生越來越多聯(lián)系,而告別無意義的內(nèi)卷,為人們創(chuàng)造更多實用價值,才是大模型技術發(fā)展所追求的目標