国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
“不遜色GPT-4”!百度最強大模型發(fā)布,我們第一時間實測了一波
魚羊 蕭簫 發(fā)自 凹非寺
量子位 | 公眾號 QbitAI

就在剛剛,文心大模型4.0版本正式發(fā)布!

北京首鋼園現(xiàn)場,李彥宏直接放話:

文心大模型4.0綜合水平與GPT-4相比已經(jīng)毫不遜色。

話不多說,一起來看現(xiàn)場演示效果。

先來段倒裝prompt:

我想回承德買房,能用公積金貸款嗎?手續(xù)怎么辦?我在北京工作。

不僅關(guān)鍵信息“北京工作”放在了最后,公積金具體是在哪里交的也沒有明示。

但新版文心一言完全沒有被這些小陷阱坑到,順利給出了正確答案。

生成方面,當場剪出一整段數(shù)字人口播視頻,毫不費勁:

解起數(shù)學(xué)題來也得心應(yīng)手,可以說是家長輔導(dǎo)作業(yè)神器了(doge)。

新版文心一言還現(xiàn)場寫起了武俠小說,即使持續(xù)添加人物角色、增加戲劇沖突,也不會出現(xiàn)記憶混亂、前言不搭后語的情況:

如此表現(xiàn),著實是讓現(xiàn)場觀眾high了一把。

文心大模型4.0相關(guān)話題,也立刻被國內(nèi)外網(wǎng)友們熱議起來。

據(jù)現(xiàn)場介紹,相比線上3.5版本的文心一言,文心大模型4.0進步明顯:僅9月啟動小流量測試這過去的一個月,就又提升了30%。

那么,問題來了:文心大模型4.0真有這么好?具體與GPT-4相差幾何?

目前,文心大模型4.0已經(jīng)開啟邀測,量子位也在第一時間拿到了測試資格。

我們直接實測走起。

相比GPT-4實測效果如何?

獲得測試資格后,切換到文心大模型4.0,就可以開始玩耍了。

相比文心大模型3.5剛出來的時候,文心大模型4.0現(xiàn)在已經(jīng)進化出了更多功能,光是插件就有8個,包括一鏡流影(文字轉(zhuǎn)視頻)、說圖解畫(看圖說話)、E言易圖(可視化數(shù)據(jù)分析)等。

這些插件還可以自由組合,來完成更復(fù)雜的任務(wù)。

百度在世界大會現(xiàn)場,重點演示的還是文心大模型4.0的圖文創(chuàng)作、數(shù)理邏輯推理等實用功能。那我們還是老樣子,從更基礎(chǔ)的角度出發(fā),測測它的四大“基本功”——

理解、生成、邏輯和記憶能力。

理解能力,尤其是中文理解能力

第一波,先來看看文心大模型4.0的理解能力。

這里我們主要考考它應(yīng)對“語言陷阱”的能力,以及網(wǎng)絡(luò)段子的“識別力”。

先來個中文十級能力測試題,考考大模型究竟懂不懂“真的假的”是什么意思。

文心大模型4.0的回答很簡潔,直接給出答案。

GPT-4則要每一句話都仔細分析句意,最后再給出回答:

雖然更仔細,但總感覺有點像是在認真做中文測試的歪果仁(doge)。

再來上點難度,“小偷偷偷偷東西”。

文心大模型4.0很快拆解出了“小偷”、“偷偷”和“偷東西”三個詞,get到了這句話的意思:

不過,GPT-4反而一頭“栽”進了這個陷阱中,以為中間的兩個“偷”也是動詞,最后還漏了一個偷……

考查完語言陷阱后,再來看看雙方對網(wǎng)絡(luò)段子的理解。

針對“哪李貴了”這個本土梗,文心大模型4.0很快給出了答案,人物事件都直觀:

GPT-4如果沒有開搜索,會get不到2022年1月之后的梗:

但如果打開搜索,很快也能“與時俱進”,給出這個問題的答案:

同理,我們也試了試從國外傳入國內(nèi)的梗。

文心大模型4.0和GPT-4都能回答出來,文心大模型4.0更概要一些,GPT-4則是直接搬運了一套百科(更詳細,但tokens也更貴??……):

網(wǎng)絡(luò)段子測評看下來,文心大模型4.0和加了搜索的GPT-4可以說是各有千秋。

多模態(tài)生成能力

那么接下來這波,就要考驗當下最受關(guān)注的大模型多模態(tài)生成能力了。

先來試試圖像生成能力,順便考查一下對古詩“孤舟蓑笠翁,獨釣寒江雪”的理解。

文心大模型4.0很快給出了4張圖像,風(fēng)格和基本意境都比較符合:

GPT-4也利用DALL·E 3畫出了4幅畫,同樣畫風(fēng)各異:

這一次雙方打了個平手。

那么視頻生成呢?這里我們調(diào)用一下文心大模型4.0的自帶插件,本想著只是生成一段落葉剪輯,沒想到連文案和字幕語音都配好了,完成度很高那種:

GPT-4本體目前還不支持生成視頻,需要借助外部插件(如Capcut)實現(xiàn)這一功能。

邏輯能力

然后,就到了我們喜聞樂見的數(shù)學(xué)計算 邏輯推理能力測試了。

文心大模型4.0說是重點升級了數(shù)學(xué)計算能力,我們也不客氣,直接上難倒一片大模型的Old McDonald問題:

在Old McDonald的農(nóng)場里養(yǎng)著一匹馬、兩頭牛和三只羊。請問農(nóng)場還需要再養(yǎng)多少頭牛,才能使得所有動物的總數(shù)量恰好是牛的總數(shù)量的兩倍?

文心大模型4.0一口氣列出了4個未知數(shù)(doge),但解題過程還是比較嚴謹?shù)?,最終答案也沒有問題。

此前,我們曾將這個問題喂給Claude、ChatGPT等一眾大模型,“橫向評測”過一波它們的數(shù)學(xué)能力,當時只有GPT-4能做出來。

接下來,直接上弱智benchmark,考考邏輯推理能力。

第一個問題,文心大模型4.0和GPT-4都很快給出了正確答案:

第二個問題,雙方的回答也很快,文心大模型4.0還順口給出了“七分海洋三分陸地”的地理題背誦口訣:

看起來雙方的數(shù)學(xué)、邏輯都不錯,點個贊。

記憶能力

大語言模型公認的評判標準之一,是多輪對話能力。GPT-4的多輪對話已經(jīng)有不少測試了,我們再來簡單看看文心大模型4.0的效果。

先來解讀一下長論文,沒什么問題:

以這個為主題寫一首詩歌,順便讓它改成英文,也能hold住:

試試讓它改得押韻一點,no problem:

最后再來提問一下詩歌中用到的Transformer知識點,并挑出其中的某個知識點要求解釋原理,也信手拈來:

另外,試著將上文中的知識點用“它”代替,文心大模型4.0同樣能承接上文的對話,并給出相關(guān)知識回答。

看來無論是長文本解讀、還是多輪對話,可以說都是難不倒文心大模型4.0了。

附加題

正經(jīng)測試完畢,咱們最后整點樂子(doge)。

這段時間,一道神奇的考題又被拎出來,在小紅書等社交媒體上“難倒眾人”,題面是這樣的:

根據(jù)中華人民共和國婚姻法,以下誰能結(jié)婚?

A、林黛玉和賈寶玉

B、賈璉和尤二姐

C、楊過和小龍女

D、張起靈和吳邪

乍一眼還真看不出答案,不如交給文心大模型4.0和GPT-4回答試試。

文心大模型4.0給出的回答算是有理有據(jù),雖然細看仍有一點bug,但整體問題不大。

然而當我們將這個問題拋給GPT-4的時候,它先是停頓了好一會,然后直接被“急出母語”(doge)

翻譯一下大概就是,GPT-4認為D選項是正確的……

我們再嘗試一遍。這次GPT-4倒是用中文回答了,只不過好像開始打起了太極,對于每一個選項,它的回答都是:

在現(xiàn)實中,他們的結(jié)婚資格取決于他們是否符合中國的婚姻法律規(guī)定。

測到這里,不妨做個小小的總結(jié):

整體來看,與GPT-4相比,文心大模型4.0在綜合能力上確實不落下風(fēng),尤其是在中文理解能力和通用知識能力上甚至更好。

那么,這樣的大模型究竟是怎么煉成的呢?

文心大模型4.0是如何煉成的?

先來看看文心大模型4.0的“自進化”程度。

據(jù)百度CTO王海峰介紹,大模型表現(xiàn)出的創(chuàng)作、編程、解題、規(guī)劃等能力,實際上都依賴于背后的4大核心基礎(chǔ)能力——

理解、生成、邏輯和記憶能力。

相比3.5版本,文心大模型4.0的4大基礎(chǔ)能力均有了不少提升,而提升最大的,又要屬邏輯和記憶能力。

其中,邏輯的提升幅度達到了理解的近3倍,而記憶的提升幅度則達到了理解的2倍多:

以大模型寫代碼為例。

目前,百度的不少員工已經(jīng)用上了大模型寫代碼應(yīng)用Comate,平均代碼采納率達到40%,高頻用戶達到60%。

甚至現(xiàn)在百度每天新增的代碼中,20%都是靠Comate生成的,比例還在不斷增加。

所以,文心一言背后的文心大模型4.0,究竟是怎么煉成的?

據(jù)王海峰表示,核心架構(gòu)雖然還是從文心大模型3.0和3.5一脈相承,包括最初3.0的有監(jiān)督精調(diào)、基于人類反饋的強化學(xué)習(xí),以及3.5的知識點增強、邏輯推理增強、插件機制等。

但文心大模型4.0的技術(shù)改進,可以直接用三個“更”來總結(jié):

更大的算力、更多的數(shù)據(jù)、更強的算法。

訓(xùn)練上,目前飛槳平臺已經(jīng)能在萬卡算力上運行,基于集群基礎(chǔ)設(shè)施、調(diào)度系統(tǒng)、軟硬件協(xié)同優(yōu)化,支持大規(guī)模穩(wěn)定高效訓(xùn)練;同時,基于可再生訓(xùn)練技術(shù)中的增量式參數(shù)調(diào)優(yōu),來節(jié)省訓(xùn)練資源和時間。

基于這套技術(shù),自3月份以來,文心大模型系列訓(xùn)練算法已經(jīng)累計提效3.6倍,周均訓(xùn)練穩(wěn)定有效率超過98%:

數(shù)據(jù)上,團隊建設(shè)了一套多維數(shù)據(jù)體系,從數(shù)據(jù)挖掘、分析、合成標注和到評估,形成了一整套“流水線”,來進一步提升模型訓(xùn)練效果。

算法上,則基于有監(jiān)督、精調(diào)、偏好學(xué)習(xí)和強化學(xué)習(xí)等技術(shù),進行了多階段的對齊,確保大模型能更好地與人類判斷和選擇進行對齊。

在這其中,有兩方面很關(guān)鍵的技術(shù)細節(jié)。

一方面是知識點增強的能力。

過去大模型可能只在一個階段做知識點增強,但現(xiàn)在百度在輸入和輸出兩方面同時進行了知識點增強。

輸入先用知識點增強,對用戶輸入的問題進行理解,拆解出回答問題所需知識點,基于搜索引擎、知識圖譜、數(shù)據(jù)庫查找知識,生成第一遍結(jié)果;

輸出再用知識點增強,對第一遍生成的結(jié)果進行分析,并用搜索引擎、知識圖譜、數(shù)據(jù)庫進行“double check”,對其中有差錯的地方進行修正。

另一方面是智能體機制。

《思考,快與慢》這本書中,將認知系統(tǒng)分成系統(tǒng)1(反應(yīng)快但易出錯)、系統(tǒng)2(反應(yīng)慢但更理性準確)。

根據(jù)這個原理,百度在大模型基礎(chǔ)上,進一步研制了系統(tǒng)2。

也就是說,相比大模型直接給出答案,現(xiàn)在進一步讓它學(xué)會理解、規(guī)劃、反思和進化,這樣大模型執(zhí)行就能更可靠、甚至完成自我進化,思考過程“白盒化”。

這兩大技術(shù)細節(jié),也造就了文心大模型4.0水平的飛速提升,甚至光是過去一個月的時間里,就提升了30%。

這樣的技術(shù),也讓文心大模型4.0的用戶和開發(fā)者人數(shù)增長得飛快。

截至目前,文心一言用戶規(guī)模已經(jīng)達到4500萬人,開發(fā)者達到5.4萬人,遍布4300多個使用場景,應(yīng)用數(shù)量達到825個,并接入了超過500個插件。

而在技術(shù)之外,更值得關(guān)注的是,百度世界大會上透露出的信息顯示,文心大模型4.0已經(jīng)全面重構(gòu)了百度的搜索、GBI、文庫、網(wǎng)盤、地圖等數(shù)十款應(yīng)用。

AI原生時代大幕開啟

為什么這么說?李彥宏在百度世界大會現(xiàn)場分享時強調(diào):

大模型帶來的智能涌現(xiàn),是開發(fā)AI原生應(yīng)用的基礎(chǔ)。同樣,沒有構(gòu)建于基礎(chǔ)模型之上的豐富的AI原生應(yīng)用,基礎(chǔ)模型就沒有任何價值。

無獨有偶,紅杉資本在《生成式AI進入第二階段》中同樣認為,生成式AI市場正在進入“第二幕”:

炒作和快速展示正在為真正的價值和完整的產(chǎn)品體驗所取代。

底層的邏輯其實很簡單:底層技術(shù)的重要性毋庸置疑,但前沿技術(shù)想要真正在人們的生活中創(chuàng)造價值,還是需要通過應(yīng)用的形式。

如果說,大模型掀起的是人機交互方式變革的風(fēng)暴,那么AI原生應(yīng)用,正是純自然語言交互的具體體現(xiàn)形式。

正如百度現(xiàn)場所演示的,數(shù)據(jù)分析現(xiàn)在可以是醬嬸的——

直接對任意數(shù)據(jù)提問,AI分分鐘就能展開具體分析,不再需要人工跨數(shù)據(jù)庫、跨表格分析。

在辦公軟件如流里,交代出行計劃,AI超級助手立馬就能把差旅機酒安排妥當。

根據(jù)文檔生成PPT,也就是一句話的事,像百度文庫這樣的產(chǎn)品,直接化身“生產(chǎn)內(nèi)容最好的起點”。

我們?nèi)粘J煜さ木W(wǎng)盤、地圖等App,基于大模型能力,也涌現(xiàn)出了全新的體驗。

比如從網(wǎng)盤視頻里直接提取重點內(nèi)容。

比如在地圖指揮AI訂餐廳。

百度此番出手,可以說是直接展示了一把大模型全方位的應(yīng)用滲透,揭開了AI原生時代大幕的一角。

而百度“第一個把全部產(chǎn)品用大模型重做一遍”的先手優(yōu)勢,也已經(jīng)在更大范圍內(nèi)開始顯現(xiàn)。

李彥宏透露,百度的大模型技術(shù)已經(jīng)應(yīng)用在制造、能源、電力、化工、交通等實體產(chǎn)業(yè)中,17000家企業(yè)已參與其中,大模型正在成為新型工業(yè)化的重要推動力。

從3月份文心一言發(fā)布,到年中文心大模型3.5版本更新,再到現(xiàn)在4.0驚艷亮相,百度文心大模型的迭代速度不可謂不迅速。

這背后既是國產(chǎn)大模型從技術(shù)demo到落地應(yīng)用的激烈競爭,也再一次體現(xiàn)了百度在大模型領(lǐng)域深厚的技術(shù)積累。

并且隨著文心大模型4.0和百度一眾AI原生應(yīng)用的亮相,大模型賽場上新一階段的競爭方向愈發(fā)明顯。

正如李彥宏所說:

我們即將進入一個AI原生的時代。一個人機通過prompt交互的時代。

在此過程之中,無論是國產(chǎn)大模型基礎(chǔ)能力的快速追趕,還是AI原生應(yīng)用開發(fā)的主動進擊,都令人心潮澎湃。

AI原生時代,在各種層面上,都越來越值得期待了。

—  —

點這里??關(guān)注我,記得標星哦~

本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
百度這場發(fā)布會真就把AI帶入了一個新時代
大模型市場轉(zhuǎn)向,科技巨頭改“卷”應(yīng)用
文心大模型4.0引領(lǐng)大模型進入生態(tài)競爭新階段
百度大模型又一次更新,這次李彥宏自信多了
文心大模型4.0發(fā)布!李彥宏:相比GPT
李彥宏和百度,終于“賭贏了”!文心大模型4.0已可以媲美GPT
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服