国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
現(xiàn)在起,真正的強者敢于直面「扣子」的「模型廣場」
機(jī)器之心原創(chuàng)
作者:Sia

實時 Pk、“蒙面“ 對壘、大眾點評、定期排名...... 就問敢不敢揭榜?

字節(jié)版 GPTs “扣子”上線后,五年級小學(xué)生都能創(chuàng)建自己的英語外教。

“扣子”有一個相當(dāng)大的優(yōu)勢,就是支持國內(nèi)知名大語言模型作為底座,還免費,許多 “AI bot' 孕育而生。

不過,無限續(xù)杯也有煩惱?!皩W(xué)霸”這么多,挑誰最合適?看跑分?不太懂,也飄渺。要不,大家現(xiàn)場'全開麥“ PK一下?

“扣子”已經(jīng)把舞臺搭好。一個相當(dāng)刺激的新功能“模型廣場”,上線了。

一、“模型廣場”:評測玩出盲盒的樂趣

“扣子”支持國內(nèi)多個知名主流大語言模型作為底座,最新名單除了自家的豆包、通義千問、MiniMax、Moonshot ,新增了智譜 GLM-4 、百川智能 Baichuan4 兩員大將。

名單不斷更新中,截圖時間6月13日

模型參數(shù)、架構(gòu)各有千秋,特點、擅長領(lǐng)域、生成風(fēng)格也不盡相同。一位小朋友用“扣子”做手抄報 Bot 時,就問過一個難倒大人的問題,這些“人”,該選誰啊?誰擅長做手抄報呢?

現(xiàn)在,有了官方指引——一個在線大語言模型對比與評估系統(tǒng)“模型廣場”,大伙兒“物盡其用”的難度會小很多。

你可以將 “模型廣場”視為一個類似“歌手”的競技舞臺,大語言模型“選手”可以不同方式 PK。每一輪對戰(zhàn)結(jié)束,由觀眾(用戶)給結(jié)果投票,看誰表現(xiàn)更好。

為避免先入為主,“選手”匿名出戰(zhàn),用戶投票后才會亮出真實身份。

“模型廣場”支持三種對戰(zhàn)模式。

一個是指定 Bot 對戰(zhàn)。我們在 Bot 列表中選了一個感興趣的 Bot “數(shù)學(xué)老師”。

“扣子”會隨機(jī)選取兩個匿名模型,基于“數(shù)學(xué)老師”  既有工作流、知識庫等能力配置,回答我們挑選的“容斥”問題(如下圖)。

我們?nèi)斯に愠龃鸢?“7”。首先,算出至少參加一科競賽的人數(shù)(15+8+6 -3*2)。然后,從班級總?cè)藬?shù) 30 中減去這個結(jié)果(30-23),即可。

模型 A 很快有了答案,思路清晰簡單,答案正確。

模型 B 把“思考”過程寫得很詳細(xì)、很復(fù)雜,但結(jié)果不對。

評估結(jié)果,有四個選項可選:

我們認(rèn)為“ A 表現(xiàn)更好”,投票后,謎底揭曉。

第二個是隨機(jī) Bot 對戰(zhàn)。

如果說,指定 Bot 對戰(zhàn)適合評估不同“選手”在指定崗位(比如數(shù)學(xué)教學(xué))上的業(yè)務(wù)能力。那么,隨機(jī) Bot 對戰(zhàn)就是現(xiàn)場抽題、即興發(fā)揮,評測“選手”任意業(yè)務(wù)場景下的能力,綜合能力要求更高。

隨機(jī) Bot 對戰(zhàn)模式下,“扣子”(不再是用戶)會從上架的 Bot 中隨機(jī)選一個出戰(zhàn)。我們被隨機(jī)分配到“軍事大模型評估”專家。

“扣子” 會隨機(jī)選擇兩個匿名模型,基于“軍事大模型評估專家” Bot 的編排、工作流、知識庫等能力配置,回答我們的問題。

如何看待孫子兵法的價值?模型 A 的回答,有些片面。

相比之下,模型 B 的回答更為深入、全面。

這一票給 B ,謎底揭曉。

第三個是純模型對戰(zhàn)。

前兩個對戰(zhàn)模式都是基于 Bot ,“選手”會借助工作流等 Bot 配置來完成任務(wù)。

純模型對戰(zhàn)考驗的是大模型“裸”的文本生成能力,Bot 配置帶來的影響都被清空。

針對“老問題”,模型 A 像粗心的小朋友。

思路對、甚至算式都對,結(jié)果計算錯誤(29-6=24?),功虧一簣:

模型 B 簡單利落地解決了問題。

Wait,這答題風(fēng)格看著眼熟,好像見過?

投票給 B ,謎底揭曉??磥?, Baichuan4 數(shù)學(xué)能力確實強一些:

其實,用過 Quora AI 聊天應(yīng)用 Poe 的人,對“純模型對戰(zhàn)“不會陌生。Poe 接入了不少炙手可熱的大模型,可以針對同一任務(wù),直接比較不同大模型的結(jié)果(但不設(shè)投票)。

看看這些回答,如果接入“模型廣場” PK ,GPT-4o 也不見得穩(wěn)操勝券。

二、為何大模型需要“大眾點評”?

紙面指標(biāo)好的模型,不一定在實戰(zhàn)中表現(xiàn)優(yōu)秀。

開發(fā)者和普通用戶追求的是應(yīng)用落地,在“模型廣場”,他們可以直接比較“選手”在真實、具體業(yè)務(wù)場景下表現(xiàn),多維度評估能力,選擇最合適的一個。

當(dāng)然,還有一個關(guān)鍵,不用自己掏錢!

比如,幾輪 PK 后,我們發(fā)現(xiàn) Baichuan4 數(shù)學(xué)能力突出,如果要做數(shù)學(xué)作業(yè) Bot ,肯定會優(yōu)先考慮它;如果輔導(dǎo)低年級語文學(xué)習(xí) Bot ,我們會考慮豆包。

通義千問-Max 文本寫作突出,一份書單推薦也能寫得文采飛揚,看來適合做手抄報設(shè)計 Bot 的底座。

如果要找“六邊形戰(zhàn)士” ,最好三種對戰(zhàn)模式都玩到。你會體感到,有的模型的回答切中要害,但言簡意賅;有的回答豐富詳盡,但稍顯啰嗦;有的擅長多輪對話理解用戶意圖,但知識覆蓋明顯不足。多輪 PK,總能找到最靠近需求的一個。

除了實戰(zhàn)'親測',“模型廣場”還會定期推出大語言模型排行榜。和一些常見大語言模型性能榜單相比,它有兩個明顯不同。

一個是動態(tài)更新,可以持續(xù)納入新的評測任務(wù)和真實用戶反饋,及時反映模型的表現(xiàn)和進(jìn)步。

另一個就是基于人類偏好,就像一個大模型的“大眾點評” 。

其實,LMSYS Org 的大模型競技場 Chatbot Arena 已經(jīng)嘗鮮在前,成為引用次數(shù)最多的大語言模型排行榜之一,被領(lǐng)先的大模型開發(fā)商和公司廣泛引用。

至于為什么要納入人類偏好,“扣子”也有自己的解釋:

“對于 Chat-GPT 等對齊過人類偏好的對話模型,往往需要一些半開放或開放式問題才能合理評估模型能力,傳統(tǒng) LLM 基準(zhǔn)測試框架在這種場景下可能會略有不足?!?/span>

這是“扣子”推薦的一些賽題。

第一題是一個開放性問題,評估“今朝晴朗可喜”短文,不同評估者可能對同一篇文章有不同的看法和評分標(biāo)準(zhǔn)。

第五題屬于半開放,對于 Tracy 是否應(yīng)該支付生父的醫(yī)療費用,不同評估者的道德觀和價值觀可能不同,導(dǎo)致對答案的評價產(chǎn)生較大差異。

傳統(tǒng)方法確實拿捏不準(zhǔn)答案好壞。一方面,回復(fù)的質(zhì)量無法用客觀指標(biāo)衡量。另一方面,也沒有一成不變的評估程序,判斷不同 Bot 回答的優(yōu)劣。

這個時候,對比不同模型的回復(fù)是一個補強的辦法。另外,就是眾包評測。在“扣子”看來,客戶自己就能判斷出什么是最合適的模型。

當(dāng)然,“模型廣場”為“選手”提供展示機(jī)會的同時,也會將壓力傳給大模型廠商,特別是當(dāng)自家“娃” 表現(xiàn)不佳、排名靠后時。

如果'模型廣場'能帶來良性競爭,對行業(yè)發(fā)展是一件好事。


真實消費場景的數(shù)據(jù),能為大模型的優(yōu)化提供參考。評分排名,可以幫助廠商判斷自己在行業(yè)中的位置,以及與競品的差距。

“模型廣場'聚集了大量對模型性能有強需求的開發(fā)者用戶,對于模型表現(xiàn)突出、口碑良好的廠商而言,這意味著廣闊的潛在客戶群體。

通過'模型廣場',開發(fā)者們可以充分“把脈”前沿大模型,快速開發(fā)和迭代各種創(chuàng)新應(yīng)用,將 AI 生成能力嵌入到各行各業(yè)的場景應(yīng)用,蓬勃 AIGC 生態(tài)。

三、“這東西,你真能用得上!”

“模型廣場”上線時,扣子還聯(lián)合 Intel 推出的一個主題 Bot 征集活動,叫扣子 AI 工坊( Coze AI Factory )。

聚焦圖文創(chuàng)作、實用工具、互動創(chuàng)意三個賽道,未成年人也能參與,還有上萬元獎金可以拿。

“扣子” 定位在平臺,不難看出,為求取最大的使用量,他們將心思都傾注在了 “你也能上手 DIY ”。

確實,毫無編程背景,我們曾在一分鐘內(nèi)搞定一個 Bot,盡管是“毛坯”。

“裝修”也不費力。因為,為拓展 Bot 的各種技能,插件甚至開發(fā)者關(guān)心的工作流都有了商店。你要做的就是“選中”+“添加”。

除了技能插件,還有知識庫、數(shù)據(jù)庫、長期記憶等,讓 “AI Bot ”變得更加個性化和本地化。

為了有更好的交互體驗,”扣子”還支持配置開場白、快捷指令、背景圖片、語音等。

當(dāng)然,最特別的一點是,“扣子”可以將構(gòu)建的 Bot 直接發(fā)布到飛書和微信等平臺,無縫嵌入到你的生產(chǎn)力工具中。

至此,除了力壓開發(fā)難度和成本,“扣子”又將 AI 應(yīng)用的運營難度、成本,一降再降,并完成閉環(huán)。

經(jīng)歷了過去一年的大語言模型熱,國內(nèi)的玩家們也都明白,產(chǎn)品要有商業(yè)落地才能活下去。

最近有新聞報道,在過去六個月時間里,OpenAI 年收入增長了一倍多,大部分收入來自 ChatGPT 等聊天機(jī)器人訂閱費,以及軟件開發(fā)人員付費訪問模型 API 。

字節(jié)也為 AIGC 產(chǎn)品規(guī)劃了兩條路徑,一個是賦能既有業(yè)務(wù),另一個就是卡位不同賽道,開發(fā)對應(yīng)的 AI 原生產(chǎn)品?!翱圩印闭敲嫦虼竽P?C 端應(yīng)用做的探索。

在強大技術(shù)實力、豐富的數(shù)據(jù)資源和廣泛應(yīng)用場景加持下,期待“扣子”接下來的一路生花。

本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
字節(jié)扣子模型廣場,給AI大模型搭了一座擂臺
中國版 LMSYS 來了!扣子模型廣場帶來了什么?
AI 實戰(zhàn):手把手教你使用「扣子/coze」來搭建個人blog知識庫
字節(jié)跳動的大模型實力,終于藏不住了!
字節(jié)“扣子”上線 AI聊天機(jī)器人升溫
保姆級教程:Coze 打工你躺平
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服