性感美女诱惑写真视频,宋茜屋顶着火舞蹈视频教学

現(xiàn)在起，真正的強者敢于直面「扣子」的「模型廣場」

天承辦公室 >《022機(jī)器之心》

2024.06.16 北京

關(guān)注

機(jī)器之心原創(chuàng)

作者：Sia

實時 Pk、“蒙面“ 對壘、大眾點評、定期排名...... 就問敢不敢揭榜？

字節(jié)版 GPTs “扣子”上線后，五年級小學(xué)生都能創(chuàng)建自己的英語外教。

“扣子”有一個相當(dāng)大的優(yōu)勢，就是支持國內(nèi)知名大語言模型作為底座，還免費，許多 “AI bot' 孕育而生。

不過，無限續(xù)杯也有煩惱?！皩W(xué)霸”這么多，挑誰最合適？看跑分？不太懂，也飄渺。要不，大家現(xiàn)場'全開麥“ PK一下？

“扣子”已經(jīng)把舞臺搭好。一個相當(dāng)刺激的新功能“模型廣場”，上線了。

一、“模型廣場”：評測玩出盲盒的樂趣

“扣子”支持國內(nèi)多個知名主流大語言模型作為底座，最新名單除了自家的豆包、通義千問、MiniMax、Moonshot ，新增了智譜 GLM-4 、百川智能 Baichuan4 兩員大將。

名單不斷更新中，截圖時間6月13日

模型參數(shù)、架構(gòu)各有千秋，特點、擅長領(lǐng)域、生成風(fēng)格也不盡相同。一位小朋友用“扣子”做手抄報 Bot 時，就問過一個難倒大人的問題，這些“人”，該選誰啊？誰擅長做手抄報呢？

現(xiàn)在，有了官方指引——一個在線大語言模型對比與評估系統(tǒng)“模型廣場”，大伙兒“物盡其用”的難度會小很多。

你可以將 “模型廣場”視為一個類似“歌手”的競技舞臺，大語言模型“選手”可以不同方式 PK。每一輪對戰(zhàn)結(jié)束，由觀眾（用戶）給結(jié)果投票，看誰表現(xiàn)更好。

為避免先入為主，“選手”匿名出戰(zhàn)，用戶投票后才會亮出真實身份。

“模型廣場”支持三種對戰(zhàn)模式。

一個是指定 Bot 對戰(zhàn)。我們在 Bot 列表中選了一個感興趣的 Bot “數(shù)學(xué)老師”。

“扣子”會隨機(jī)選取兩個匿名模型，基于“數(shù)學(xué)老師” 既有工作流、知識庫等能力配置，回答我們挑選的“容斥”問題（如下圖）。

我們?nèi)斯に愠龃鸢?“7”。首先，算出至少參加一科競賽的人數(shù)（15+8+6 -3*2）。然后，從班級總?cè)藬?shù) 30 中減去這個結(jié)果（30-23），即可。

模型 A 很快有了答案，思路清晰簡單，答案正確。

模型 B 把“思考”過程寫得很詳細(xì)、很復(fù)雜，但結(jié)果不對。

評估結(jié)果，有四個選項可選：

我們認(rèn)為“ A 表現(xiàn)更好”，投票后，謎底揭曉。

第二個是隨機(jī) Bot 對戰(zhàn)。

如果說，指定 Bot 對戰(zhàn)適合評估不同“選手”在指定崗位（比如數(shù)學(xué)教學(xué)）上的業(yè)務(wù)能力。那么，隨機(jī) Bot 對戰(zhàn)就是現(xiàn)場抽題、即興發(fā)揮，評測“選手”任意業(yè)務(wù)場景下的能力，綜合能力要求更高。

隨機(jī) Bot 對戰(zhàn)模式下，“扣子”（不再是用戶）會從上架的 Bot 中隨機(jī)選一個出戰(zhàn)。我們被隨機(jī)分配到“軍事大模型評估”專家。

“扣子” 會隨機(jī)選擇兩個匿名模型，基于“軍事大模型評估專家” Bot 的編排、工作流、知識庫等能力配置，回答我們的問題。

如何看待孫子兵法的價值？模型 A 的回答，有些片面。

相比之下，模型 B 的回答更為深入、全面。

這一票給 B ，謎底揭曉。

第三個是純模型對戰(zhàn)。

前兩個對戰(zhàn)模式都是基于 Bot ，“選手”會借助工作流等 Bot 配置來完成任務(wù)。

純模型對戰(zhàn)考驗的是大模型“裸”的文本生成能力，Bot 配置帶來的影響都被清空。

針對“老問題”，模型 A 像粗心的小朋友。

思路對、甚至算式都對，結(jié)果計算錯誤（29-6=24？），功虧一簣：

模型 B 簡單利落地解決了問題。

Wait，這答題風(fēng)格看著眼熟，好像見過？

投票給 B ，謎底揭曉?？磥?， Baichuan4 數(shù)學(xué)能力確實強一些：

其實，用過 Quora AI 聊天應(yīng)用 Poe 的人，對“純模型對戰(zhàn)“不會陌生。Poe 接入了不少炙手可熱的大模型，可以針對同一任務(wù)，直接比較不同大模型的結(jié)果（但不設(shè)投票）。

看看這些回答，如果接入“模型廣場” PK ，GPT-4o 也不見得穩(wěn)操勝券。

二、為何大模型需要“大眾點評”？

紙面指標(biāo)好的模型，不一定在實戰(zhàn)中表現(xiàn)優(yōu)秀。

開發(fā)者和普通用戶追求的是應(yīng)用落地，在“模型廣場”，他們可以直接比較“選手”在真實、具體業(yè)務(wù)場景下表現(xiàn)，多維度評估能力，選擇最合適的一個。

當(dāng)然，還有一個關(guān)鍵，不用自己掏錢！

比如，幾輪 PK 后，我們發(fā)現(xiàn) Baichuan4 數(shù)學(xué)能力突出，如果要做數(shù)學(xué)作業(yè) Bot ，肯定會優(yōu)先考慮它；如果輔導(dǎo)低年級語文學(xué)習(xí) Bot ，我們會考慮豆包。

通義千問-Max 文本寫作突出，一份書單推薦也能寫得文采飛揚，看來適合做手抄報設(shè)計 Bot 的底座。

如果要找“六邊形戰(zhàn)士” ，最好三種對戰(zhàn)模式都玩到。你會體感到，有的模型的回答切中要害，但言簡意賅；有的回答豐富詳盡,但稍顯啰嗦；有的擅長多輪對話理解用戶意圖，但知識覆蓋明顯不足。多輪 PK，總能找到最靠近需求的一個。

除了實戰(zhàn)'親測'，“模型廣場”還會定期推出大語言模型排行榜。和一些常見大語言模型性能榜單相比，它有兩個明顯不同。

一個是動態(tài)更新，可以持續(xù)納入新的評測任務(wù)和真實用戶反饋，及時反映模型的表現(xiàn)和進(jìn)步。

另一個就是基于人類偏好，就像一個大模型的“大眾點評” 。

其實，LMSYS Org 的大模型競技場 Chatbot Arena 已經(jīng)嘗鮮在前，成為引用次數(shù)最多的大語言模型排行榜之一，被領(lǐng)先的大模型開發(fā)商和公司廣泛引用。

至于為什么要納入人類偏好，“扣子”也有自己的解釋：

“對于 Chat-GPT 等對齊過人類偏好的對話模型，往往需要一些半開放或開放式問題才能合理評估模型能力，傳統(tǒng) LLM 基準(zhǔn)測試框架在這種場景下可能會略有不足?！?/span>

這是“扣子”推薦的一些賽題。

第一題是一個開放性問題，評估“今朝晴朗可喜”短文，不同評估者可能對同一篇文章有不同的看法和評分標(biāo)準(zhǔn)。

第五題屬于半開放，對于 Tracy 是否應(yīng)該支付生父的醫(yī)療費用，不同評估者的道德觀和價值觀可能不同，導(dǎo)致對答案的評價產(chǎn)生較大差異。

傳統(tǒng)方法確實拿捏不準(zhǔn)答案好壞。一方面，回復(fù)的質(zhì)量無法用客觀指標(biāo)衡量。另一方面，也沒有一成不變的評估程序，判斷不同 Bot 回答的優(yōu)劣。

這個時候，對比不同模型的回復(fù)是一個補強的辦法。另外，就是眾包評測。在“扣子”看來，客戶自己就能判斷出什么是最合適的模型。

當(dāng)然，“模型廣場”為“選手”提供展示機(jī)會的同時，也會將壓力傳給大模型廠商，特別是當(dāng)自家“娃” 表現(xiàn)不佳、排名靠后時。

如果'模型廣場'能帶來良性競爭，對行業(yè)發(fā)展是一件好事。

真實消費場景的數(shù)據(jù)，能為大模型的優(yōu)化提供參考。評分排名，可以幫助廠商判斷自己在行業(yè)中的位置，以及與競品的差距。

“模型廣場'聚集了大量對模型性能有強需求的開發(fā)者用戶，對于模型表現(xiàn)突出、口碑良好的廠商而言，這意味著廣闊的潛在客戶群體。

通過'模型廣場'，開發(fā)者們可以充分“把脈”前沿大模型，快速開發(fā)和迭代各種創(chuàng)新應(yīng)用，將 AI 生成能力嵌入到各行各業(yè)的場景應(yīng)用，蓬勃 AIGC 生態(tài)。

三、“這東西，你真能用得上！”

“模型廣場”上線時，扣子還聯(lián)合 Intel 推出的一個主題 Bot 征集活動，叫扣子 AI 工坊（ Coze AI Factory ）。

聚焦圖文創(chuàng)作、實用工具、互動創(chuàng)意三個賽道，未成年人也能參與，還有上萬元獎金可以拿。

“扣子” 定位在平臺，不難看出，為求取最大的使用量，他們將心思都傾注在了 “你也能上手 DIY ”。

確實，毫無編程背景，我們曾在一分鐘內(nèi)搞定一個 Bot，盡管是“毛坯”。

“裝修”也不費力。因為，為拓展 Bot 的各種技能，插件甚至開發(fā)者關(guān)心的工作流都有了商店。你要做的就是“選中”+“添加”。

除了技能插件，還有知識庫、數(shù)據(jù)庫、長期記憶等，讓 “AI Bot ”變得更加個性化和本地化。

為了有更好的交互體驗，”扣子”還支持配置開場白、快捷指令、背景圖片、語音等。

當(dāng)然，最特別的一點是，“扣子”可以將構(gòu)建的 Bot 直接發(fā)布到飛書和微信等平臺，無縫嵌入到你的生產(chǎn)力工具中。

至此，除了力壓開發(fā)難度和成本，“扣子”又將 AI 應(yīng)用的運營難度、成本，一降再降，并完成閉環(huán)。

經(jīng)歷了過去一年的大語言模型熱，國內(nèi)的玩家們也都明白，產(chǎn)品要有商業(yè)落地才能活下去。

最近有新聞報道，在過去六個月時間里，OpenAI 年收入增長了一倍多，大部分收入來自 ChatGPT 等聊天機(jī)器人訂閱費，以及軟件開發(fā)人員付費訪問模型 API 。

字節(jié)也為 AIGC 產(chǎn)品規(guī)劃了兩條路徑，一個是賦能既有業(yè)務(wù)，另一個就是卡位不同賽道，開發(fā)對應(yīng)的 AI 原生產(chǎn)品?！翱圩印闭敲嫦虼竽Ｐ?C 端應(yīng)用做的探索。

在強大技術(shù)實力、豐富的數(shù)據(jù)資源和廣泛應(yīng)用場景加持下，期待“扣子”接下來的一路生花。

本站僅提供存儲服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請點擊舉報。

打開APP，閱讀全文并永久保存查看更多類似文章

字節(jié)扣子模型廣場，給AI大模型搭了一座擂臺

中國版 LMSYS 來了！扣子模型廣場帶來了什么？

AI 實戰(zhàn)：手把手教你使用「扣子/coze」來搭建個人blog知識庫

字節(jié)跳動的大模型實力，終于藏不住了！

字節(jié)“扣子”上線 AI聊天機(jī)器人升溫

保姆級教程：Coze 打工你躺平

更多類似文章 >>

国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看