国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
大模型開啟「長」時代,楊植麟的新公司把對話框容量做到了世界第一

機(jī)器之心原創(chuàng)

作者:張倩

雖然我們不知道誰是下一個 OpenAI,但是似乎找到了另一個 Anthropic。

最近,大模型創(chuàng)投領(lǐng)域又發(fā)生了一件大事:大模型初創(chuàng)公司 Anthropic 獲得了亞馬遜 40 億美元的融資。該筆融資幾天后,又有消息傳出,谷歌等也要向這家公司再投 20 億美元。聽到這些消息,不少人可能會問,這家公司有何過人之處?別急,我們來問一下新必應(yīng)。

新必應(yīng)的答案顯示,在大模型方向上,除了一支優(yōu)秀的團(tuán)隊,Anthropic 在技術(shù)上也非常領(lǐng)先,尤其在大模型支持的上下文窗口方面。

上下文窗口有多重要?回想一下使用 ChatGPT 處理長文的經(jīng)歷,你是不是也經(jīng)常收到「文本過長」的提示?這是因為 ChatGPT 至多只支持 32k tokens(約 2.5 萬漢字)的上下文。這一限制讓很多行業(yè)的從業(yè)人員都很頭疼,尤其是律師、分析師、咨詢師、prompt 工程師等需要分析、處理較長文本的工作。

此外, token 數(shù)量的限制還會導(dǎo)致模型「忘記」之前對話的重要信息,或者加重模型「幻覺」,就像 Character.AI 等聊天 AI 產(chǎn)品的用戶所抱怨的那樣。

為了解決這些問題,Anthropic 在其產(chǎn)品 Claude 2.0 中提供了 100k tokens(實測約 8 萬漢字)的上下文窗口,大大擴(kuò)展了其產(chǎn)品的應(yīng)用空間。

那么,如果這個窗口再大一點呢?

這是國內(nèi)大模型初創(chuàng)公司 Moonshot AI 推出的大模型智能助手 Kimi Chat,擁有超長的上下文窗口。在動圖展示的例子中,Kimi Chat 接收到的上下文達(dá)到了 15 萬字,而實測中我們發(fā)現(xiàn),它甚至能一次處理 20 萬字,大約是 Claude 2.0 中文上下文窗口的 2.5 倍,是全球市場上能夠產(chǎn)品化使用的大模型服務(wù)中所能支持的最長上下文輸入長度。GPT-4 等英文為基礎(chǔ)的模型產(chǎn)品需要做到接近 250k tokens 才能獲得與 Kimi Chat 同等的漢字上下文窗口。

那么,這么大的上下文窗口用起來是一種怎樣的體驗?Moonshot AI 是怎么做到這一點的?在該功能開放內(nèi)測之際,機(jī)器之心在第一時間拿到了內(nèi)測資格并進(jìn)行了測評,同時也和 Moonshot AI 的技術(shù)團(tuán)隊聊了一些技術(shù)細(xì)節(jié)以及他們對該技術(shù)的思考,希望能給國內(nèi)關(guān)注大模型技術(shù)與應(yīng)用的讀者一些啟發(fā)。

原來,不用擔(dān)心文本過長是這種感覺

打開「KIMI」的測試頁面,我們可以看到,它有一個簡單的對話框,對話框的右側(cè)有幾個按鈕,分別是網(wǎng)絡(luò)開關(guān)和文件上傳按鈕。這意味著,KIMI 不僅能分析我們提供的資料,還能在必要時自己上網(wǎng)查找,看起來非??孔V。


既然 KIMI 的強(qiáng)項是處理長文本,那我們就選一些長文本的場景來測試一下。第一份材料是《中華人民共和國刑事訴訟法》和《最高法關(guān)于適用〈中華人民共和國刑事訴訟法〉的解釋》組合起來的一份 word 材料,篇幅超過 12 萬字,一般的大語言模型都無法處理。在詢問了幾個比較具體的問題后,我們發(fā)現(xiàn),KIMI 能夠根據(jù)材料回答大部分問題,并給出答案依據(jù):

如果問題超出了材料所給的范圍,它會自己上網(wǎng)檢索相關(guān)內(nèi)容,并歸納出答案,這是一種跨文檔的文本處理能力。

值得注意的是,KIMI 在回答一些比較綜合的問題時會結(jié)合多個法條,并在消化了這些條款內(nèi)容的前提下,用自己的語言重新組織邏輯清晰的答案。


這種貫穿全文的強(qiáng)大理解能力在小說的測試中表現(xiàn)得更為明顯。這里我們選取的是科幻小說《三體 1》,雖然小說有 20 萬字,但 KIMI 能把它全部讀下來,并梳理人物故事線等信息:

當(dāng)我們問及小說后半部分的內(nèi)容以及需要結(jié)合上下文理解的某些概念的引申含義時,KIMI 回答起來也毫無壓力:

既然 KIMI 展現(xiàn)出了如此強(qiáng)大的上下文記憶能力,那多輪對話想必也能輕松應(yīng)對。于是,在另一項測試中,我們選取了《原神》人物胡桃的百科信息,讓 KIMI 在掌握胡桃全部信息的基礎(chǔ)上模仿后者與我們對話,就像科幻作品里的「數(shù)字生命」一樣。當(dāng)前大多數(shù)角色扮演類 AI 是消化不了這么多角色背景信息的,因此聊天過程中很容易讓人喪失沉浸感。

基于大模型設(shè)計的文字游戲玩家抱怨角色設(shè)定信息少,輸出缺乏邏輯性。

同樣的,我們也用《三體》試了一下,讓 KIMI 模仿大史說話,效果也非常不錯:

重要的是,這種基于長文本的多輪對話能力在科研、教育等場景中也非常實用,比如它可以解讀最近很火的微軟 GPT-4V 使用體驗論文:

幾輪體驗下來,可以明顯感覺到,當(dāng)上下文窗口擴(kuò)展到 20 萬字,我們能用大模型做的事情突然就多了很多。由于大部分文本材料都不會超過這個數(shù)字,我們終于不用再去一個一個檢查字?jǐn)?shù),也不用擔(dān)心和模型聊多了話題戛然而止。這是一種非常流暢的體驗,也讓人有信心去探索更多使用場景。

超長上下文窗口,實現(xiàn)起來有多難?

既然擴(kuò)大上下文窗口如此有效,那為什么市面上現(xiàn)有的各路大模型大多還局限在 32k 或以下的 token 長度呢?這是因為,實現(xiàn)模型對超長上下文的處理在訓(xùn)練算法和工程實現(xiàn)上都面臨著艱巨的挑戰(zhàn)。

首先,從訓(xùn)練層面來看,想得到一個支持足夠長上下文長度的模型,不可避免地要面對如下困難:

  • 如何讓模型能在數(shù)十萬 tokens 的上下文窗口中,準(zhǔn)確地關(guān)注到所需要的內(nèi)容?

  • 如何讓模型在適應(yīng)長文本工作方式時,不降低其原有的基礎(chǔ)能力?

  • 由超長上下文窗口帶來的更高的算力需求和極嚴(yán)重的顯存壓力,如何在傳統(tǒng)的 3D 并行方案之外尋找到更多的并行空間?

  • 缺乏充足的高質(zhì)量長序列數(shù)據(jù),如何提供更多的有效數(shù)據(jù)給模型訓(xùn)練?

從推理層面來看,在獲得了支持超長上下文的模型后,如何讓模型能服務(wù)眾多用戶,同樣要面臨一番挑戰(zhàn):

  • 一是 Transformer 模型中自注意力機(jī)制的計算量會隨著上下文長度的增加呈平方級增長,比如上下文增加 32 倍時,計算量實際會增長 1000 倍,這會導(dǎo)致用戶需要等待極長的時間才能獲得反饋;

  • 二是長下上文推理需要的顯存容量巨大:以 1750 億參數(shù)的 GPT-3 為例(GPT-4、Claude 等模型參數(shù)量未知,故無法估算),目前最高單機(jī)配置 (80 GiB * 8) 最多只能支持 64k 上下文長度的推理,超長文本對顯存的要求可見一斑;

  • 三是目前的顯存帶寬無法滿足需求:英偉達(dá) A800 或 H800 的顯存帶寬高達(dá) 2-3 TiB/s,但面對如此長的上下文,若只通過一些樸素的基本處理方法,生成速度只能達(dá)到 2~5 token/s,使用的體驗極其卡頓。

當(dāng)然,上述問題的解決存在一些「捷徑」,但這些捷徑往往都是以犧牲模型性能為代價的,導(dǎo)致模型的應(yīng)用價值大打折扣, 典型的做法包括:

首先,最容易想到的就是把模型做小,通過把參數(shù)減少到百億來提升上下文長度。但模型小了之后,能力也會顯著下降,大量任務(wù)都無法勝任,就像未發(fā)育完全的蝌蚪。

其次,你可以讓模型「問哪兒看哪兒」,就像只能在特定花蕊上采蜜的蜜蜂,無法關(guān)注到整體信息。這通常是通過對上下文的降采樣或者 RAG(檢索增強(qiáng)生成)方法來實現(xiàn)的,讓模型只關(guān)注和問題直接相關(guān)的部分,減少計算量。但如此一來,模型就無法回答那些需要基于全文理解來回答的問題(例如從 50 個簡歷中對候選人的畫像進(jìn)行歸納和總結(jié)),能力大打折扣。

最后,你還可以讓模型「邊看邊忘」,只讓它記住最新的輸入,就像只有 7 秒鐘記憶的金魚一樣。但很明顯,這種方法也做不到理解全文,尤其是跨文檔的長文本的綜合理解(比如從一篇 10 萬字的用戶訪談錄音轉(zhuǎn)寫中提取最有價值的 10 個觀點)。

總之,這些所謂的捷徑都無法達(dá)到理想的產(chǎn)品化效果。為了讓模型真正解決問題,從好技術(shù)變成好產(chǎn)品,Moonshot AI 選擇直面挑戰(zhàn),從多個角度去解決長上下文窗口的技術(shù)難題。

在模型訓(xùn)練方面,業(yè)界已經(jīng)有不少通過相對位置編碼外推來低成本地實現(xiàn)超長上下文的模型,在各項 benchmark 中分?jǐn)?shù)也非常高,但 Moonshot AI 發(fā)現(xiàn),這類模型在實際的工作場景中并不能達(dá)到預(yù)期的效果。因此 Moonshot AI 選擇直面困難,逐一解決上述問題。

總體來看,他們從如下幾個大方向入手來改善訓(xùn)練中遇到的問題:

  • 在傳統(tǒng)的 Tensor 并行、Data 并行、Pipeline 并行基礎(chǔ)上,增加了多項基于 Seqence 維度的并行策略,提升了并行效率;

  • 利用定制版的 Flash Attention、Fuse Cross Entropy、CPU offload 等技術(shù)大幅度降低了顯存壓力;

  • 使用了創(chuàng)新的訓(xùn)練方法,針對性地調(diào)配了多階段式訓(xùn)練方法,讓模型保留基礎(chǔ)能力的前提下,逐步激活長上下文的能力。

當(dāng)然,模型訓(xùn)練是一項外科手術(shù)般精密的工作,每一個細(xì)節(jié)都不能出差錯。因此,除了上述幾個大方向外,Moonshot AI 還在算法穩(wěn)定性、顯存占用、數(shù)據(jù)分布等方面進(jìn)行了上百項優(yōu)化。在強(qiáng)大的工程和算法能力加持下,他們最終讓直接訓(xùn)練超長上下文模型成為可能。

模型有了,接下來還要優(yōu)化推理成本,以保證大量用戶都能高效、低成本地使用模型。為此,Moonshot AI 探索了諸多方案,比如:

  • 用 GQA 替換 MHA:讓 KVCache 所占用的顯存大小大幅度縮小

  • Paged attention:保證顯存的充分利用;

  • 低比特量化:通過 W8A8,至多可以把推理速度在上述基礎(chǔ)上再提升一倍;

  • MoE & KVCache 裁減:讓顯存占用在上述基礎(chǔ)上再下降一倍;

此外,Moonshot AI 通過極高的工程代碼質(zhì)量,將所有的 overhead 降到最低,使得代碼性能不斷逼近理論上限,從而構(gòu)筑了高效推理的基礎(chǔ)。

通過組合這些關(guān)鍵技術(shù),Moonshot AI 在超長文本下依然可以讓大量用戶同時獲得良好的使用體驗,并且擁有了在文本長度和推理速度間靈活權(quán)衡的空間,其極限可處理的上下文長度上限更是可以達(dá)到 150 萬字以上,相當(dāng)于可以一次讓模型處理《三國演義》加《西游記》兩本名著。

大模型能力的二元性:為什么要死磕「長上下文窗口」?

今年年初,在 GPT-4 問世之前,一個號稱「GPT-4 有 100 萬億個參數(shù)」的謠言引發(fā)了不少關(guān)注。在無數(shù)次被轉(zhuǎn)發(fā)后,很多人信以為真,導(dǎo)致 OpenAI 首席執(zhí)行官 Sam Altman 不得不親自出來辟謠。這也在一定程度上反映了大模型領(lǐng)域?qū)τ趨?shù)量的一種「崇拜」。

誠然,參數(shù)量對于大模型的能力高低十分重要,是大模型出現(xiàn)「涌現(xiàn)」現(xiàn)象的一道門檻。但除此之外呢?還有哪些方向沒有得到足夠的重視?在 Moonshot AI 看來,長上下文窗口就是其中之一。

我們知道,在傳統(tǒng)計算中有兩個核心原則:計算是按照順序逐步進(jìn)行的;每一步都有有限的復(fù)雜度容量。大型語言模型可以被看作是進(jìn)化了的計算實體,所以 Moonshot AI 認(rèn)為大模型能夠達(dá)到的最高水平由兩個因素決定:單步驟的容量(即模型在每一步中可以處理的信息量,對應(yīng)參數(shù)量)和執(zhí)行的步驟數(shù)(即模型能夠處理的上下文長度)。

目前,大部分大模型研究都集中在增加模型參數(shù)量的大小,即增強(qiáng)「單步驟容量」。但 Moonshot AI 認(rèn)為,在保持一定參數(shù)量的同時放大另一個維度,即「步驟數(shù)」或上下文長度也同樣重要。就像我們在實測中所看到的,上下文窗口就像大模型應(yīng)用的新「內(nèi)存」,窗口越大,用戶能用它做的事情就越廣泛;同時,窗口所能容納的信息越多,模型在生成下一個 token 時可以參考的信息就越多,「幻覺」發(fā)生的可能性就越小,生成的信息就越準(zhǔn)確。這是大模型技術(shù)落地的必要條件。

不過,更為重要的是,Moonshot AI 已經(jīng)看到,超長上下文窗口其實是大模型技術(shù)未來發(fā)展的必由之路。

如今,以 OpenAI 為代表,幾乎所有的頭部大模型企業(yè)都會走多模態(tài)技術(shù)道路,因為人類文明的總和不止以文字的形式存在硬盤上,還隱藏于海量的語音、圖像、視頻等數(shù)據(jù)形態(tài)中。Moonshot AI 創(chuàng)始人楊植麟曾提到,他們相信對海量數(shù)據(jù)的無損壓縮可以實現(xiàn)高程度的智能。而無損壓縮等同于對數(shù)據(jù)聯(lián)合概率分布的預(yù)測,這就找到了與多模態(tài)數(shù)據(jù)生成的契合點,多模態(tài)數(shù)據(jù)的生成本質(zhì)上也是在做數(shù)據(jù)的聯(lián)合概率分布預(yù)測,所以超長上下文窗口技術(shù)對實現(xiàn)多模態(tài)至關(guān)重要,是一個必須解決的技術(shù)問題。

大模型「登月計劃」第一步:歡迎來到 Long LLM 時代

能選出一個有前景的方向是一回事,能不能做成又是另外一回事,畢竟超長上下文窗口打造起來并非易事,需要非常強(qiáng)的算法和工程能力。對此,楊植麟采取了和 Anthropic 類似的策略:提高人才密度。

目前,Moonshot AI 的整個團(tuán)隊人數(shù)超過了 60 人,這些人絕大部分都是擁有世界級影響力工作的大模型專家,比如楊植麟本人提出的 Transformer-XL 是歷史上第一個在詞級別和字級別都全面超越 RNN 的注意力語言模型,解決了語言建模上下文長度的關(guān)鍵問題,定義了語言建模的新標(biāo)準(zhǔn);兩位聯(lián)合創(chuàng)始人 —— 周昕宇和吳育昕 —— 有著五位數(shù)的 Google Scholar 引用,在大模型方面有非常豐富的工程和算法經(jīng)驗。還有一些核心成員參與了 Google Gemini、Bard、盤古、悟道等多個大模型的開發(fā)。在這些人的共同努力下,Moonshot AI 僅用半年時間就打造出了一款世界領(lǐng)先的產(chǎn)品。

這款產(chǎn)品的誕生是有標(biāo)志性意義的,20 萬字以及更長的上下文窗口足以把使用大模型工作的你我從 LLM 時代帶入 L(Long)LLM 時代。在這個時代,我們可以擁有一個能記住與你所有交互細(xì)節(jié)的虛擬伴侶;可以將日常工作中的冗長文件(如合同、研報、財務(wù)報告等)都丟給大模型來處理;還可以針對某個科學(xué)問題, 將跨領(lǐng)域的相關(guān)學(xué)術(shù)論文作為上下文,利用大模型尋求解決問題的新思路…… 可以說,上下文窗口越大,大模型留給用戶的創(chuàng)新空間就越大。

至少日常處理發(fā)票這種工作就不會浪費時間了

此外,Moonshot AI 表示,本次推出的超長上下文產(chǎn)品對于他們來說僅僅是一個起點。隨著對應(yīng)用場景挖掘的逐漸深入以及相應(yīng)技術(shù)的優(yōu)化,他們很快就會開放支持更長上下文以及擁有其他能力的模型。

如果你也想體驗 Kimi Chat 的長文本能力,可以點擊以下鏈接,申請加入內(nèi)測計劃:https://www.moonshot.cn/

本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
AI大模型領(lǐng)域的熱門技術(shù)——Embedding入門介紹以及為什么Embedding在大語言模型中很重要
科普神文,一次性講透AI大模型的核心概念
國內(nèi)大模型遍地開花,都說自研自創(chuàng),但他們背后都是這同一個基礎(chǔ)模型
王小川公布最新大模型,號稱全球最長上下文,是GPT-4的14倍|鈦媒體焦點
vivo發(fā)布自研通用AI大模型藍(lán)心大模型
急了,急了!
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服