【新智元導(dǎo)讀】LLM戰(zhàn)場(chǎng)的新玩家,一出手就是王炸!信仰Scaling Law的階躍星辰,一口氣帶來(lái)了Step-1千億參數(shù)語(yǔ)言大模型、Step-1V千億參數(shù)多模態(tài)大模型,以及Step-2萬(wàn)億參數(shù)MoE語(yǔ)言大模型的預(yù)覽版。而階躍星辰之旅,終點(diǎn)就是AGI。
最近,又一家初創(chuàng)公司,加入LLM戰(zhàn)場(chǎng)!
在2024全球開發(fā)者先鋒大會(huì)期間,這家頗為低調(diào)的公司第一次亮相,就讓業(yè)內(nèi)震動(dòng)了一把。
他們一口氣發(fā)了三個(gè)大模型——
Step-1千億參數(shù)語(yǔ)言大模型、Step-1V千億參數(shù)多模態(tài)大模型,以及Step-2萬(wàn)億參數(shù)MoE語(yǔ)言大模型預(yù)覽版。
據(jù)悉,Step-2萬(wàn)億參數(shù)MoE語(yǔ)言大模型預(yù)覽版,還是國(guó)內(nèi)大模型初創(chuàng)公司發(fā)布的首個(gè)萬(wàn)億參數(shù)模型!
百模大戰(zhàn)一年了,這家公司為何此時(shí)高調(diào)現(xiàn)身?
小編深入挖掘,居然發(fā)現(xiàn)了許多值得言說(shuō)的東西。
這個(gè)萬(wàn)億參數(shù)大模型才用一年就誕生的事實(shí)背后,是一個(gè)Scaling Law信仰者的故事。
這一點(diǎn),從公司的名字就可以看出來(lái)——「階躍星辰」。
你們可能已經(jīng)發(fā)現(xiàn)了,公司的名字,其實(shí)來(lái)自于「階躍函數(shù)」。
階躍函數(shù),是人工智能里神經(jīng)網(wǎng)絡(luò)最早的激活函數(shù)
這就讓人自然而然地想到Scaling Law的核心本質(zhì)——當(dāng)模型規(guī)模不斷擴(kuò)大,性能就會(huì)不斷提升,發(fā)生階躍。
最近一周,OpenAI頻頻曝出大動(dòng)作,比如它正聯(lián)合微軟打算豪擲超千億美元,打造一臺(tái)百萬(wàn)芯片的「星際之門」超算。
顯然,要訓(xùn)出GPT-5甚至GPT-6,就意味著人類向AI提供的算力,還要不斷增加。
而在硅基發(fā)展的道路上,AI模型的規(guī)模和性能,是否還會(huì)沿著Scaling Law的路徑不斷攀升?
業(yè)界對(duì)此討論不一,而階躍星辰,則是Scalng Law的篤信者。
由此,他們也對(duì)通往AGI的技術(shù)路徑,有著獨(dú)特的深入理解。
首先當(dāng)然就是,不做「小而美」,而是Scaling到底,讓階躍「Scale-up Possibilities for Everyone」。
另外,Sora最近掀起的滔天巨浪也證明:多模態(tài)是通往AGI的另一個(gè)關(guān)鍵。
力大磚飛的路子,已經(jīng)被跑通。階躍星辰則是國(guó)內(nèi)的打樣者。潛水一年,它在算力、數(shù)據(jù)、算法和系統(tǒng)上兵來(lái)將擋、水來(lái)土掩,如今終于一鳴驚人。路線對(duì)了,四大難關(guān)也被沖破,百模大戰(zhàn)中誰(shuí)能笑到最后?時(shí)間會(huì)給出答案。千億模型霸榜,一手實(shí)測(cè)來(lái)了!
那么接下來(lái),就讓我們看看在千億級(jí)參數(shù)Step-1和Step-1V的加持下,產(chǎn)生的應(yīng)用有多么強(qiáng)大。在這個(gè)過(guò)程中,Step-1V的多模理解能力,尤其引起了小編的注意。躍問(wèn),越愛(ài)問(wèn)
第一款應(yīng)用,是這個(gè)叫「躍問(wèn)」的聊天助手。與ChatGPT類似,它可以幫我們完成信息查詢、語(yǔ)言學(xué)習(xí)、創(chuàng)意寫作、圖文解讀等任務(wù)。此外,它還具備了聯(lián)網(wǎng)搜索、代碼分析增強(qiáng)(POT)等能力,高效理解和回應(yīng)用戶的查詢,提供連貫且相關(guān)的對(duì)話。傳送門:https://stepchat.cn/chats/new憑借Step-1V大模型,「躍問(wèn)」擁有了業(yè)界領(lǐng)先的多模態(tài)內(nèi)容理解能力。它可以能夠識(shí)別真實(shí)世界的萬(wàn)事萬(wàn)物,能夠理解和分析復(fù)雜的金融圖表,甚至還能夠理解熱梗圖片中的深意。先來(lái)一道小學(xué)生們常做的數(shù)學(xué)應(yīng)用題。和人類的答題思路不同,「躍問(wèn)」答題,會(huì)用計(jì)算機(jī)可以理解的語(yǔ)言,通過(guò)執(zhí)行代碼得出結(jié)果。有了「躍問(wèn)」,以后拍照答題確實(shí)省事多了。小編的朋友之前去挪威自駕拍了張照片,不知「躍問(wèn)」能識(shí)別出這個(gè)景點(diǎn)嗎?出人意料的是,它非常成功地識(shí)別出了地點(diǎn),還貼心地給出了出行建議。能夠準(zhǔn)確理解圖中信息,并進(jìn)行總結(jié),「躍問(wèn)」實(shí)力值一鍵拉滿。讀梗是檢驗(yàn)?zāi)P椭悄芩降暮梅椒?,我們?lái)試試躍問(wèn)。難倒不少人類的「莎士比亞搖梨」諧音梗,它解讀得一溜一溜的。米粉們對(duì)于小米造車翹首以盼的期待,它都懂。「我太難了」「南上加南」的國(guó)粹+諧音雙重梗,它也能體察其中詼諧精妙的隱喻。一圖讀懂,長(zhǎng)圖一鍵總結(jié)
另外,躍問(wèn)還提供了一個(gè)「一圖讀懂」工具。打工人們?cè)诠ぷ髦袝r(shí)常會(huì)遇到這種情況,動(dòng)輒幾十萬(wàn)字的政策性文件、通知、財(cái)報(bào)等,需要給出一個(gè)總結(jié)。很多情況下,我們并沒(méi)有足夠的時(shí)間來(lái)仔細(xì)閱讀其內(nèi)容,這時(shí)候,就需要「一圖讀懂」來(lái)登場(chǎng)了!它可以幫我們整理成公眾號(hào)分享的那種長(zhǎng)圖。傳送門:https://stepchat.cn/textposter(上下滑動(dòng)查看全部)
這個(gè)工具最厲害的在于,它能提供我們需要的格式。這其中的玄機(jī)可以舉個(gè)例子說(shuō)明。比如,在上面的例子中,預(yù)留的文字框就只有這么大,如果總結(jié)一千字,就爆了。因此,AI會(huì)根據(jù)模板去總結(jié)合適的字?jǐn)?shù),如果某處需要用表格,它就會(huì)總結(jié)成表格的形式。而這些,都是基于它強(qiáng)大的指令跟隨能力。冒泡鴨
顧名思義,這個(gè)產(chǎn)品,主打的就是一個(gè)好玩。在這個(gè)開放世界里,有無(wú)數(shù)未知的劇情、人物、故事和冒險(xiǎn),讓我們盡情探索。傳送門:https://maopaoya.com/chat開放的劇情互動(dòng)和角色中,有著無(wú)限驚喜。初進(jìn)主頁(yè), 人生重開模擬器Agent,就引起了小編的注意。如果自己是一位出生于1980年、擁有驚人智力和商業(yè)頭腦的男性,會(huì)得到怎樣的人生?這個(gè)Agent,在虛擬之間讓我經(jīng)歷了大起大落的人生體驗(yàn):在90年代末創(chuàng)辦互聯(lián)網(wǎng)公司、擴(kuò)大業(yè)務(wù)范圍、放棄感情選擇專注事業(yè)……不過(guò),在90歲的時(shí)候,我竟然后悔了。而「深度學(xué)習(xí)助手」這個(gè)Agent,也引起了小編的好奇。小編隨意提問(wèn)了兩個(gè)問(wèn)題,這位煉丹專家都回答對(duì)了。「CS頂會(huì)助手」,能幫我們潤(rùn)色論文,提出修改意見(jiàn)。「互聯(lián)網(wǎng)黑話翻譯機(jī)」,能幫我們把這段黑話秒變?nèi)嗽挕?/span>而這位時(shí)常崩潰的bug制造機(jī)的「程序員龐步統(tǒng)」,也頗為引人注目。小編試著問(wèn)了個(gè)問(wèn)題,他圓滿解決。而且沒(méi)想到,他還是個(gè)話癆+表情包愛(ài)好者。這個(gè)慘樣兒,讓小編不忍心再測(cè)試他改bug的水平了,感興趣的讀者可以自己去試試。從以上用例也可以看出,千億參數(shù)模型Step-1和Step-1V基礎(chǔ)實(shí)力,是有多么強(qiáng)大。果然,小編發(fā)現(xiàn),它們?cè)跍y(cè)評(píng)分?jǐn)?shù)中,的確也是表現(xiàn)亮眼。Step-1:千億參數(shù)語(yǔ)言大模型
據(jù)悉,Step-1僅用了2個(gè)月的時(shí)間,一次性完成訓(xùn)練。在邏輯推理、中文知識(shí)、英文知識(shí)、數(shù)學(xué)、代碼方面的性能,Step-1全面超越GPT-3.5。據(jù)介紹,Step-1在模型架構(gòu)、算法與系統(tǒng)上進(jìn)行了創(chuàng)新,擁有優(yōu)秀的長(zhǎng)文理解和生成能力、多輪指令跟隨能力以及現(xiàn)場(chǎng)學(xué)習(xí)能力。同時(shí),它還能夠?qū)崿F(xiàn)單卡低比特,超長(zhǎng)文本的高效推理。Step-1V:千億參數(shù)多模態(tài)大模型
Step-1V擁有出色的圖像理解、多輪指令跟隨、數(shù)學(xué)、邏輯推理、文本創(chuàng)作等能力。在中國(guó)權(quán)威的大型模型評(píng)估平臺(tái)「司南」(OpenCompass)多模態(tài)模型評(píng)測(cè)榜單中,Step-1V位列第一,性能比肩GPT-4V。Step-1V可以精準(zhǔn)描述和理解圖像中的文字、數(shù)據(jù)、圖表等信息,并根據(jù)圖像信息實(shí)現(xiàn)內(nèi)容創(chuàng)作、邏輯推理、數(shù)據(jù)分析等多項(xiàng)任務(wù)。然而,千億參數(shù)模型,只是階躍星辰在攀登AGI路上邁出的第一步。下一步,當(dāng)然就是沿著Scaling Law做到極致。破關(guān)「鐵人四項(xiàng)」超級(jí)工程
上文已經(jīng)提到,階躍星辰是Scaling Law的堅(jiān)定信仰者。Scaling Law這一概念,是由OpenAI團(tuán)隊(duì)在2020年首次提出。論文地址:https://arxiv.org/pdf/2001.08361.pdf通過(guò)Scaling Law可以預(yù)測(cè)出,在參數(shù)量、數(shù)據(jù)量以及訓(xùn)練計(jì)算量這三個(gè)因素變動(dòng)時(shí),大模型性能損失值(loss)的變化。由此,OpenAI有了在數(shù)據(jù)以及參數(shù)規(guī)模上Scaling的信心。同年5月,爆火全球的1750億參數(shù)大模型GPT-3誕生。23年橫空出世的GPT-4曾被爆料有1.8萬(wàn)億參數(shù)。而要實(shí)現(xiàn)接近人類水平的大模型,最少擁有200萬(wàn)億的參數(shù)。顯然,當(dāng)前大模型的參數(shù)量,還遠(yuǎn)遠(yuǎn)不夠。同樣,繼Step-1成功之后,階躍星辰團(tuán)隊(duì)立即開展了下一代萬(wàn)億參數(shù)語(yǔ)言大模型Step-2的訓(xùn)練。從千億到萬(wàn)億,參數(shù)量直接增長(zhǎng)了一個(gè)數(shù)量級(jí)。看上去,參數(shù)量只是擴(kuò)大了10倍,但挑戰(zhàn)卻是幾十倍地增長(zhǎng)。不論是對(duì)算力、系統(tǒng),還是對(duì)算法、數(shù)據(jù),都提出了非常高的要求,業(yè)內(nèi)少有公司能做到。「鐵人四項(xiàng)」超級(jí)工程,階躍星辰是層層破關(guān)。算力
業(yè)界傳聞,訓(xùn)萬(wàn)億參數(shù)的GPT-4,用了2.5萬(wàn)張A100。算力支撐,就是訓(xùn)練萬(wàn)億模型要跨越的第一個(gè)障礙。成立伊始,階躍星辰就意識(shí)到算力是重大的戰(zhàn)略資源。通過(guò)自建機(jī)房+云上租用算力,目前,公司已經(jīng)擁有了訓(xùn)練萬(wàn)億參數(shù)模型需要的算力。系統(tǒng)
因?yàn)樗懔Φ南∪焙蛯氋F,訓(xùn)大模型必須要把系統(tǒng)設(shè)計(jì)好,提高算力的利用率。提到系統(tǒng),就必須做到高效且穩(wěn)定。模型訓(xùn)練的時(shí)候,衡量GPU使用效率需要看有效算力輸出(MFU)指標(biāo),這個(gè)數(shù)字比例越高,代表著系統(tǒng)搭建的越好。穩(wěn)定性,就需要系統(tǒng)能夠隨時(shí)檢測(cè)出哪一張卡出現(xiàn)問(wèn)題,然后把任務(wù)進(jìn)行隔離遷移,進(jìn)而不影響整個(gè)訓(xùn)練過(guò)程。穩(wěn)定高效的系統(tǒng)有多重要?真正踩過(guò)坑的人,才會(huì)知道。前段時(shí)間,前谷歌大腦科學(xué)家Yi Tay分享了自己創(chuàng)業(yè)一年的經(jīng)歷:在整個(gè)訓(xùn)大模型的過(guò)程中,最艱難的是從頭搭建系統(tǒng),而且從算力提供商、硬件質(zhì)量等多個(gè)方面分析了,芯片就是LLM時(shí)代的硬件彩票。
而在這方面,階躍星辰團(tuán)隊(duì)硬是憑著先進(jìn)的系統(tǒng)經(jīng)驗(yàn),積累了單集群萬(wàn)卡以上的系統(tǒng)建設(shè)與管理實(shí)踐。因此產(chǎn)生的結(jié)果,也是驚人的——在訓(xùn)練千億模型時(shí),MFU(有效算力輸出)直接達(dá)到了57%!數(shù)據(jù)
還有一個(gè)重要的因素,無(wú)疑就是數(shù)據(jù)了。國(guó)內(nèi)團(tuán)隊(duì)在訓(xùn)練大模型時(shí)普遍面臨的攔路虎,就是中文高質(zhì)量數(shù)據(jù)極度匱乏。比如,常用的Common Crawl數(shù)據(jù)集中,真正能夠給大模型訓(xùn)練的有效數(shù)據(jù)只有0.5%。而階躍星辰團(tuán)隊(duì)則有了一個(gè)令人驚喜的發(fā)現(xiàn):其實(shí),大模型對(duì)語(yǔ)言并不敏感,一個(gè)知識(shí)點(diǎn)不管用中文還是英文,它都能學(xué)會(huì)。于是,階躍星辰團(tuán)隊(duì)選擇用全球語(yǔ)料彌補(bǔ)中文語(yǔ)料的缺失。在非公開的行業(yè)數(shù)據(jù)層面,階躍星辰則與國(guó)內(nèi)優(yōu)秀的數(shù)據(jù)資源實(shí)現(xiàn)深度合作。算法
模型到了萬(wàn)億參數(shù),訓(xùn)練都是用混合專家的稀疏架構(gòu)。MoE怎么訓(xùn)?目前業(yè)內(nèi)鮮有公開資料,全靠團(tuán)隊(duì)去摸索。在Step-2的過(guò)程中,階躍星辰團(tuán)隊(duì)突破了5D并行、極致顯存管理、完全自動(dòng)化運(yùn)維等關(guān)鍵技術(shù),讓訓(xùn)練效率和穩(wěn)定性處于業(yè)界領(lǐng)先水平。最終,Step-2萬(wàn)億參數(shù)大模型,如期交卷了!Step-2采用了「MoE稀疏架構(gòu)」,每個(gè)token都能激活2000億以上的參數(shù)。目前,Step-2發(fā)布的是預(yù)覽版,提供API接口給部分合作伙伴試用。等后續(xù)小編拿到體驗(yàn)機(jī)會(huì),再向大家展示。
去年到現(xiàn)在, OpenAI打法看似紛繁復(fù)雜,發(fā)布GPT系列語(yǔ)言模型、文生圖模型DALL-E、文生視頻模型Sora,投資了具身智能公司Figure,放出Q*計(jì)劃……但在階躍星辰看來(lái),其實(shí)它一直是在沿著一條主線、兩條支線推進(jìn)其AGI計(jì)劃。階躍星辰已經(jīng)發(fā)現(xiàn),通向AGI會(huì)經(jīng)歷三個(gè)階段:- 早期階段是語(yǔ)言、視覺(jué)、聲音各模態(tài)獨(dú)立發(fā)展;- 如今多種模態(tài)走向融合,但融合的并不徹底,理解和生成的任務(wù)還是分開的,造成模型的理解能力強(qiáng)但生成能力弱,或者反之。- 下一步一定是將生成和理解放在一個(gè)模型里。多模態(tài)理解和生成統(tǒng)一后,就可以把模型和「具身智能」結(jié)合起來(lái),讓它去探索這個(gè)世界,與世界進(jìn)行交互。在世界模型的基礎(chǔ)上,再加上復(fù)雜任務(wù)的規(guī)劃、抽象概念歸納的能力,以及超級(jí)對(duì)齊能力,就有可能實(shí)現(xiàn)AGI。階躍星辰認(rèn)為,多模理解和生成的統(tǒng)一是通向AGI的必經(jīng)之路從Step-1千億參數(shù)語(yǔ)言大模型,Step-1V千億參數(shù)多模態(tài)大模型,到Step-2萬(wàn)億參數(shù)MoE語(yǔ)言大模型預(yù)覽版,階躍星辰正按照既定路線,一步一步推進(jìn)大模型研發(fā)。
雖然成立于2023年4月,但這家公司卻在不到一年時(shí)間里,發(fā)布了一系列模型。查看一下團(tuán)隊(duì)背景,才覺(jué)得理所當(dāng)然。創(chuàng)始人和CEO,是前微軟全球副總裁、微軟亞洲互聯(lián)網(wǎng)工程院首席科學(xué)家姜大昕博士。作為自然語(yǔ)言處理領(lǐng)域的全球知名專家,他在機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、自然語(yǔ)言處理和生物信息學(xué)等領(lǐng)域,有著豐富的研究及工程經(jīng)驗(yàn)。核心創(chuàng)始團(tuán)隊(duì)包括系統(tǒng)負(fù)責(zé)人朱亦博博士,和數(shù)據(jù)負(fù)責(zé)人焦斌星博士。朱亦博博士擁有多次單集群萬(wàn)卡以上的系統(tǒng)建設(shè)與管理實(shí)踐經(jīng)驗(yàn)。焦斌星博士此前擔(dān)任微軟必應(yīng)引擎核心搜索團(tuán)隊(duì)負(fù)責(zé)人,負(fù)責(zé)利用數(shù)據(jù)挖掘和NLP算法,優(yōu)化索引和搜索質(zhì)量。如今,大模型的競(jìng)速賽仍然硝煙四起,誰(shuí)能聚集最頂尖的人才和豐厚的戰(zhàn)略資源,就將成為焦點(diǎn)。在這樣的背景下,不打無(wú)準(zhǔn)備之仗的階躍星辰選擇從幕后走向臺(tái)前,釋放出的正是這樣一種信號(hào)——AGI或許并不遙遠(yuǎn),智能階躍,會(huì)十倍每一個(gè)人的可能。https://stepchat.cn/chats/newhttps://stepchat.cn/textposterhttps://maopaoya.com/chat
本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)
點(diǎn)擊舉報(bào)。