本文來自微信公眾號:字母榜,作者:馬舒葉,編輯:王靖,題圖來自:AI生成
梁文鋒帶領著DeepSeek,還在繼續(xù)攪動大模型行業(yè)。
繼用R1模型炸場之后,1月28日凌晨,除夕夜前一晚,DeepSeek又開源了其多模態(tài)模型Janus-Pro-7B,宣布在GenEval和DPG-Bench基準測試中擊敗了DALL-E 3(來自 OpenAI)和Stable Diffusion。
隨后特朗普在會議上提到DeepSeek的出現(xiàn)為美國的企業(yè)敲響了警鐘,“我們需要集中精力在競爭中獲勝”。相隔一天,據(jù)外媒報道,多名美國官員稱DeepSeek是“偷竊”,正對其展開國家安全調(diào)查。
OpenAI也適時發(fā)布聲明稱一直知道其他公司試圖蒸餾美國領先公司的模型,如今“采取反制措施保護我們的知識產(chǎn)權”,并表示將和美國政府緊密合作保護最先進模型免受竊取。
或許梁文鋒自己都想不到,意外火出海的DeepSeek,刺痛著更多人的神經(jīng)。
而一年前,DeepSeek V2模型發(fā)布時,便開始被冠上AI屆拼多多的稱號。
反卷大廠的梁文鋒,早已在AI領域復制過黃崢式“后來居上”的故事,并在國內(nèi)掀起打到骨折的大模型價格戰(zhàn)。
當時,在接受36氪采訪中,梁文鋒表示,“我們不是有意成為一條鯰魚,只是不小心成了一條鯰魚。”
如果說梁文鋒的鯰魚效應,在于證明了用低成本也能高效率訓練出AI大模型,無意卷到了BAT。去年一年,黃仁勛則在制造另一種鯰魚效應,即以每6個月為周期,更新更高性能的芯片,使得害怕?lián)尣坏阶钚翯PU而掉隊的巨頭們,瘋搶英偉達GPU,微軟、谷歌、Meta、馬斯克,都被拽進了這場GPU大作戰(zhàn)游戲里。
一年后,DeepSeek成為硅谷眼中“神秘的東方力量”,被Scale AI創(chuàng)始人亞歷山大·王(Alexandr Wang)評價道,“過去十年來,美國可能一直在人工智能競賽中領先于中國,但DeepSeek的AI大模型發(fā)布可能會'改變一切’?!?/p>
起因是DeepSeek在年前發(fā)布了新的開源模型DeepSeek R1,不僅性能追上了OpenAI o1完整版,用550萬美元的訓練開銷做到硅谷投入上億美元的效果。
在這場熱潮前,大模型的主流敘事是英偉達高端CPU“一芯難求”,而如今,黃仁勛的銷冠神話,迎來了梁文鋒的正面沖擊。
梁文鋒所帶領的DeepSeek,讓美國華爾街開始重新審視,在這場大模型生存戰(zhàn)里,英偉達芯片和高端算力的需求是否存在泡沫。這樣的擔憂,使得英偉達在1月27日一夜蒸發(fā)近6000億美元市值。
而這一切,在梁文鋒看來,只是“按照自己的步調(diào)來做事”,然后核算成本定價。
梁文鋒并非有意成為鯰魚,但正如硅谷著名風投家Marc Andreessen的評價:“作為開源項目,這是對世界的一份深遠饋贈 。”他們節(jié)約了大量的成本,也讓很多高薪的硅谷大佬,和享受這個行業(yè)巨大泡沫的公司,顏面掃地。
1月28日,OpenAI CEO奧特曼終于回應了DeepSeek,他夸贊DeepSeek讓人印象深刻,特別在于提供模型的性價比上。隨后則話鋒一轉,強調(diào)OpenAI將提供更好的模型,并暫停一些發(fā)布。此前,奧特曼在X上迅速發(fā)布首個智能體Operator,還開始劇透起了即將上線的o3-mini。網(wǎng)友戲稱,“DeepSeek逼出了奧特曼的新大招?!?/strong>
同時,根據(jù)外媒爆料,DeepSeek的發(fā)布引發(fā)了Meta的緊急加班,工程師瘋狂拆解代碼,員工爆出其高管的薪資竟比訓練整個V3模型的成本還高。
2025年,不想當鯰魚的梁文鋒,結結實實攪動了一池春水。
“大部分中國公司習慣follow,而不是創(chuàng)新?!倍诓稍L中,對于上一次DeepSeek引發(fā)大模型價格戰(zhàn)的熱議,梁文鋒表示,DeepSeek正以創(chuàng)新貢獻者的身份,參與到這場此前由美國主導的科技創(chuàng)新游戲里。
這位80后AI創(chuàng)業(yè)者,組織起一些Top高校的應屆畢業(yè)生、沒畢業(yè)的博四、博五實習生,還有一些畢業(yè)才幾年的年輕人,他形容團隊成員們,“很多人對做研究的渴望,遠超對錢的在意?!?/strong>
梁文鋒將DeepSeek定義為“硬核創(chuàng)新”,做最難的事,似乎成為他所帶領的DeepSeek的一致認知。
在鯰魚的外觀之下,DeepSeek在梁文鋒眼中,內(nèi)里則滿是技術理想主義的敘事。
此前,梁文鋒曾斷言,“中國必然需要有人站到技術的前沿”。而這一次,DeepSeek先踏上浪頭,但無論是鯰魚梁文鋒,還是“技術理想主義者”梁文鋒,要回答的問題還很多、很多。
一
這次DeepSeek的出圈,總少不了與OpenAI的對比。更有網(wǎng)友調(diào)侃,“DeepSeek活成了真OpenAI(開放模型),而OpenAI活成了close AI(封閉模型)”。
實際上,奧特曼和梁文鋒,都是典型的學霸型創(chuàng)業(yè)者。
前者18歲考上斯坦福大學計算機系,大二便輟學創(chuàng)業(yè);后者畢業(yè)于浙江大學,2015年成立幻方量化,在采訪中梁文鋒提到,2022年底ChatGPT風靡時,他們就開始動手招聘了。2023年7月,梁文鋒成立了DeepSeek。
梁文鋒并不諱言OpenAI對他的啟發(fā)性,甚至,他在不少地方都和奧特曼展現(xiàn)出了驚人的相似。
出售一手創(chuàng)辦的初創(chuàng)公司Loopt后,奧特曼創(chuàng)立了風投基金Hydrazine Capital。2015年,30歲的奧特曼成為知名孵化器YC的總裁,但在AGI(通用人工智能)不被看好,融資艱難的2015年,認定深度學習前景無量的奧特曼,卻和特斯拉創(chuàng)始人馬斯克共同創(chuàng)立了OpenAI。
梁文鋒曾是幣安的早期成員,并一手創(chuàng)辦了幻方量化,作為同樣有著投資經(jīng)歷的創(chuàng)業(yè)者,梁文鋒入局的2023年,大廠探入,許多創(chuàng)業(yè)型公司放棄了只專注通用型大模型的大方向,梁文鋒卻堅定DeepSeek要專注基礎模型的研究和突破。
同樣,在早期,兜里沒錢的奧特曼,會將“一起構建AGI”寫在招聘信息里。這個當時可怕而遙遠的目標,讓OpenAI吸引到了一大批年輕的AGI信仰者。
“年輕、有潛力”,成為奧特曼和梁文鋒共同的選人標準。
在梁文鋒看來,如果追求短期目標,找現(xiàn)成有經(jīng)驗的人是對的。但如果看長遠,經(jīng)驗就沒那么重要,基礎能力、創(chuàng)造性、熱愛等更重要。也正是因此,這個沒有知名技術大牛,不在播客分享創(chuàng)業(yè)感悟的純本土創(chuàng)業(yè)團隊,成了最快追上OpenAI的隊伍。
甚至,在最開始,如同成立之初以非營利為目的的OpenAI,商業(yè)化也并未寫入DeepSeek的to do list。
在這點上,奧特曼與梁文鋒同樣有著一致的想法。
“OpenAI早期投資人投錢時,想的一定不是我要拿回多少回報,而是真的想做這個事?!痹诓稍L中,梁文鋒面對大模型燒錢的相關提問表示,如果一定要找一個商業(yè)上的理由,(一個商業(yè)公司去做一種無限投入的研究性探索),可能是找不到的,因為劃不來。從商業(yè)角度來講,基礎研究投入回報比很低。
但“一件激動人心的事,或許不能單純用錢衡量。就像家里買鋼琴,一來買得起,二來是因為有一群急于在上面彈奏樂曲的人?!?/p>
如今,梁文鋒的AGI夢想已經(jīng)震動了整個硅谷。
不過,曾經(jīng)以非營利為目的的OpenAI,希望對抗大公司的AI霸權,奧特曼隨后引入微軟的巨額投資。在奧特曼的主導下,OpenAI將成為一家真正的營利性企業(yè)。而后來者的梁文鋒,卻始終堅持模型開源,并希望更多人,哪怕一個小APP都可以低成本用上大模型,而不是技術只掌握在一部分人和公司手中,形成壟斷。
對創(chuàng)立初便以AGI普惠全人類為使命的OpenAI來說,奧特曼曾射出這顆子彈,如今時隔10年,正中自己的眉心。
從這一點來看,相比起做一條鯰魚,技術理想主義者的標簽,似乎更適合梁文鋒。
二
但不想成為鯰魚的理想主義者梁文鋒,卻意外兩次“卷到了”所有人。
第一次,DeepSeek成了引發(fā)中國大模型價格戰(zhàn)的源頭。
在被AI連續(xù)轟炸的2024年5月,DeepSeek聲名鵲起。起因是它們發(fā)布的一款名為DeepSeek V2的開源模型,堪稱價格屠夫:推理成本被降到每百萬token僅 1塊錢,約等于Llama3 70B的七分之一,GPT-4 Turbo的七十分之一。
DeepSeek憑借超絕性價比成了“AI界拼多多”,BAT們也被卷得坐不住,紛紛降價。中國大模型價格戰(zhàn)由此一觸即發(fā)。
首先智譜AI跟進,將入門級產(chǎn)品降價,隨后字節(jié)將旗艦模型降到和DeepSeek同價,接著阿里、騰訊等隨即跟上。
盡管,除了同為DeepSeek創(chuàng)始人的徐進畢業(yè)于竺可楨學院,是黃崢的學弟,DeepSeek與拼多多并無更多交集。
一心想著“讓AI變成人人可以用得起的東西”的梁文鋒,甚至詫異于大廠的跟進動作,畢竟“大廠的模型成本比我們高很多,所以我們沒想到會有人虧錢做這件事。”
而第二次,DeepSeek引發(fā)了硅谷大地震。
更低成本、不輸OpenAI成熟模型的效率,梁文鋒帶領下的DeepSeek再次坐穩(wěn)了“AI界拼多多”的寶座,并且成功出海。
目前,DeepSeek官方尚未公布訓練推理模型R1的完整成本,但官方公布了其API定價,R1每百萬輸入tokens在1元~4元人民幣,每百萬輸出tokens為16元人民幣。作為對比,OpenAI o1的運行成本約為前者的30倍。
換言之,梁文鋒以不到十分之一的成本,做出了硅谷需要上億投入才能燒出的大模型。
硅谷的震動幾乎是必然的。除了被拿來全面對標的OpenAI,首當其沖的是Meta。以“大模型開源之王”為title的Meta,內(nèi)部員工匿名發(fā)布消息稱,Meta的生成式AI部門正因DeepSeek處于恐慌中,甚至爆料稱尚未發(fā)布的新一代開源模型Llama 4,在基準測試中已經(jīng)落后于DeepSeek。
a16z合伙人、AI大模型Mistral董事會成員 Anjney Midha更是發(fā)文說道,從斯坦福到麻省理工,DeepSeek R1幾乎一夜之間就成了美國頂尖大學研究人員的首選模型。
與此同時,梁文鋒帶領的DeepSeek正撬起OpenAI的墻角。
企業(yè)級AI代理開發(fā)商SuperFocus的聯(lián)合創(chuàng)始人表示,相比起正在使用的OpenAI旗艦模型GPT-4,DeepSeek提供的支持不僅相似,甚至更好。“SuperFocus可能會在未來幾周轉向DeepSeek,因為DeepSeek可以免費下載、在自家服務器上存儲和運行,并將增加銷售產(chǎn)品的利潤率?!北萇penAI便宜30倍的API價格,讓梁文鋒一不小心就出了海。
同時,作為純本土團隊的DeepSeek火了,梁文鋒領軍年輕中國團隊,無海外背景卻硬剛硅谷巨頭的敘事成了流量密碼。
三
爆火之下,梁文鋒還需要回答更多的新問題。
字母榜嘗試讓DeepSeek作為一名記者,對梁文鋒提一個問題,這是DeepSeek的回答:
“DeepSeek宣稱其模型訓練成本僅為行業(yè)1/10,但有開發(fā)者指出,這可能是通過大幅縮減模型參數(shù)規(guī)模或依賴幻方早期囤積的廉價算力實現(xiàn)的,而非真正的技術突破。您是否承認這種'成本優(yōu)勢’本質(zhì)是金融資源套利,而非算法創(chuàng)新?”
令人驚訝的是,這個由DeepSeek問出的問題,幾乎可以概括如今圍繞著DeepSeek的大部分爭議。
正如ChatGPT橫空出世讓OpenAI成為當之無愧的AI頭部企業(yè),英偉達的GPU憑借高性能成為算力基礎,讓黃仁勛享盡高光,現(xiàn)在,DeepSeek的R1模型,卻只能證明梁文鋒有能力做出一個和OpenAI最新模型相差無幾的模型。
在采訪中,梁文鋒不止一次地提到希望打破硅谷的科技壟斷,希望站在“技術的前沿”,但做一個和OpenAI最新模型相差無幾的模型,還遠談不上真正的超越,R1仍然是對OpenAI的模仿和跟隨。
DeepSeek爆火之下,沖浪達人馬斯克一直罕見地并未發(fā)表評論,卻在最近點贊了一則推文。
推文中提到了DeepSeek大量依賴模型蒸餾技術,需要借助ChatGPT-4o和o1才能完成訓練。
盡管模型蒸餾是一項常見的技術手段,能夠將OpenAI中的大量數(shù)據(jù)迅速提煉重點并快速理解和應用,但這種模式只能讓DeepSeek接近OpenAI,而難以真正超越OpenAI。
更不必說,盡管宣揚自己是技術理想主義,梁文鋒的背后是量化私募巨頭幻方,是BAT之外唯一能夠儲備萬張A100芯片的公司。據(jù)“財經(jīng)十一人”報道,2023年時國內(nèi)擁有超過1萬枚GPU的企業(yè)不超過5家,其中便包括幻方。
而能夠用十分之一的成本做出同等規(guī)模的大模型,也正是基于梁文鋒的實驗室已經(jīng)投入了數(shù)億美元做前期研究,并擁有大規(guī)模的芯片。想成為AI界拼多多,普通AI創(chuàng)業(yè)團隊幾乎難以復現(xiàn)梁文鋒的路徑。
圖注:X上有關deepseek的meme圖,圖源:X平臺
需要肯定的是,站在OpenAI這個巨人的肩上,梁文鋒帶領DeepSeek實現(xiàn)了一場頗為驚艷的突圍,但什么時候能夠趕在OpenAI前面推出未來一代模型,如GPT-5,那時才是梁文鋒技術理想的AHA時刻。
彼時,沒有OpenAI做坐標,梁文鋒還能否繼續(xù)靠低成本策略做出性能強大的大模型,才是等待DeepSeek的更大考驗。
梁文鋒曾這樣介紹自己,在廣東一個五線城市長大,父親是小學老師?!熬攀甏瑥V東賺錢機會很多,當時有不少家長到我家里來,家長覺得讀書沒用。但現(xiàn)在回去看,觀念都變了。因為錢不好賺了,連開出租車的機會可能都沒了。一代人的時間就變了。”
梁文鋒充滿信心,在他看來,以后的硬核創(chuàng)新會越來越多。“我們只是還需要一堆事實和一個過程?!?/strong>
如今,外界都在期待梁文鋒和DeepSeek會是那個過程之一。
參考資料:
《揭秘DeepSeek:一個更極致的中國技術理想主義故事》 暗涌Waves
《瘋狂的幻方:一家隱形AI巨頭的大模型之路》 暗涌Waves
《DeepSeek推翻兩座大山》 字母榜
本文來自微信公眾號:字母榜,作者:馬舒葉