国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
這家公司,讓整個硅谷睡不著覺

本文內(nèi)容整理自網(wǎng)絡(luò)公開資料。

責(zé)編 |  柒  排版 | 二月
第 8805 篇深度好文:4926 字 | 14 分鐘閱讀

宏觀趨勢


筆記君說:
 

一家中國AI公司,用1/30的成本吊打OpenAI,產(chǎn)品沖上美國App Store第六,連《自然》雜志都直呼“瘋狂”。

它的創(chuàng)始人卻說:“我們沒想當(dāng)鯰魚,只是好奇。”

這家公司叫DeepSeek,創(chuàng)始人梁文鋒極少露面。今天,我們拆解它的逆襲邏輯,給中國創(chuàng)業(yè)者一些硬核啟示。


去年12月,DeepSeek推出的DeepSeek-V3震撼登場,以極低的訓(xùn)練成本實(shí)現(xiàn)了與GPT-4o和Claude Sonnet 3.5等頂尖模型相媲美的性能,這一成果震驚了整個業(yè)界,甚至引得國外同行在《自然》雜志上發(fā)出“這太瘋狂了,完全出乎意料”的驚嘆。

僅僅時隔不到一個月,DeepSeek再次引發(fā)全球AI圈的震動。此次推出的產(chǎn)品雖未公布訓(xùn)練完整成本,但已公布的API定價(jià)極具競爭力,每百萬輸入tokens 1元(緩存命中)/ 4元(緩存未命中),每百萬輸出tokens 16元,這一收費(fèi)大約僅為OpenAI o1運(yùn)行成本的三十分之一。

在市場表現(xiàn)上,據(jù)新浪財(cái)經(jīng)報(bào)道,截至北京時間1月26日15:45,DeepSeek在美區(qū)蘋果App Store免費(fèi)榜迅速攀升至第六位,成功超越Google Gemini、Microsoft Copilot等美國科技公司的生成式AI產(chǎn)品。

然而,也在同一天,DeepSeek出現(xiàn)短時閃崩現(xiàn)象,不少網(wǎng)友反映使用時遇到“服務(wù)器繁忙”的提示。

DeepSeek在短時間內(nèi)取得如此成績,其背后的發(fā)展歷程令人好奇。它究竟是如何煉成的?36氪旗下的「暗涌」團(tuán)隊(duì)分別在2023年5月、2024年7月采訪了甚少露面的DeepSeek創(chuàng)始人梁文鋒。以下為編輯版。

一、打響價(jià)格戰(zhàn),無心插柳成“鯰魚”

談及DeepSeek V2引發(fā)的大模型價(jià)格戰(zhàn),梁文鋒表示:“我們不是有意成為一條鯰魚,只是不小心成了一條鯰魚。”

對于價(jià)格戰(zhàn)的結(jié)果,他稱非常意外,“沒想到價(jià)格讓大家這么敏感。我們只是按照自己的步調(diào)來做事,然后核算成本定價(jià)。我們的原則是不貼錢,也不賺取暴利。這個價(jià)格也是在成本之上稍微有點(diǎn)利潤。”

在這之后,眾多大廠紛紛跟進(jìn)降價(jià)。梁文鋒提到:“智譜AI降的是一個入門級產(chǎn)品,和我們同級別的模型仍然收費(fèi)很貴。字節(jié)是真正第一個跟進(jìn)的。旗艦?zāi)P徒档胶臀覀円粯拥膬r(jià)格,然后觸發(fā)了其它大廠紛紛降價(jià)。因?yàn)榇髲S的模型成本比我們高很多,所以我們沒想到會有人虧錢做這件事,最后就變成了互聯(lián)網(wǎng)時代的燒錢補(bǔ)貼的邏輯?!?/span>

但DeepSeek降價(jià)并非為了搶用戶,“我們降價(jià)一方面是因?yàn)槲覀冊谔剿飨乱淮P偷慕Y(jié)構(gòu)中,成本先降下來了,另一方面也覺得無論API,還是AI,都應(yīng)該是普惠的、人人可以用得起的東西。

二、專注研究創(chuàng)新,探索AGI之路

當(dāng)多數(shù)中國公司選擇直接沿用Llama結(jié)構(gòu)做應(yīng)用時,DeepSeek卻另辟蹊徑。梁文鋒解釋道:“如果目標(biāo)是做應(yīng)用,那沿用Llama結(jié)構(gòu),短平快上產(chǎn)品也是合理選擇。但我們目的地是AGI,這意味著我們需要研究新的模型結(jié)構(gòu),在有限資源下,實(shí)現(xiàn)更強(qiáng)的模型能力。這是scale up到更大模型所需要做的基礎(chǔ)研究之一?!?/span>

他還指出,Llama的結(jié)構(gòu)在訓(xùn)練效率和推理成本上,和國外先進(jìn)水平估計(jì)已有兩代差距,“首先訓(xùn)練效率有差距。我們估計(jì),國內(nèi)最好的水平和國外最好的相比,模型結(jié)構(gòu)和訓(xùn)練動力學(xué)上可能有一倍的差距,光這一點(diǎn)我們要消耗兩倍的算力才能達(dá)到同樣效果。

另外數(shù)據(jù)效率上可能也有一倍差距,也就是我們要消耗兩倍的訓(xùn)練數(shù)據(jù)和算力,才能達(dá)到同樣的效果。合起來就要多消耗4倍算力。我們要做的,正是不停地去縮小這些差距?!?/span>

對于只做研究探索而暫不涉及應(yīng)用的選擇,梁文鋒表示:“因?yàn)槲覀冇X得現(xiàn)在最重要的是參與到全球創(chuàng)新的浪潮里去。過去很多年,中國公司習(xí)慣了別人做技術(shù)創(chuàng)新,我們拿過來做應(yīng)用變現(xiàn),但這并非是一種理所當(dāng)然。這一波浪潮里,我們的出發(fā)點(diǎn),就不是趁機(jī)賺一筆,而是走到技術(shù)的前沿,去推動整個生態(tài)發(fā)展。”他認(rèn)為,隨著經(jīng)濟(jì)發(fā)展,中國應(yīng)成為技術(shù)創(chuàng)新的貢獻(xiàn)者,而非一直搭便車。

三、創(chuàng)新驅(qū)動發(fā)展,打破固有認(rèn)知

DeepSeek V2讓硅谷很多人驚訝,梁文鋒認(rèn)為:“在美國每天發(fā)生的大量創(chuàng)新里,這是非常普通的一個。他們之所以驚訝,是因?yàn)檫@是一個中國公司,在以創(chuàng)新貢獻(xiàn)者的身份,加入到他們游戲里去。畢竟大部分中國公司習(xí)慣follow,而不是創(chuàng)新。”

面對創(chuàng)新成本高、商業(yè)化壓力大的問題,梁文鋒說:“創(chuàng)新的成本肯定不低,過去那種拿來主義的慣性也和過去的國情有關(guān)。但現(xiàn)在,你看無論中國的經(jīng)濟(jì)體量,還是字節(jié)、騰訊這些大廠的利潤,放在全球都不低。我們創(chuàng)新缺的肯定不是資本,而是缺乏信心以及不知道怎么組織高密度的人才實(shí)現(xiàn)有效的創(chuàng)新?!?/span>

他還提到,中國公司容易把快速商業(yè)化當(dāng)?shù)谝灰x,是因?yàn)檫^去三十年過于強(qiáng)調(diào)賺錢而忽視了創(chuàng)新,“創(chuàng)新不完全是商業(yè)驅(qū)動的,還需要好奇心和創(chuàng)造欲。我們只是被過去那種慣性束縛了,但它也是階段性的。

對于公司的護(hù)城河,梁文鋒有著清晰的認(rèn)知:“在顛覆性的技術(shù)面前,閉源形成的護(hù)城河是短暫的。即使OpenAI閉源,也無法阻止被別人趕超。所以我們把價(jià)值沉淀在團(tuán)隊(duì)上,我們的同事在這個過程中得到成長,積累很多know-how,形成可以創(chuàng)新的組織和文化,就是我們的護(hù)城河?!?/span>

他還將開源視為一種文化行為,“給予其實(shí)是一種額外的榮譽(yù)。一個公司這么做也會有文化的吸引力。

四、幻方跨界布局,聚焦通用AI

幻方作為量化基金選擇下場做大模型,梁文鋒解釋:“我們做大模型,其實(shí)跟量化和金融都沒有直接關(guān)系。我們獨(dú)建了一個名為深度求索的新公司來做這件事。幻方的主要班底里,很多人是做人工智能的。當(dāng)時我們嘗試了很多場景,最終切入了足夠復(fù)雜的金融,而通用人工智能可能是下一個最難的事之一,所以對我們來說,這是一個怎么做的問題,而不是為什么做的問題?!?/span>

他們的目標(biāo)是通用人工智能(AGI),梁文鋒說:“語言大模型可能是通往AGI的必經(jīng)之路,并且初步具備了AGI的特征,所以我們會從這里開始,后邊也會有視覺等?!北M管大廠入局讓很多創(chuàng)業(yè)型公司放棄通用型大模型方向,但DeepSeek依然專注于此。

梁文鋒認(rèn)為:“現(xiàn)在看起來,無論大廠,還是創(chuàng)業(yè)公司,都很難在短時間內(nèi)建立起碾壓對手的技術(shù)優(yōu)勢……大廠和創(chuàng)業(yè)公司都各有機(jī)會。現(xiàn)有垂類場景不掌握在初創(chuàng)公司手上,這個階段對初創(chuàng)公司不太友好。但因?yàn)檫@種場景說到底也是分散的、碎片化的小需求,所以它又是更適合靈活的創(chuàng)業(yè)型組織的。

從長期看,大模型應(yīng)用門檻會越來越低,初創(chuàng)公司在未來20年任何時候下場,也都有機(jī)會。我們的目標(biāo)也很明確,就是不做垂類和應(yīng)用,而是做研究,做探索?!?/span>

談及做研究的原因,梁文鋒提到:“一種好奇心驅(qū)動。從遠(yuǎn)處說,我們想去驗(yàn)證一些猜想。比如我們理解人類智能本質(zhì)可能就是語言,人的思維可能就是一個語言的過程……這意味著,在語言大模型上可能誕生出類人的人工智能(AGI)。從近處說,GPT4還有很多待解之謎。我們?nèi)?fù)刻的同時,也會做研究揭秘?!?/span>

五、算力儲備:源于好奇,成于堅(jiān)持

GPU在ChatGPT創(chuàng)業(yè)潮中是稀缺資源,DeepSeek早在2021年就儲備了1萬枚。梁文鋒回憶:“其實(shí)從最早的1張卡,到2015年的100張卡、2019年的1000張卡,再到一萬張,這個過程是逐步發(fā)生的……主要是好奇心驅(qū)動?!?/span>

這種好奇心源于對AI能力邊界的探索,“對研究員來說,對算力的渴求是永無止境的。做了小規(guī)模實(shí)驗(yàn)后,總想做更大規(guī)模的實(shí)驗(yàn)。”

對于搭建計(jì)算機(jī)集群的成本,梁文鋒表示:“電費(fèi)和維護(hù)費(fèi)用其實(shí)是很低的,這些支出每年只占硬件造價(jià)的1%左右。人工成本不低,但人工成本也是對未來的投資,是公司最大的資產(chǎn)。我們選的人也會相對樸實(shí)一點(diǎn),有好奇心,來這里有機(jī)會去做研究?!被梅奖纫恍┰茝S商更早拿到A100顯卡,是因?yàn)椤拔覀兒茉缇蛯π驴ㄗ隽祟A(yù)研、測試和規(guī)劃”。

六、本土人才撐起創(chuàng)新天空

OpenAI前政策主管、Anthropic聯(lián)合創(chuàng)始人Jack Clark認(rèn)為DeepSeek雇傭了“一批高深莫測的奇才”,梁文鋒卻表示:“并沒有什么高深莫測的奇才,都是一些Top高校的應(yīng)屆畢業(yè)生、沒畢業(yè)的博四、博五實(shí)習(xí)生,還有一些畢業(yè)才幾年的年輕人?!盫2模型研發(fā)人員全部來自本土,“前50名頂尖人才可能不在中國,但也許我們能自己打造這樣的人?!?/span>

關(guān)于MLA創(chuàng)新,梁文鋒介紹:“在總結(jié)出Attention架構(gòu)的一些主流變遷規(guī)律后,(一位年輕研究員)突發(fā)奇想去設(shè)計(jì)一個替代方案。不過從想法到落地,中間是一個漫長的過程。我們?yōu)榇私M了一個team,花了幾個月時間才跑通?!?/span>

團(tuán)隊(duì)采用自下而上的創(chuàng)新模式和自然分工機(jī)制,“我們每個人對于卡和人的調(diào)動是不設(shè)上限的。如果有想法,每個人隨時可以調(diào)用訓(xùn)練集群的卡無需審批。同時因?yàn)椴淮嬖趯蛹壓涂绮块T,也可以靈活調(diào)用所有人,只要對方也有興趣?!?/span>選人標(biāo)準(zhǔn)則是熱愛和好奇心,“很多人對做研究的渴望,遠(yuǎn)超對錢的在意?!?/span>

七、展望未來,堅(jiān)定創(chuàng)新信念

對于創(chuàng)新,梁文鋒認(rèn)為:“創(chuàng)新首先是一個信念問題。為什么硅谷那么有創(chuàng)新精神?首先是敢。ChatGPT出來時,整個國內(nèi)對做前沿創(chuàng)新都缺乏信心……但創(chuàng)新首先需要自信。這種信心通常在年輕人身上更明顯。”盡管DeepSeek不參與融資、很少對外發(fā)聲,但他相信:“因?yàn)槲覀冊谧鲎铍y的事。對頂級人才吸引最大的,肯定是去解決世界上最難的問題?!?/span>

對于AGI的實(shí)現(xiàn)時間,梁文鋒表示:“可能是2年、5年或者10年,總之會在我們有生之年實(shí)現(xiàn)。”

DeepSeek押注數(shù)學(xué)和代碼、多模態(tài)、自然語言三個方向,“數(shù)學(xué)和代碼是AGI天然的試驗(yàn)場,有點(diǎn)像圍棋,是一個封閉的、可驗(yàn)證的系統(tǒng),有可能通過自我學(xué)習(xí)就能實(shí)現(xiàn)很高的智能。

另一方面,可能多模態(tài)、參與到人類的真實(shí)世界里學(xué)習(xí),對AGI也是必要的。我們對一切可能性都保持開放。”他認(rèn)為大模型終局會是“有專門公司提供基礎(chǔ)模型和基礎(chǔ)服務(wù),會有很長鏈條的專業(yè)分工。更多人在之上去滿足整個社會多樣化的需求”。

面對經(jīng)濟(jì)下行和資本冷周期,梁文鋒持樂觀態(tài)度:“我倒覺得未必(會抑制原創(chuàng)式創(chuàng)新)。中國產(chǎn)業(yè)結(jié)構(gòu)的調(diào)整,會更依賴硬核技術(shù)的創(chuàng)新。當(dāng)很多人發(fā)現(xiàn)過去賺快錢很可能來自時代運(yùn)氣,就會更愿意俯身去做真正的創(chuàng)新。”他堅(jiān)信硬核創(chuàng)新會越來越多,“當(dāng)這個社會讓硬核創(chuàng)新的人功成名就,群體性想法就會改變。我們只是還需要一堆事實(shí)和一個過程?!?/span>

DeepSeek堅(jiān)持開源,短期內(nèi)沒有融資計(jì)劃,“我們認(rèn)為先有一個強(qiáng)大的技術(shù)生態(tài)更重要”“我們面臨的問題從來不是錢,而是高端芯片被禁運(yùn)”。

梁文鋒認(rèn)為,更多投入不一定產(chǎn)生更多創(chuàng)新,“否則大廠可以把所有的創(chuàng)新包攬了”。

對于不做應(yīng)用的選擇,他表示:“我們認(rèn)為當(dāng)前階段是技術(shù)創(chuàng)新的爆發(fā)期,而不是應(yīng)用的爆發(fā)期……如果能形成完整的產(chǎn)業(yè)上下游,我們就沒必要自己做應(yīng)用。當(dāng)然,如果需要,我們做應(yīng)用也沒障礙,但研究和技術(shù)創(chuàng)新永遠(yuǎn)是我們第一優(yōu)先級?!?/span>

在競爭方面,梁文鋒認(rèn)為大廠和創(chuàng)業(yè)公司各有優(yōu)劣,“大廠有現(xiàn)成的用戶,但它的現(xiàn)金流業(yè)務(wù)也是它的包袱,也會讓它成為隨時被顛覆的對象”。他推測DeepSeek之外的6家大模型創(chuàng)業(yè)公司可能有2到3家存活,“那些自我定位清晰、更能精細(xì)化運(yùn)營的,更有機(jī)會活下來。其它公司可能會脫胎換骨。有價(jià)值的東西不會煙消云散,但會換一種方式” 。

在打造創(chuàng)新型組織方面,梁文鋒總結(jié):“創(chuàng)新需要盡可能少的干預(yù)和管理,讓每個人有自由發(fā)揮的空間和試錯機(jī)會。創(chuàng)新往往都是自己產(chǎn)生的,不是刻意安排的,更不是教出來的。

在梁文鋒看來,創(chuàng)新雖昂貴且低效,但充滿意義?!安皇撬腥硕寄墀偪褚惠呑?,但大部分人,在他年輕的那些年,可以完全沒有功利目的,投入地去做一件事?!绷何匿h和他的團(tuán)隊(duì)正帶著這份好奇心和熱情,在AI創(chuàng)新之路上堅(jiān)定前行。

參考資料:

1.《瘋狂的幻方:一家隱形AI巨頭的大模型之路,暗涌Waves;

2.《揭秘DeepSeek:一個更極致的中國技術(shù)理想主義故事,暗涌Waves;

*文章為作者獨(dú)立觀點(diǎn),不代表筆記俠立場。

本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊舉報(bào)。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
AI人物傳:深度求索deepseek創(chuàng)始人梁文鋒
AI領(lǐng)域“神秘東方力量”震驚世界,英偉達(dá)的最大空頭出現(xiàn)了
這幾天刷推很明顯的感覺到英文技術(shù)社區(qū)對中...
DeepSeek朝硅谷“開了一槍”(圖文)
解讀DeepSeek創(chuàng)始人梁文鋒在1月20日總理座談會上的發(fā)言
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服