誰是下一個(gè)Google?
文/本刊記者王冀(刊登在《創(chuàng)業(yè)家》第十一期)
見到袁雨來的時(shí)候,他正在和團(tuán)隊(duì)完善產(chǎn)品。他們總共十幾個(gè)人,在中關(guān)村租了一套Loft結(jié)構(gòu)的公寓,專心開發(fā)基于社交網(wǎng)絡(luò)的應(yīng)用。
從表面看,他們和其他互聯(lián)網(wǎng)團(tuán)隊(duì)無異,但在袁雨來眼里,他們做的事情門檻很高:通過社交網(wǎng)絡(luò),利用高效的算法獲知用戶的喜好,從而為其薦歌。形象地說,他們知道你喜歡聽什么樣的歌曲,也知道你喜歡的歌曲在哪里,然后基于社交關(guān)系把音樂推薦給你。
走出象牙塔
袁雨來的產(chǎn)品叫音貝網(wǎng),新版在8月24日上線后已經(jīng)有了20萬用戶。音貝不判斷歌曲的舒緩、搖滾等屬性,而是根據(jù)一些原則為歌曲編織一個(gè)網(wǎng)絡(luò)——在用戶關(guān)系網(wǎng)和歌曲組織網(wǎng)之間相互映射,最終圈定用戶喜歡的歌曲。
要實(shí)現(xiàn)這個(gè)目的,就需要過硬的算法。在這方面,音貝具有自己的優(yōu)勢,袁雨來兩年前畢業(yè)于清華大學(xué),獲有高性能計(jì)算博士學(xué)位。他的團(tuán)隊(duì)中有4個(gè)人研究算法,其中包括一個(gè)他在清華的同學(xué)。
面對《創(chuàng)業(yè)家》,袁雨來更愿意用“社交數(shù)據(jù)挖掘”來形容自己的項(xiàng)目,這是一個(gè)專業(yè)性極強(qiáng)的工作。國內(nèi)一些高校在對此進(jìn)行研究,因此很多團(tuán)隊(duì)都和他們的母校有著天然的聯(lián)系。
以清華大學(xué)為例,計(jì)算機(jī)科學(xué)與技術(shù)系的唐杰和陳文光教授都是社交網(wǎng)絡(luò)的研究者,袁雨來正是畢業(yè)于這個(gè)系。此外,在電子科技大學(xué)計(jì)算機(jī)學(xué)院,29歲的博導(dǎo)周濤也是這方面的專家,這位本科就開始“帶”博士生的牛人精于數(shù)據(jù)算法,同時(shí)也是電商營銷公司百分點(diǎn)的首席科學(xué)家。周濤的學(xué)生黃宇于去年創(chuàng)辦了“唯朋友”,這是一個(gè)基于微博,促進(jìn)你和好友之間的互動(dòng),以加深社交關(guān)系的數(shù)據(jù)挖掘項(xiàng)目。
此外,北大、北航、上海交大、哈工大都有師生研究社交網(wǎng)絡(luò),他們?yōu)閲鴥?nèi)的社交數(shù)據(jù)挖掘提供了學(xué)術(shù)支持和項(xiàng)目儲(chǔ)備。但另一方面,這也促成了這個(gè)群體的小眾特征,畢竟一個(gè)復(fù)雜的算法不是隨便哪個(gè)人都能做的。
某種程度上,這些項(xiàng)目還帶有實(shí)驗(yàn)性質(zhì)。比如哈工大博士于霄創(chuàng)辦的知微,就脫胎于哈工大的社會(huì)網(wǎng)絡(luò)與數(shù)據(jù)挖掘聯(lián)合實(shí)驗(yàn)室。清華大學(xué)計(jì)算機(jī)副主任陳文光教授帶了一個(gè)項(xiàng)目,叫社會(huì)化網(wǎng)絡(luò)分析平臺(tái),他們和海銀資本共同搭建了一個(gè)數(shù)據(jù)池,陳教授的研究成果可以直接為海銀資本孵化的項(xiàng)目調(diào)用。
“社交網(wǎng)絡(luò)在全世界都是個(gè)新興科學(xué),社交網(wǎng)絡(luò)這個(gè)詞都沒幾年的歷史”,海銀資本創(chuàng)始合伙人王煜全近幾年一直在研究社交網(wǎng)絡(luò),堅(jiān)信這是互聯(lián)網(wǎng)的發(fā)展趨勢。他認(rèn)為,互聯(lián)網(wǎng)自誕生那天起就是一個(gè)社交網(wǎng)絡(luò),只不過是基于物理性質(zhì)的連接,Google的pagerank本質(zhì)上就是個(gè)社會(huì)化算法,只不過是用這個(gè)社會(huì)化算法處理文本和網(wǎng)頁,用社會(huì)化算法去處理人和人背后的信息,原理其實(shí)都是一樣的。
樂薦網(wǎng)絡(luò)創(chuàng)始人戴虎寧建了一個(gè)專門討論社交數(shù)據(jù)挖掘的QQ群,里面大約有300人,基本囊括了中國研究社交數(shù)據(jù)的高手,里面好多人沒有創(chuàng)業(yè),好多還是學(xué)生。“出來創(chuàng)業(yè)的估計(jì)30支團(tuán)隊(duì)到頭兒了”,王煜全說,“我覺得他們是未來的比爾.蓋茨,具體是誰我不知道,但一定在這堆人里?!?/strong>
新的顛覆者?
Twitter、Facebook、Foursquare等的出現(xiàn),真正把人們帶入了社交網(wǎng)絡(luò)時(shí)代?!吧缃痪W(wǎng)絡(luò)在科技上有巨大的提升空間,比如對一個(gè)人的精確分析,沒有社交網(wǎng)絡(luò)就永遠(yuǎn)達(dá)不到那種精度?!蓖蹯先f這句話的背景是:數(shù)據(jù)挖掘早已有之,但社交網(wǎng)絡(luò)的數(shù)據(jù)挖掘還是個(gè)新課題。
隨著用戶的瘋狂增長,社交網(wǎng)絡(luò)產(chǎn)生的數(shù)據(jù)量是驚人的。每過一分鐘,F(xiàn)licker上會(huì)有3125張照片上傳,F(xiàn)acebook上新發(fā)布70萬條信息,YouTube上則有200萬次點(diǎn)擊觀賞。圖片、聲音、文字以及背后的用戶習(xí)慣和軌跡構(gòu)成了互聯(lián)網(wǎng)上的數(shù)據(jù)資源,社交網(wǎng)絡(luò)與大數(shù)據(jù)是天生的親密伙伴。
這些數(shù)據(jù)價(jià)值密度不高,要挖掘出有用的那部分是個(gè)力氣活。以Zynga為例,這是一家寄生在Facebook上的社交游戲公司,它的游戲強(qiáng)調(diào)好友之間的合作。為了黏住用戶,Zynga每天大約要收集600億個(gè)數(shù)據(jù)點(diǎn),包括人們一般玩多久游戲,什么時(shí)候玩,喜歡購買什么游戲物品等。從某種意義上說,Zynga可能比你自己還清楚地知道你的潛意識(shí)決策。
在清華大學(xué)陳文光教授看來,社交網(wǎng)絡(luò)是下一代應(yīng)用層面的互聯(lián)網(wǎng)?!暗谝淮茄呕ⅰ⑿侣勯T戶等,第二代是搜索引擎,第三代就是社交網(wǎng)絡(luò),它不僅是連接信息,更是連接人,會(huì)和社會(huì)學(xué)、心理學(xué)、經(jīng)濟(jì)學(xué)有很多交互的地方,從研究的角度來講是非常有意思的事兒?!?/strong>
今年上半年,美國曼徹斯特大學(xué)的研究團(tuán)隊(duì)做了一個(gè)實(shí)驗(yàn),他們通過分析Twitter上的數(shù)據(jù),提前8天預(yù)報(bào)了流感的爆發(fā)。在一個(gè)月內(nèi),研究小組收集了440萬個(gè)Twitter留言的地理定位數(shù)據(jù)標(biāo)簽,使用一種特殊的算法進(jìn)行處理(類似語義分析),從而預(yù)測不同地區(qū)的流感發(fā)病率。
這似乎印證了《爆發(fā)》一書作者、全球復(fù)雜網(wǎng)絡(luò)研究權(quán)威巴拉巴西教授的觀點(diǎn)。他基于社會(huì)化大數(shù)據(jù)基礎(chǔ),認(rèn)為人類行為有93%是可以預(yù)測的。如果確實(shí)如此,那么社交網(wǎng)絡(luò)中無疑蘊(yùn)藏著巨大的商業(yè)價(jià)值。
在 《創(chuàng)業(yè)家》采訪的團(tuán)隊(duì)中,新影數(shù)訊(iFilm+)擅長預(yù)測。他們通過對微博和過往資料數(shù)據(jù)的分析來預(yù)測電影票房,同時(shí)給影片提供營銷建議。創(chuàng)始人劉晗透露,其票房預(yù)測準(zhǔn)確度可達(dá)85%。他們的做法是首先確定影響票房的變量,如演員、檔期、上映時(shí)間、首映地等,一些看似與數(shù)字無關(guān)的事項(xiàng)都被按規(guī)則加以量化;然后,他們從統(tǒng)計(jì)年鑒中查到了1990年以來上映的四五百部電影數(shù)據(jù),讓計(jì)算機(jī)逆向推導(dǎo)出定量,從而確定公式。預(yù)測時(shí)把社交網(wǎng)絡(luò)中反映出的演員熱度、電影關(guān)注度以及預(yù)定的上映時(shí)間等變量填入公式,進(jìn)行測算。
真實(shí)的算法遠(yuǎn)比上面的描述更復(fù)雜。劉晗演示時(shí),筆記本屏幕上密密麻麻布滿了數(shù)學(xué)符號,但電腦要精確計(jì)算出人類的行為,仍需繼續(xù)探索?!邦A(yù)測準(zhǔn)確度提升1%,都需要做大量復(fù)雜的工作,必須找到并引入新的變量才行?!眲㈥险f。
劉晗所面臨的挑戰(zhàn),是社交數(shù)據(jù)挖掘者們共同的問題,即便在美國,算法也沒有完全突破,這為中國的創(chuàng)業(yè)者們提供了機(jī)遇。王煜全把中國偏后期的投資比喻為“拼爹”,以前的互聯(lián)網(wǎng)投資是“拼經(jīng)驗(yàn)”,前一段流行“拼干爹”,就是大VC靠砸錢來砸市場,到了社交網(wǎng)絡(luò)時(shí)代就要“拼技術(shù)”,因?yàn)榛ヂ?lián)網(wǎng)的核心本質(zhì)就是技術(shù),而有算法支持的社交網(wǎng)絡(luò)產(chǎn)品是無法抄襲的,即便把國外的算法搬到國內(nèi)也會(huì)水土不服。“在社交網(wǎng)絡(luò)上,中國不會(huì)落后美國太久了,中國肯定會(huì)迎頭趕上?!?/strong>
王煜全認(rèn)為,未來只有一個(gè)叫社交網(wǎng)絡(luò)的互聯(lián)網(wǎng),真正的社交網(wǎng)絡(luò),其實(shí)就是人際關(guān)系網(wǎng),凡是沒疊加社交關(guān)系的1.0式的網(wǎng)站,理論上都會(huì)被顛覆。他的理由有三點(diǎn):第一,沒有社交關(guān)系就沒有個(gè)性化,就不知道用戶行為會(huì)怎么變化;第二,傳統(tǒng)網(wǎng)站需要內(nèi)容提供者,而在社交網(wǎng)絡(luò)的UGC時(shí)代,通過互動(dòng)激發(fā)內(nèi)容,根本不需要有內(nèi)容提供者;第三,社交是人類最本質(zhì)的生存需求,社交能力的高低很大程度上決定人成功與否。目前Facebook的平均好友數(shù)是130人,未來隨著算法的演進(jìn),人類的社交能力將出現(xiàn)質(zhì)的飛躍。
賭未來
中國目前最具影響力的社交網(wǎng)絡(luò)是新浪微博。自2009年上線以來,它已經(jīng)成為聚攏了3.68億用戶的開放平臺(tái)。在《創(chuàng)業(yè)家》6月推出的《開放平臺(tái)TOP10》評選中,新浪微博被開發(fā)者們評為“最具開放度”的平臺(tái)。不同層次的API接口可以調(diào)用新浪微博的內(nèi)部數(shù)據(jù),為開發(fā)應(yīng)用提供便利。
《創(chuàng)業(yè)家》見到的社交網(wǎng)絡(luò)應(yīng)用團(tuán)隊(duì),大多數(shù)都接入了新浪微博,但他們?nèi)匀槐г剐吕说拈_放度不夠高。黃宇在開發(fā)“唯朋友”的過程中,需要大量調(diào)用新浪微博的API,但一些重要數(shù)據(jù)無法訪問,比如用戶的私信,這顯然涉及隱私問題。此外,新浪對一些API的訪問頻率也做了限制。因此,一些團(tuán)隊(duì)也在打算接入騰訊微博,因?yàn)轵v訊可以把私信都開放。此外,他們也密切關(guān)注移動(dòng)端,一些業(yè)務(wù)也可以移植到微信上。而無論微博還是微信,都不過是底層的社會(huì)平臺(tái),他們要在此之上疊加應(yīng)用,最終超越原先依附的平臺(tái)。
但挖掘者們的技術(shù)還不足以處理大數(shù)據(jù)?!昂糜忻朗场笔且粋€(gè)10月中旬剛上線的APP,基于好友關(guān)系來給你推薦餐廳和美食。它目前能抓取新浪微博的原創(chuàng)和轉(zhuǎn)發(fā)內(nèi)容,而沒有抓取評論,其中的一個(gè)原因就是“數(shù)據(jù)量太大”。新影數(shù)訊的劉晗也強(qiáng)調(diào),他們做的是數(shù)據(jù)挖掘,而不是大數(shù)據(jù)處理?!按髷?shù)據(jù)的計(jì)算量非常大,一天的數(shù)據(jù)量就會(huì)上T,一般人處理不了,我們要的有價(jià)值的數(shù)據(jù)也就是幾十G?!?/strong>
陳文光教授估算了新浪微博的數(shù)據(jù)量級。“不包括圖片和評論,大約是在幾十T到幾百T,如果只拷貝所有的社交關(guān)系,那還不到一個(gè)T。一臺(tái)256G內(nèi)存的機(jī)器,就能把一兩億用戶的關(guān)系數(shù)據(jù)放在內(nèi)存里,處理起來就快很多。光分析社交關(guān)系的數(shù)據(jù),就可以做很多工作了?!?/strong>
他還分析了小團(tuán)隊(duì)的創(chuàng)業(yè)成本?!白庖粋€(gè)100M的帶寬和IDC機(jī)位每年大約要10萬塊,買一臺(tái)有4個(gè)CPU和256G內(nèi)存的服務(wù)器也要10萬塊,再加上人力、房租,以及寫軟件和用虛擬主機(jī)、云平臺(tái)等成本,最少有100萬投入才能干這件事。”
這些團(tuán)隊(duì)必須節(jié)衣縮食的另一個(gè)理由是:社交網(wǎng)絡(luò)應(yīng)用仍然沒有成熟的商業(yè)模式,即便VC對社交網(wǎng)絡(luò)也沒有特別強(qiáng)的信心。知微創(chuàng)始人于霄對《創(chuàng)業(yè)家》表示,“2C(針對個(gè)人用戶)的商業(yè)模式需要有相當(dāng)量的用戶留存和頻繁的使用,而現(xiàn)有的產(chǎn)品還剛剛面世,想建立起用戶黏性、吸引大量的客戶還是蠻難的。2B(針對企業(yè)用戶)的商業(yè)模式則更偏向營銷,可能只維護(hù)十個(gè)客戶都會(huì)做的非常強(qiáng)大,但垂直領(lǐng)域的數(shù)據(jù)量還沒那么多,最早期的時(shí)候沒有太多素材可用?!?/strong>
新影數(shù)訊是我們遇到的唯一有收入的團(tuán)隊(duì),但全年?duì)I收最多也就兩百萬元,還沒打平。劉晗更看重積累數(shù)據(jù),對他來說,數(shù)據(jù)是比現(xiàn)金更值錢的資產(chǎn),如果能建立起一個(gè)中國最全的電影數(shù)據(jù)庫,賺錢就是水到渠成的事。
海銀資本孵化的社交網(wǎng)絡(luò)應(yīng)用團(tuán)隊(duì)有16個(gè),到年底估計(jì)能達(dá)到30個(gè),它們抱團(tuán)取暖。海銀和清華大學(xué)合作,后者研究社交網(wǎng)絡(luò)的數(shù)據(jù)池可供這些團(tuán)隊(duì)使用,大多數(shù)固定的社交關(guān)系可以直接從中調(diào)用。在中關(guān)村云計(jì)算基地,王煜全的好友田溯寧以低于市價(jià)一半的價(jià)格提供了600平方米的場地,一些團(tuán)隊(duì)不久后就將搬去那里。這些團(tuán)隊(duì)彼此之間也有大量的溝通與協(xié)作,比如分工調(diào)用新浪微博不同的API以提升效率。此外,在營銷上這些團(tuán)隊(duì)也會(huì)彼此借力。
海銀在這些項(xiàng)目上介入很深,王煜全親自和團(tuán)隊(duì)討論確定產(chǎn)品方向。他告訴這些年輕人,一旦大目標(biāo)確立,至少要堅(jiān)持三到五年。他坦承,這些業(yè)務(wù)五年不見得賺一分錢,但是五年之后也許是個(gè)Google。他用蘋果公司曾經(jīng)的廣告語來鼓勵(lì)他們:只有那些瘋狂到認(rèn)為自己可以改變世界的人,才能真正改變世界。