大數(shù)據(jù)的時代已然來臨。IDC數(shù)據(jù)顯示,在2006年全世界的電子數(shù)據(jù)存儲量為18萬PB,而如今這個數(shù)字已經(jīng)達到180萬PB,短短5年間就已經(jīng)增長了一個數(shù)量級。而根據(jù)預測,2015年這個數(shù)字則會達到如同天文數(shù)字般的800萬PB。就在此時此刻,海量數(shù)據(jù)依然源源不斷地產(chǎn)生,從不停息。面對這些“大數(shù)據(jù)”,有些人嘆息抱怨,害怕數(shù)據(jù)量的劇增對于現(xiàn)有IT架構(gòu)的沖擊;有些人積極主動,探尋應對海量數(shù)據(jù)的應對與解決之道;還有一些人,則是順勢而為,抓住時代發(fā)展的商業(yè)機會,成為富有活力的創(chuàng)新者。本文就將聊聊這第三種人。
大數(shù)據(jù)的發(fā)展催生了諸多商業(yè)機會和商業(yè)模式。而這些公司所面對的獨特的時代背景,就注定了它們必會受到市場和資本的追捧。它們中的一些或是已經(jīng)融資成功,進入高速發(fā)展期;或是被成功收購,幫助投資人和創(chuàng)始人成功從項目中退出。而很多上市公司,也開始在這一領域動作頻繁,積極布局,這也從側(cè)面反應了這一領域的廣闊前景和巨大的利潤空間。IBM的架構(gòu)師Stephen Watt曾在《Deriving new business insights with Big Data》一文中簡單講解過大數(shù)據(jù)的生態(tài)系統(tǒng)。簡而言之,大數(shù)據(jù)的生態(tài)系統(tǒng),就是數(shù)據(jù)的生存周期。數(shù)據(jù)從產(chǎn)生,到處理,再到價值提取,最后被消費掉,這整個過程就構(gòu)成了大數(shù)據(jù)的生態(tài)系統(tǒng)。如下圖所示。
在這個生態(tài)系統(tǒng)中,無論是數(shù)據(jù)的存儲、數(shù)據(jù)的處理、數(shù)據(jù)的分享、數(shù)據(jù)的檢索、數(shù)據(jù)的分析,還是數(shù)據(jù)的可視化,都存在著不同的商業(yè)需求。需求的出現(xiàn)必然會導致創(chuàng)新的產(chǎn)生。所以,在每個步驟都有不少初創(chuàng)公司在深耕自己所在的領域,試圖通過新技術(shù)和新方法來實現(xiàn)新的商業(yè)模式。
Amazon是大數(shù)據(jù)和云計算的先行者,它推出的S3云服務也早已成為云端存儲的業(yè)界標準。通過易于使用的API,用戶可以很方便地將各種數(shù)據(jù)對象放在云端,然后再像使用水電一般按用量收費。S3根據(jù)用戶所占用的存儲空間、請求數(shù)和數(shù)據(jù)流量進行階梯定價收費。同時,S3還為對數(shù)據(jù)可靠性的要求并不高的用戶提供了更為便宜的去冗余存儲模式。Amazon S3服務是典型的付費服務商業(yè)模式,增長十分迅速。去年Q4共有2620億個對象儲存在S3上,而今年Q3這個數(shù)字已經(jīng)翻了一倍,達到5660億。更難得的是,Amazon S3的云服務真正讓許多創(chuàng)業(yè)公司享受到了云計算帶來的便捷。使用S3作為存儲支持的文件分享服務Dropbox進行的最近一輪的融資,估值高達80億美元,每天上傳的文件多達2億個。
大數(shù)據(jù)時代另一個熱點便是NoSQL,不但誕生了很多NoSQL的數(shù)據(jù)庫產(chǎn)品,還圍繞著NoSQL產(chǎn)生了不少新技術(shù)新模式。也許提起10gen這家公司,讀者們會覺得陌生,但是說起他們的產(chǎn)品MongoDB,則是鼎鼎大名。由于其易用性和高性能,MongoDB在很多開發(fā)者眼中已然成為NoSQL的首選。10gen公司提供基于MongoDB的服務,包括商業(yè)支持、培訓和技術(shù)咨詢等等,像Foursquare、Craigslist這樣知名的公司,都是10gen的客戶。10gen于今年9月完成D輪2000萬美元的融資。
其他的NoSQL產(chǎn)品在大數(shù)據(jù)時代也廣受注目。為企業(yè)提供基于Cassandra的Hadoop構(gòu)建方案的創(chuàng)業(yè)公司DataStax近日宣布完成1100萬美元的B輪融資;NoSQL數(shù)據(jù)庫技術(shù)提供商Couchbase,則集合了CouchDB和memcached的設計者和開發(fā)人員,今日完成了一筆1400萬美元的C輪融資;圖形數(shù)據(jù)庫廠商Neo Technology也憑借其開源項目Neo4j獲得1060萬美元的融資。這些公司主要將融資用于NoSQL旗艦產(chǎn)品的研發(fā),并努力提升和拓展市場份額,然后基于它們的產(chǎn)品開展業(yè)務,它們在盈利的同時,也為社區(qū)提供了高質(zhì)量的NoSQL數(shù)據(jù)庫產(chǎn)品,從而實現(xiàn)共贏。
分布式文件系統(tǒng)也是大數(shù)據(jù)存儲的方式之一。最早由Powerset開發(fā)的HBase就是基于HDFS(Hadoop Distributed Filesystem)的分布式數(shù)據(jù)庫。雖然目前還沒有專門的商業(yè)公司來做針對HBase的業(yè)務,但HBase在業(yè)界已經(jīng)有眾多使用者,許多知名公司比如Facebook、Twitter、淘寶等都是HBase的用戶。
Hadoop是大數(shù)據(jù)時代數(shù)據(jù)處理的首選。脫胎于Google MapReduce的Hadoop憑借其開源和易用的特性,很快成為了大數(shù)據(jù)時代的最耀眼的主角。目前,Hadoop已經(jīng)成為大數(shù)據(jù)生態(tài)環(huán)境中不可或缺的一環(huán),是擁有海量數(shù)據(jù)處理需求的公司的標準配置,許多商業(yè)創(chuàng)新和產(chǎn)品創(chuàng)新也都是圍繞著Hadoop展開的。Yahoo也已經(jīng)認識到了Hadoop的價值,將Hadoop拆分成一個獨立的商業(yè)公司HortonWorks進行運營。
雖然Yahoo是Hadoop最大的貢獻者,也進行了Hadoop的商業(yè)化,但卻沒法阻止其他的頗具實力的競爭者進入這個前途無限的領域。Cloudera便是其中最耀眼的一個。且不說聯(lián)合創(chuàng)始人中有Facebook和Google的精英們,就連Hadoop的創(chuàng)始人Doug Cutting也從Yahoo離職加入了Cloudera,這一舉動當時在業(yè)界還引起了不小的震動。Cloudera最開始的模式是幫助企業(yè)管理數(shù)據(jù),后來則轉(zhuǎn)型為軟件廠商。他們推出的軟件發(fā)布包可以幫助企業(yè)更方便地搭建以Hadoop為中心的數(shù)據(jù)管理平臺。Cloudera也是通過技術(shù)支持、培訓和咨詢等付費服務來盈利的,目前融資已達3600萬美元。
如果說Cloudera是依靠其華麗的精英團隊來吸引客戶的話,那么MapR則是通過過硬的產(chǎn)品來讓業(yè)界認識到他們的價值。據(jù)稱,經(jīng)過MapR改造的Hadoop的速度可達原來的3倍。對于Hadoop的MapReduce模式,相信現(xiàn)在基本上已經(jīng)沒人提出質(zhì)疑了,然而大家更關心的是,這玩意還能不能更快,MapR則很完美地回答了這個問題。EMC也宣布在一些產(chǎn)品使用MapR版本的Hadoop,而MapR也剛剛完成了2000萬美元的融資。
除了速度以外,Hadoop的易用性也是一個用戶所關心的問題。雖然相比較其他的框架而言,Hadoop已經(jīng)簡化了許多使用MapReduce技術(shù)時所需要做的工作,但是對于終端用戶而言可能還算不得十分友好。近日宣布完成570萬美元A輪融資的海量數(shù)據(jù)管理軟件商Platfora,就在試圖解決這個問題。Platfora旨在提供一個更為友好且更具操作性的用戶界面,而且這個產(chǎn)品可以兼容包括Cloudera和MapR在內(nèi)的各個Hadoop版本,能夠大大降低使用Hadoop的門檻,讓更多的公司體驗到Hadoop的技術(shù)優(yōu)勢。
不僅僅是Hadoop本身,就連Hadoop的周邊也不乏成功的創(chuàng)新者。AsterData已經(jīng)成功地被老牌數(shù)據(jù)倉庫廠商TeraData以2.63億美元收購,他們的核心技術(shù)叫做SQL-to-MapReduce,可以將海量非結(jié)構(gòu)化數(shù)據(jù)的處理技術(shù)和結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)倉庫技術(shù)結(jié)合在一起。而這種高速處理海量非結(jié)構(gòu)化數(shù)據(jù)的能力,恰恰是傳統(tǒng)數(shù)據(jù)倉庫的公司所欠缺的,這也是為什么TeraData肯花如此大的價錢買下AsterData的原因。
數(shù)據(jù)本身也非常有價值。雖然,大部分的公司所面對的數(shù)據(jù)都是由內(nèi)部系統(tǒng)或者交易記錄日志之類的東西所產(chǎn)生的,但是這并不意味著他們不需要一些自己無法獲得,或者已經(jīng)被處理過的外部數(shù)據(jù)。因此,能夠下載或者訪問數(shù)據(jù)集,自然而然也就成為了商業(yè)需求,甚至美國政府都推出了官方的數(shù)據(jù)集網(wǎng)站可供下載。
InfoChimps正是一家在線的數(shù)據(jù)集市,吸引了不少才華橫溢的數(shù)據(jù)開發(fā)者。數(shù)據(jù)提供者可以將數(shù)據(jù)集上傳至InfoChimps,可以供人免費下載,或者以一定的價格銷售。另外,InfoChimps還提供很多API可供用戶調(diào)用,在超過一定數(shù)量的免費API調(diào)用限額后,InfoChimps會向用戶收取一定的費用。InfoChimps的目標就是讓每個人都能找到自己需要的數(shù)據(jù)集,目前這家公司已經(jīng)完成了A輪120萬美元的融資。
提供API服務的數(shù)據(jù)集分享公司并不止于此,Factual就是一家開放數(shù)據(jù)平臺的公司。它所提供的多種數(shù)據(jù)集漢涵蓋了本地服務、娛樂、教育和醫(yī)療等多個方面,不但可以通過API訪問,還可以很方便地通過SDK集成到移動應用當中,為依賴數(shù)據(jù)的移動創(chuàng)新帶來了很大的便利。Factual也是通過收費API調(diào)用的方式來盈利的,目前已經(jīng)募集資金達2700萬美元。
數(shù)據(jù)檢索在搜索引擎時代已經(jīng)不是什么新鮮事了,然而隨著社交網(wǎng)絡的盛行和大數(shù)據(jù)時代的到來,實時性檢索的需求也就變得越來越強烈。事實上,實時性的需求一直以來都是存在的,只是受囿于技術(shù)和成本的原因而沒有什么實質(zhì)性的突破。如今,隨著實時數(shù)據(jù)處理技術(shù)的不斷成熟,實現(xiàn)實時性數(shù)據(jù)檢索也已經(jīng)成為可能。
實時搜索引擎TopSy是目前少有的獨立運營的實時搜索引擎,他們號稱可以每秒鐘索引100萬份文檔,這個速度基本上能夠滿足實時性的需求。目前TopSy主要索引的是Twitter的數(shù)據(jù),它提供了API可供用戶訪問。在2011年1月間,TopSy共收到5億次請求,絕大多數(shù)是來自于API的調(diào)用。因此,公司也在考慮推出收費的API服務,以解決目前公司盈利模式不明朗的問題。TopSy已經(jīng)完成了C輪融資,融資總額度高達3000萬美元。
說到實時數(shù)據(jù)檢索的問題,就不能不談到Twitter剛剛推出的開源產(chǎn)品Storm。這個產(chǎn)品一經(jīng)推出就立刻吸引了大家的目光。然而卻少有人知道,Storm其實來源于Twitter剛剛收購的一家名為BackType的公司。這家公司由大名鼎鼎的YC進行孵化,在被收購以前就計劃推出Storm,然而期間卻經(jīng)歷了Twitter的收購,因此收購以后由Twitter發(fā)布Storm也是順理成章的事。Storm每秒鐘可以處理數(shù)百萬的消息,非常適合實時消息處理,而這也許是最為吸引Twitter的地方。
最近還有一件與實時數(shù)據(jù)檢索相關的收購案頗為引人關注,全球最大的連鎖零售商日前宣布收購了移動和社交廣告公司OneRiot,然而這次收購的交易金額并未對外透漏,OneRiot也被并入了沃爾瑪實驗室。OneRiot最早是一家實時搜索公司,后來借此涉足廣告領域,并關停了實時搜索,專注于實時廣告業(yè)務,并開始提供應用內(nèi)移動廣告的社交服務。OneRiot最吸引沃爾瑪?shù)牡胤?,應該就是所謂的Big Data + Fast Data,將實時的數(shù)據(jù)處理與分析和廣告聯(lián)系起來,這也將是廣告業(yè)未來發(fā)展的一個必然趨勢。
在線數(shù)據(jù)分析服務平臺是數(shù)據(jù)分析的趨勢。Quantivo的口號是“Big Data Analytics for Everyone”,該平臺可以從多種來源組合業(yè)務數(shù)據(jù),對其進行整理和合并,然后讓客戶通過專有接口來訪問甚至提問,平臺會幫你找到最好的答案。另外一家提供在線分析平臺的公司是最近剛剛完成8400萬美元融資的Opera Solutions,這次融資也使該公司的估值達到5億美元。用戶將數(shù)據(jù)上傳到Opera Solutions的平臺上,然后Opera Solutions會針對用戶的不同需求,結(jié)合行業(yè)專家的建議來為用戶提供服務。該公司雖頗為低調(diào),但年營收早已突破1億美元。
然而并不是每個公司都是服務導向性的公司,Palantir就是一家產(chǎn)品導向性的公司。這家由前PayPal員工和Stanford的一群科學家們所創(chuàng)建的公司,融資總額已接近2億美元,估值高達25億美元。Palantir主要是為政府和金融機構(gòu)提供高級數(shù)據(jù)分析平臺,該平臺源自PayPal的反欺詐分析平臺,將人工算法和強大的數(shù)據(jù)庫掃描引擎整合在一起,幫助用戶通過多種方式快速瀏覽相關的信息。更有趣的是,這家公司號稱永遠都不會有銷售、營銷和公關人員,堅持追究極致產(chǎn)品的烏托邦式工程師文化,完全通過口碑來推動公司的業(yè)務發(fā)展。
隨著社交網(wǎng)絡的興起,社交數(shù)據(jù)的分析也成為了熱點。今年Saleforce就宣布以3.26億美元的價格收購社交數(shù)據(jù)分析公司Radian6。Radian6的業(yè)務主要是圍繞著各個社交網(wǎng)站所開展。通過對各個網(wǎng)站的監(jiān)測和分析,Radian6能夠?qū)⒖蛻絷P心的數(shù)據(jù)盡早呈現(xiàn),從而使這些客戶能夠更為主動地制定市場營銷的戰(zhàn)略。對于Saleforce而言,Radian6最吸引它的地方,便是可以將現(xiàn)有的CRM與社交分析整合在一起,從而更好地滿足客戶的需求。
數(shù)據(jù)分析的服務并不只是空中樓閣或是大佬們的玩物,也許它就在你我的身邊,被Next Jump收購的公司FlightCaster就是這樣一家公司。它根據(jù)過去10年里的各種數(shù)據(jù)和當前實時的狀況,通過專利算法來預測國內(nèi)航班可能會延遲的概率,并能夠早于航空公司6個小時通知你。這對于經(jīng)常坐飛機而又飽受飛機延誤之苦的人們來說,這個預告還真是有其現(xiàn)實意義的。
數(shù)據(jù)可視化可以提供更為清晰直觀的數(shù)據(jù)感官,將錯綜復雜的數(shù)據(jù)和數(shù)據(jù)之間的關系,通過圖形的方式表達出來。俗話說:一圖勝千言,這句話用來形容數(shù)據(jù)可視化真是再貼切不過了。從某種意義上說,數(shù)據(jù)可視化更像是一種藝術(shù),它所傳達的美感總是讓人印象深刻。
MeLLmo公司就是先行者之一,主要關注于企業(yè)移動應用領域的數(shù)據(jù)可視化技術(shù)。MeLLmo推出的數(shù)據(jù)可視化平臺Roambi可以通過網(wǎng)站和移動設備導入各種類型的數(shù)據(jù),并將其圖形化處理。關于Roambi的盈利模式,主要是為企業(yè)用戶提供Pro的付費服務。MeLLmo近期剛剛完成A輪融資,總?cè)谫Y額為5000萬美元。
InfoGraphics也是廣義數(shù)據(jù)可視化的一種表現(xiàn)形式,通常用于信息的可視化,許多知名公司都為其擁有的信息制作過極富美學特質(zhì)的InfoGraphics。Visual.ly號稱是目前互聯(lián)網(wǎng)上最大的InfoGraphics收集平臺,并且在研發(fā)在線的InfoGraphics制作工具。Visual.ly希望可以建立起一個設計師社區(qū),讓InfoGraphics的制作者從中收益,比如參與到付費的廣告制作中,并借此來使Visual.ly獲利。目前Visual.ly已經(jīng)收到了50萬美元的種子投資。
圍繞著大數(shù)據(jù)的生態(tài)圈,我們參觀了各個環(huán)節(jié)上杰出的創(chuàng)新者們。這些創(chuàng)新者順應大數(shù)據(jù)時代的浪潮,敏銳地抓住了數(shù)據(jù)爆炸時代所產(chǎn)生的商業(yè)機會,他們或者已經(jīng)成功,或者依舊在追求成功的路上。
誠然,受限于篇幅的原因,我們不可能將整個大數(shù)據(jù)生態(tài)環(huán)境中所有的創(chuàng)新者納入其中,僅能選取一兩個有代表性的公司,而且也沒法進行更為深入的介紹。但是,希望本文可以幫助讀者了解整個大數(shù)據(jù)時代的商業(yè)全景,以及基于大數(shù)據(jù)的各種商業(yè)創(chuàng)新和技術(shù)創(chuàng)新,借此能夠激發(fā)出更多的創(chuàng)新,并向這些先行者們致敬。