進(jìn)入21世紀(jì),互聯(lián)網(wǎng)逐步成為人們生活中不可缺少的元素。北京BDA市場研究公司2008年3月份的研究報(bào)告稱,根據(jù)中國互聯(lián)網(wǎng)網(wǎng)絡(luò)信息中心的數(shù)據(jù)預(yù)計(jì),按用戶數(shù)量計(jì)算,中國目前已經(jīng)超過美國而成為全球最大的互聯(lián)網(wǎng)市場。中國互聯(lián)網(wǎng)網(wǎng)絡(luò)信息中心的資料顯示,截止到2007年年底,中國互聯(lián)網(wǎng)用戶數(shù)量達(dá)到了2.1億。而根據(jù)Nielsen/NetRatings的資料顯示,截止到2007年年底,美國的互聯(lián)網(wǎng)用戶數(shù)量為2.16億。根據(jù)2007年底中國互聯(lián)網(wǎng)絡(luò)中心(CNNIX)發(fā)布的報(bào)告數(shù)據(jù),2007年中國網(wǎng)民數(shù)量年增長速度為53.3%。因此,有理由相信到2010年中國將會成為全球最大的,最有潛力的互聯(lián)網(wǎng)市場。
目前國內(nèi)比較大的互聯(lián)網(wǎng)企業(yè)有:騰訊,阿里集團(tuán),新浪集團(tuán)等,從2004年開始到現(xiàn)在,這些大型的互聯(lián)網(wǎng)企業(yè)對數(shù)據(jù)挖掘產(chǎn)生了爆發(fā)性的需求。那么這些互聯(lián)網(wǎng)公司都在挖些什么呢?根據(jù)野心的觀察和了解,目前互聯(lián)網(wǎng)企業(yè)的數(shù)據(jù)挖掘工作主要圍繞著下面幾個(gè)問題進(jìn)行:
1、基礎(chǔ)的數(shù)據(jù)分析。由于互聯(lián)網(wǎng)行業(yè)發(fā)展速度較快,新產(chǎn)品的測試和上線周期很短,要對產(chǎn)品的運(yùn)營情況作出客觀的分析需要以數(shù)據(jù)分析為支持。因此,基礎(chǔ)性的數(shù)據(jù)分析工作可以說是互聯(lián)網(wǎng)企業(yè)中最日常性的工作。
2、用戶行為分析。互聯(lián)網(wǎng)公司最難解決的就是如何將用戶的線上行為與用戶的線下信息對應(yīng)起來。雖然,互聯(lián)網(wǎng)公司能記錄的是用戶的瀏覽的日志文件,而這個(gè)用戶在線下是張三還是李四,是白領(lǐng)還是民工,那就無從得知了。騰訊是一個(gè)比較特殊的例子,QQ為用戶提供了一個(gè)即時(shí)通信的平臺,騰訊的其他業(yè)務(wù)都可以通過QQ ID進(jìn)行登錄,包括QQ.com的瀏覽也可以從IM上探出的迷你首頁進(jìn)入,因此后臺記錄的用戶行為相當(dāng)豐富。這就讓騰訊能夠進(jìn)行類似電信行業(yè)中的用戶行為分析,在這些用戶行為數(shù)據(jù)的基礎(chǔ)上建立分群,分類預(yù)測和關(guān)聯(lián)分析模型。而阿里集團(tuán)下的淘寶和阿里巴巴則傾向于從商業(yè)的角度分析買賣雙方的交易行為,從而為市場活動提供決策的依據(jù)。
3、收入,用戶數(shù)方面的預(yù)測。這是一個(gè)時(shí)間序列方面的問題,互聯(lián)網(wǎng)公司往往希望知道收入的變動情況或者活躍用戶數(shù)據(jù)的變化情況,因此這類預(yù)測往往會被提出來。但從野心的角度看,由于互聯(lián)網(wǎng)公司業(yè)務(wù)變化速度較快,外界突發(fā)事件對運(yùn)營情況產(chǎn)生的影響很大,因此這種預(yù)測的誤差往往是比較大的,僅具有參考性意義。
4、SNS分析。SNS是這兩年國內(nèi)外業(yè)界和學(xué)術(shù)屆都在熱炒的問題。許多互聯(lián)網(wǎng)公司都在研究這個(gè)問題,但是仍然沒能取得很好的研究結(jié)論。野心認(rèn)為,SNS在海量用戶的環(huán)境中要解決3個(gè)比較大的問題:1、SNS的中心在哪;2、SNS的圈子要劃多大;3、如何尋找一種合適的算法在海量數(shù)據(jù)中把一個(gè)一個(gè)的圈子找出來。野心覺得,單純采用數(shù)據(jù)挖掘和計(jì)算機(jī)技術(shù)不足以解決這個(gè)問題,可能需要借助社會學(xué)的理論和方法。