目前的信息推薦/過濾系統(tǒng)主要有以下三種形式:1、digg模式的基于熱門效應(yīng)的推薦系統(tǒng)。2、基于搜索的關(guān)鍵詞過濾系統(tǒng)。3、基于個人喜好及關(guān)注領(lǐng)域的人肉推薦/過濾系統(tǒng)。三者各有優(yōu)缺點,但可以說這三者自身都存在一些不可克服的缺陷,必將只是處于過渡期的應(yīng)用。如希望獲得更大的發(fā)展,只有通過與其它推薦/過濾系統(tǒng)進行結(jié)合方有可能。
digg模式的推薦系統(tǒng)的著眼點在于熱門效應(yīng),當(dāng)使用人數(shù)達(dá)到一定數(shù)量時,digg模式的推薦質(zhì)量的確可以達(dá)到一個較高的水平。然而digg模式也存在著許多缺陷使其的發(fā)展受到很大限制。其中一個缺陷我已在對Google Reader的期待
此外,digg模式的另一個缺陷就是很容易造成一種假象熱門效應(yīng)。之所以會造成這種缺陷的主要原因在于digg系統(tǒng)無法實現(xiàn)精確無誤的分類/標(biāo)簽造成的。目前的digg系統(tǒng)的分類/標(biāo)簽基本是依靠用戶自行進行標(biāo)識,但我們可以發(fā)現(xiàn)這樣一種情況,某些分類的內(nèi)容由于閱讀用戶的基數(shù)大,自然潛在的推薦用戶的絕對數(shù)量要多于其它一些冷門分類。因此在某個冷門分類中的最熱門內(nèi)容都有可能在絕對推薦數(shù)量上還比不上某些熱門分類中的一般內(nèi)容。而由于Digg這類推薦模式是基于熱門效應(yīng)的推薦系統(tǒng),因此十分看重推薦數(shù)量,但又因為各種原因,而沒有一個完善的針對不同分類的不同加權(quán)的算法,對所有分類的推薦數(shù)量的加權(quán)都是一樣的。
這就導(dǎo)致了一個假象熱門效應(yīng)的產(chǎn)生。推薦系統(tǒng)的熱門內(nèi)容被某個或某幾個熱門分類所占據(jù),而其它冷門分類的熱門內(nèi)容無法得到應(yīng)有的關(guān)注。這就會造成人們希望將冷門內(nèi)容分類/標(biāo)簽在一個熱門分類/標(biāo)簽中,從而使分類/標(biāo)簽系統(tǒng)失去應(yīng)有的作用。如果說要舉一個有代表性的實例那就是抓蝦的熱文,熱文中的文章基本都被某幾類分類的文章所占據(jù),冷門內(nèi)容基本上不能獲得多少關(guān)注的機會。而且由于抓蝦的熱文沒有一個分類/標(biāo)簽系統(tǒng),在熱文初期由于抓蝦用戶類型單一還不會很明顯,但由于用戶數(shù)量的增加,目前這種情況就有點像分類/標(biāo)簽混亂之后的Digg推薦模式。
digg模式的第三個缺陷同樣是由于基于熱門效應(yīng)而產(chǎn)生的。由于世界上不存在兩個完全相同的人,每個人都或多或少地會偏離主流,因此digg模式的推薦系統(tǒng)無法做到精確的用戶定位,用戶還是必須通過較為低效率的人肉過濾方式來對推薦的文章進行二次過濾。并且由于推薦的內(nèi)容是主流內(nèi)容,無法發(fā)掘到不同用戶由于不同的個性所關(guān)注的一些冷門內(nèi)容,推薦的覆蓋率還不夠高。
關(guān)鍵詞過濾系統(tǒng)的缺陷則在于受目前搜索算法的限制,過濾受到關(guān)鍵詞的限制。如果無法提供完善的關(guān)鍵詞搭配組合就無法實現(xiàn)一個較好的過濾效果,過粗則仍需要花費大量時間進行低效率的二次過濾工作,而過細(xì)則容易漏過一些有用的文章造成過濾效果不佳。此外要實現(xiàn)一個較好的關(guān)鍵詞過濾效果首先需要有足夠的優(yōu)秀信息源的支持,而從目前來看,過濾信息源的工作主要還是依靠人肉過濾系統(tǒng),因此受到的局限很大。
至于人肉推薦/過濾系統(tǒng)的局限就更加明顯了。每個人的推薦/過濾準(zhǔn)則受其自身的興趣愛好以及所關(guān)注的領(lǐng)域等原因所局限,你無法找到一個和你有著相同興趣愛好以及關(guān)注相同領(lǐng)域的人來為你進行信息推薦/過濾。即使是同一類的用戶也會因為各種原因造成推薦/過濾的內(nèi)容不符合你的要求,而同樣無法進行精確的用戶定位,仍然需要進行二次過濾工作。并且由于每個人的閱讀量的限制,就算是Keso也最多只能每天讀1500個Feed的內(nèi)容,信息源的不足導(dǎo)致過濾的范圍受到局限。而如果希望通過多個用戶的信息推薦/過濾來進行解決的話則需要花費大量的時間來過濾重復(fù)內(nèi)容和不符要求的內(nèi)容,效率可想而知。
所以我認(rèn)為能在最大限度上來解決信息過載的信息推薦/過濾系統(tǒng),只有基于長尾理論的個性化推薦/過濾系統(tǒng)。而要打造這么一個推薦/過濾系統(tǒng)需要擁有一個龐大的用戶數(shù)據(jù)庫,利用這些用戶數(shù)據(jù)進行用戶行為分析來生成一份用戶的檔案,根據(jù)這個檔案中的信息來進行推薦和過濾工作。而在我看來這一基于長尾理論的個性化推薦/過濾系統(tǒng)的應(yīng)用載體必然是Feed閱讀器
Google提供的互聯(lián)網(wǎng)服務(wù)基本可以覆蓋了目前一個用戶在互聯(lián)網(wǎng)上的主要應(yīng)用。而值得慶幸的是Google用戶的忠誠度相比其它公司的用戶要高不少,因此用戶中的忠實用戶比例比起一般的公司要高。這使得Google掌握了足夠多的這些用戶的數(shù)據(jù),這是基于長尾理論的個性化推薦/過濾系統(tǒng)的基礎(chǔ)。盡管所有提供在線Feed閱讀器服務(wù)的公司都可以進行用戶行為分析,但僅僅通過用戶在在線Feed閱讀器中的行為分析,無法利用這些數(shù)據(jù)生成一份準(zhǔn)確的用戶檔案。因此無法進行精確的用戶定位,而如果無法做到這一點,那這個推薦/過濾系統(tǒng)就無法發(fā)揮應(yīng)有的作用。因此符合開發(fā)門檻要求的只有極少的幾個公司。而這其中只有Google開發(fā)了在線Feed閱讀器服務(wù),并且占據(jù)了極大的市場份額,因此Google同時也具備了關(guān)鍵的閱讀器用戶數(shù)據(jù)的要求。
如果能根據(jù)用戶數(shù)據(jù)進行多角度的精確的用戶行為分析,并且結(jié)合用戶群體等特性進行結(jié)合,最終得出一份有效的用戶檔案。那這一推薦/過濾系統(tǒng)將能使信息推薦/過濾效果和效率達(dá)到一個前所未有的高度。不僅推薦/過濾的信息將符合用戶的需求,并且將拓展用戶的閱讀視角。根據(jù)用戶的數(shù)據(jù)分析,也許能幫助用戶發(fā)現(xiàn)一些用戶自己都不知道的自己潛在的閱讀需求。真正在信息過載的時代取得一個較好的信息獲取效果。一個完善的信息推薦/過濾系統(tǒng)是推動人們對信息的處理方式進行一次大幅度革新的關(guān)鍵。本文或許可以算是我這樣一個處于信息過載時代的人,對未來信息處理方式的憧憬?不過在這個系統(tǒng)出現(xiàn)之前,還是先練就解決信息過載的神功