大家多少都用過搜索引擎,google、yahoo、baidu還有很多搜索引擎目前都有個(gè)特點(diǎn),就是你和我使用同一個(gè)keyword去搜索,得到的結(jié)果將是一樣的,但事實(shí)上我們兩個(gè)因?yàn)閭€(gè)人性格、愛好、文化背景等不一樣,對(duì)同樣的搜索結(jié)果的滿意度是不一樣的,有沒有辦法能讓搜索引擎自動(dòng)根據(jù)我們兩個(gè)之間的這種差異,返回給我們最適合各自的結(jié)果呢? 答案是肯定的,這就是個(gè)性化搜索,根據(jù)不同人的不同特點(diǎn),提供不同的搜索結(jié)果。

傳統(tǒng)的搜索引擎根據(jù)關(guān)鍵詞來創(chuàng)建索引并得到搜索結(jié)果,同時(shí)根據(jù)關(guān)鍵詞來提供廣告服務(wù),這往往是不夠準(zhǔn)確的,比如同樣搜索hotel,不同的人可能希望得到的結(jié)果是不一樣的,有錢人希望得到的是最好的星級(jí)酒店,普通老百姓希望得到的是便宜實(shí)惠的結(jié)果,同樣,廣告的展現(xiàn)希望更加準(zhǔn)確,比如喜歡自駕游的用戶顯然應(yīng)該推薦更多汽車旅館的廣告,而喜歡大海的用戶則應(yīng)該得到更多海邊度假酒店的廣告。

  目前有不少的搜索引擎已經(jīng)開始意識(shí)到個(gè)性化搜索的重要性,并且開始進(jìn)行了積極的嘗試,google提供的history和personalize服務(wù),就是類似這樣的東西,不過和google提供的這種服務(wù)一樣,各個(gè)搜索引擎目前都面臨同樣的問題,那就是他們大多基于用戶所有的搜索歷史來進(jìn)行個(gè)性化分析,這種分析僅僅基于單一的關(guān)鍵詞,往往不夠準(zhǔn)確,理論上應(yīng)該考慮更多關(guān)鍵詞之外的用戶特性,比如點(diǎn)擊行為,對(duì)同樣排序結(jié)果里面不同位置的滿意度、點(diǎn)擊率等因素綜合計(jì)算。同時(shí),通過用戶搜索歷史記錄來提供個(gè)性化搜索服務(wù),將面臨侵犯隱私的重大法律障礙,這成為目前各大搜索引擎棘手的問題。

  我有三個(gè)美國(guó)的華人朋友,其中一個(gè)是麻省理工研修人工智能的博士,7年的博士課程僅3年半就順利完成,目前已經(jīng)是美國(guó)人工智能領(lǐng)域排名前三位的科學(xué)家之一,他和兩位兩個(gè)朋友一起,近幾年來基于他在基因DNA搜索領(lǐng)域的研究成果,開發(fā)出一套算法,該算法成功的應(yīng)用到了傳統(tǒng)的互聯(lián)網(wǎng)搜索引擎上,有效的實(shí)現(xiàn)了個(gè)性化搜索,解決了其他搜索引擎面臨的問題。

  通過他們的算法,可以實(shí)現(xiàn)類似下面的功能:

  • 不同的人搜索同樣的關(guān)鍵詞,可以根據(jù)不同人的各種屬性(地域、年齡、性別、愛好、職業(yè)、歷史搜索…等等)分別得到最適合自己的結(jié)果。
  • 可以根據(jù)用戶各自的差異和特點(diǎn),提供最適合該用戶的廣告投放。
  • 可以根據(jù)不同的用戶特點(diǎn),劃分具有共同愛好、特性的用戶群體。

  最關(guān)鍵的一點(diǎn),他們的這套算法沒有任何其他搜索引擎面臨的侵犯用戶隱私的擔(dān)憂,這套算法基于人工智能和用戶模型來實(shí)現(xiàn),每個(gè)用戶都會(huì)有個(gè)初始的用戶模型,該模型會(huì)根據(jù)用戶的各種屬性來不斷調(diào)整,會(huì)隨著用戶長(zhǎng)期的使用搜索引擎,查詢不同的關(guān)鍵詞,點(diǎn)擊和收藏不同的結(jié)果等event來調(diào)整,最后這個(gè)抽象出來的用戶模型將非常接近現(xiàn)實(shí)中的用戶本人,從而達(dá)到個(gè)性化的目的,而這個(gè)過程中,搜索引擎不記錄任何用戶操作歷史。

  我和這三位朋友接觸較長(zhǎng)一段時(shí)間,我協(xié)助他們用了近三個(gè)月的時(shí)間開發(fā)出了一個(gè)demo的prototype系統(tǒng),該系統(tǒng)基于抓取Google、Yahoo的web search和sponsoredlinks結(jié)果進(jìn)行分析,同時(shí)使用了簡(jiǎn)單的MySQL數(shù)據(jù)存儲(chǔ)、Lucene全文檢索等技術(shù)對(duì)他們的核心算法提供外圍技術(shù)支持,系統(tǒng)除了web界面采用PHP的Zend Framework外,大部分部件均基于LinuxC/C++開發(fā),尤其是和核心算法服務(wù)之間的通訊、詞表的解析等關(guān)鍵的應(yīng)用,可以保證系統(tǒng)的性能,目前演示的系統(tǒng)上每一次search請(qǐng)求都會(huì)實(shí)時(shí)從Google、Yahoo上抓取并實(shí)時(shí)進(jìn)行分析和排序,實(shí)際生產(chǎn)應(yīng)用中會(huì)考慮應(yīng)用更多的緩存技術(shù)來進(jìn)一步提高效率,甚至和Google等數(shù)據(jù)提供商緊密的合作。

  目前該項(xiàng)目正在美國(guó)尋求VC的投資,說實(shí)話,經(jīng)過我的實(shí)際使用,我非??春眠@個(gè)項(xiàng)目,希望真的可以成功。