1. 面臨的問題
搜索引擎已經(jīng)是互聯(lián)網(wǎng)上一個非常成熟的應(yīng)用產(chǎn)品了,但是長期以來,中文用戶對于搜索引擎的表現(xiàn),卻不盡如人意。在國外做的一次搜索引擎用戶滿意度調(diào)查中,發(fā)現(xiàn)英文搜索用戶的滿意程度大致在70%,但是在國內(nèi)做的搜索引擎用戶滿意度調(diào)查中,用戶滿意度卻只有大概40%。
這里面其實有一個很大的原因就在于頁面的收錄量,因為比如像Google這樣的英文搜索引擎,它檢索了大概200億的英文搜索頁面,可以評估英文的互聯(lián)網(wǎng)網(wǎng)頁的數(shù)量大概在300億左右,這時可以看到Google已經(jīng)覆蓋了英文網(wǎng)頁數(shù)據(jù)量的60%到70%,在這個前提條件下,它能做到的用戶滿意度也能達到60%到70%。
對于中文網(wǎng)頁,現(xiàn)在各大中文搜索引擎,包括現(xiàn)在的搜狗、百度和Google,其頁面收錄量都在40億到50億之間。而互聯(lián)網(wǎng)上中文網(wǎng)頁有效數(shù)量大致在100到150億之間,可以看到目前市場上各家搜索引擎對于中文數(shù)據(jù)的收錄量遠比英文數(shù)據(jù)的收錄量低很多,導(dǎo)致了用戶想要的信息找不到,這也就是中文搜索引擎的用戶滿意度要比英文的低很多的一個主要原因。
此外,由于Web2.0概念的普及,博客、論壇、社區(qū)、圈子等應(yīng)用的涌現(xiàn),互聯(lián)網(wǎng)上越來越多的用戶從信息的獲取者變成了信息的發(fā)布者。經(jīng)評估,目前互聯(lián)網(wǎng)上網(wǎng)頁數(shù)量每天新增1%,更新10%,而目前中文搜索引擎市場上沒有產(chǎn)品能夠支持每天上億網(wǎng)頁的數(shù)據(jù)更新,導(dǎo)致用戶認為搜索引擎只能找到非常陳舊的信息,加劇了用戶對于中文搜索引擎的不滿意程度。
同時,面對如此巨大的網(wǎng)頁收錄量,很多關(guān)鍵字在搜索的時候,命中的結(jié)果都在百萬千萬數(shù)量級,大量的重復(fù)結(jié)果、作弊結(jié)果、無關(guān)結(jié)果,已經(jīng)不可能再靠人眼一目十行的掃描來濾除。艾瑞市場咨詢根據(jù)來自Keynote的數(shù)據(jù)顯示,中國搜索引擎用戶不滿意的因素中,有50%的用戶對搜索結(jié)果重復(fù)表示不滿。同時,搜索結(jié)果排序欠佳、搜索結(jié)果太雜亂、搜索結(jié)果不合時宜的比例分別為43%、37%和36%。前十條搜索結(jié)果的不精準(zhǔn),成為了用戶不滿意中文搜索引擎的又一座大山。
2. 解決方法
為了解決廣大中文網(wǎng)民面對的數(shù)據(jù)量大、更新慢、結(jié)果不精準(zhǔn)這三大問題,搜狗將于2007年1月1日推出網(wǎng)頁搜索3.0的版本。該版本的特點是:海量全、及時新、精準(zhǔn)。
2.1. 海量全——收錄百億網(wǎng)頁
歷史上,搜狗就一直重視數(shù)據(jù)量的積累。但是由于搜狗起步較晚,因此在2004年的8月發(fā)布的時候,數(shù)據(jù)量實際上非常小,大概只有有2億,以致當(dāng)時剛剛用搜狗搜索引擎的用戶普遍反映在搜狗上有很多內(nèi)容查不出來。但是,一直致力于后臺技術(shù)研發(fā)和數(shù)據(jù)積累的搜狗,只用了兩年時間,在2006年8月份的時候,就成功支持了50億中文網(wǎng)頁的查詢,成為了全球首個中文網(wǎng)頁收錄量達到50億的搜索引擎。
我們知道,每一次數(shù)據(jù)量的大幅提升,都需要后臺技術(shù)對于抓取、頁面分析、濾重、索引、排序、反垃圾等一系列的功能模塊進行全方位的升級,以支持更大的容量;因此,數(shù)據(jù)量的大小,從一定程度上反映了搜索引擎研發(fā)團隊的技術(shù)實力。在2007年1月1日搜狗3.0發(fā)布的時候,搜狗更是將數(shù)據(jù)量拓展到了100億,自主研發(fā)的超流水線并行抓取技術(shù)自主研發(fā)的并行協(xié)同抓取技術(shù),進一步拉開了與競爭對手的差距。值得一提的是,由于采用了自行開發(fā)的文件系統(tǒng)和數(shù)據(jù)庫,搜狗大幅提升了服務(wù)器利用率,用遠少于競爭對手的投入,就達到了收錄百億網(wǎng)頁目標(biāo)。
搜狗對于數(shù)據(jù)量的積累,實際上是按照指數(shù)級的速度在增長的。而大家對互聯(lián)網(wǎng)的一個普遍認識:中文互聯(lián)網(wǎng)的網(wǎng)頁數(shù)量也是按照指數(shù)級的方式在增長的。因此可以非常有信心地說搜狗的增長是能夠跟上中文互聯(lián)速度增長或者說爆炸速度的。
2.2. 及時新——每天更新五億網(wǎng)頁
我們知道,互聯(lián)網(wǎng)上不同網(wǎng)頁之間的更新速度差異是巨大的。比如新聞網(wǎng)站,每天都會有大量新內(nèi)容的產(chǎn)生;而一個顯示圓周率的網(wǎng)站,可能三年都不會更新一次。因此,在抓取速度上,搜狗通過智能分析技術(shù),對于不同網(wǎng)站、網(wǎng)頁采取了差異化的抓取策略,充分地利用了帶寬資源來抓取高時效性信息,確?;ヂ?lián)網(wǎng)上的最新資訊能夠在第一時間被用戶檢索到。
此外,依托于搜狐內(nèi)容頻道這一中國最領(lǐng)先的,覆蓋了幾乎所有國內(nèi)外重要新聞的新媒體資訊平臺,搜狗能直接獲取到最新的高質(zhì)量新聞內(nèi)容,在很大程度上保證了搜狗對于及時性超快的響應(yīng),成為搜狗網(wǎng)頁搜索獨一無二的優(yōu)勢。
在網(wǎng)頁搜索3.0平臺上,每天搜狗的服務(wù)器集群并行更新超過五億的網(wǎng)頁。在強大的更新能力下,用戶不必再到專門的新聞搜索引擎上,就能獲得最新的資訊。
為了滿足對及時性要求極高的用戶的需求,搜狗還特意提供了按時間排序的功能,使得搜狗網(wǎng)頁搜索3.0強大的網(wǎng)頁更新能力,能夠幫助用戶更快地找到想要的信息。
2.3. 精準(zhǔn)——評測指標(biāo)業(yè)內(nèi)領(lǐng)先
眾所周知,Google較之于第一代搜索引擎(如Yahoo! Directory)在搜索結(jié)果的準(zhǔn)確性上有大幅提高,很大程度上得益于它名為“Page Rank”的網(wǎng)頁排名算法。在互聯(lián)網(wǎng)上,如果一個網(wǎng)頁被很多其它網(wǎng)頁所鏈接,說明它受到普遍的承認和信賴,那么它的排名就應(yīng)當(dāng)高。這就是 Page Rank 的核心思想。但是,由于Google對于中文互聯(lián)網(wǎng)的收錄量不足,因此對于鏈接關(guān)系的考量不夠全面,導(dǎo)致其中文搜索效果不如英文。
搜狗在搜索結(jié)果的排名上采用了被業(yè)界廣泛認可的搜狗網(wǎng)頁評級體系。網(wǎng)頁評級是搜狗衡量網(wǎng)頁重要性的指標(biāo),不僅考察了網(wǎng)頁之間鏈接關(guān)系,同時考察了鏈接質(zhì)量、鏈接之間的相關(guān)性等特性,是機器根據(jù)Sogou Rank算法自動計算出來的,值從0至100不等。網(wǎng)頁評級越高,該網(wǎng)頁在搜索中越容易被檢索到。
搜狗網(wǎng)頁評級依托搜狗百億中文網(wǎng)頁的儲備,分析最全的中文互聯(lián)網(wǎng)鏈接庫,確保評級的客觀公正。由于有了網(wǎng)頁評級體系的保證,搜狗的搜索結(jié)果能夠做到更加精準(zhǔn)。
在學(xué)術(shù)界,網(wǎng)頁搜索的查詢被分為導(dǎo)航型和信息事務(wù)型兩類。導(dǎo)航型是指用戶輸入“搜狐”、“搜狗”、“ChinaRen”等關(guān)鍵字的查詢,他們預(yù)期在第一條結(jié)果得到準(zhǔn)確的站點結(jié)果。信息事務(wù)型是指用戶輸入“綠茶”、“張靚穎”等關(guān)鍵字的查詢,他們預(yù)期找到包含該關(guān)鍵字的各種網(wǎng)頁,從中獲取有用信息。經(jīng)過人工對于隨機選取的上千個查詢詞進行測試,搜狗在導(dǎo)航型和信息事務(wù)型查詢的表現(xiàn),分別達到了94%和67%的準(zhǔn)確度,處于業(yè)內(nèi)領(lǐng)先水平。
另外一方面,用戶對于搜索結(jié)果的點擊,代表了用戶對搜索結(jié)果的認可。數(shù)據(jù)分析表明,用戶每次搜索后,點擊結(jié)果的次數(shù)越多,說明搜索結(jié)果越精準(zhǔn)。搜狗從用戶體驗出發(fā),將結(jié)果點擊次數(shù)與搜索次數(shù)的比率,即點擊通過率,作為評估搜索結(jié)果精準(zhǔn)性的重要指標(biāo),進行優(yōu)化,確保我們的算法滿足用戶對于“精準(zhǔn)”的理解。
3. 效果
通過搜狗網(wǎng)頁搜索3.0在海量在全、及時新、精準(zhǔn)三方面的努力,搜狗網(wǎng)頁搜索的效果得到了大幅提升,有效解決了中文搜索用戶面臨的三大困擾。
在海量方面,由于數(shù)據(jù)量大,保證了有價值的信息能被找到。比如搜索“中國站長大會”,搜狗的結(jié)果相對于百度的結(jié)果,明顯能看見數(shù)據(jù)量大所產(chǎn)生的優(yōu)勢。
在及時性方面,搜狗在多次互聯(lián)網(wǎng)熱點事件后,均在第一時間內(nèi)搜索到了大量相關(guān)結(jié)果,滿足了網(wǎng)友對于新信息的獲取。經(jīng)過測試,互聯(lián)網(wǎng)上的熱點新聞,搜狗3.0僅需1分鐘時間就能完成從抓取到頁面分析到建立索引到上線的全部過程。在這樣的速度下,每天搜狗的服務(wù)器集群并行更新了上億的網(wǎng)頁。在強大的更新能力下,用戶不必再到專門的新聞搜索引擎上,就能獲得最新的資訊。
在精準(zhǔn)方面,用戶對于搜索結(jié)果的點擊,代表了用戶對搜索結(jié)果的認可。數(shù)據(jù)分析表明,用戶每次搜索后,點擊結(jié)果的次數(shù)越多,說明搜索結(jié)果越精準(zhǔn)。搜狗從用戶體驗出發(fā),將結(jié)果點擊次數(shù)與搜索次數(shù)的比率,即點擊通過率,作為評估搜索結(jié)果精準(zhǔn)性的重要指標(biāo),進行優(yōu)化,確保我們的算法滿足用戶對于“精準(zhǔn)”的理解。搜狗在3.0版本上線后,網(wǎng)頁搜索的點擊通過率提升了10%。從數(shù)據(jù)統(tǒng)計上,證明了網(wǎng)頁搜索3.0的強大能力。