打開SOGOU首頁,“3.0”,“100億”兩組數(shù)字尤為顯眼,看來SOGOU在拿抓取100億頁面來做文章,吸引眾人眼光。但其所稱的100億數(shù)字,令眼鏡蛇質(zhì)疑,抓取的100億頁面質(zhì)量怎么樣,如果將一堆垃圾網(wǎng)站的頁面抓來,不如不統(tǒng)計。
根據(jù)搜索研究3年的經(jīng)驗,眼鏡蛇試用以前研究搜索的方法前去搜索了某些關(guān)鍵字,得到的結(jié)果令人驚訝。首先拿“搜索 %D0%A1%CB%B5”當做關(guān)鍵字去搜索,得到了“1,463,786”個結(jié)果,根據(jù)前幾十頁顯示,SOGOU抓取的幾乎是互聯(lián)網(wǎng)某些網(wǎng)站搜索結(jié)果的頁面。比如第一名,抓的是百度相關(guān)搜索的文章。SOGOU本身是做搜索的,又去抓其他站的站內(nèi)搜索,這樣做是為了什么呢?原因之一,就是為了增加收錄量,因為一個網(wǎng)站,站內(nèi)搜索關(guān)鍵字可以去換,比如眼鏡蛇在百度搜索音樂,SOGOU抓一次,眼鏡蛇在百度搜索影視,SOGOU再抓一次,這樣的話,搜索的次數(shù)越多,SOGOU抓的可能性越大,這種方法是SOGOU號稱抓取百億網(wǎng)頁的其中之一。這種作法不會影響SOGOU的搜索質(zhì)量,又同時給SOGOU增加了數(shù)據(jù)量,SOGOU在這點很聰明。
針對做弊網(wǎng)站,SOGOU也是照抓不誤,百度針對做弊網(wǎng)站的作法是封殺,然而SOGOU幾乎不封的,只是降權(quán),這一點又為SOGOU在數(shù)據(jù)量上做了貢獻。像GOOGLE上的做弊網(wǎng)站也很多,多數(shù)雖然不封殺,但不會拿抓取網(wǎng)頁數(shù)作為搜索宣傳的手段。
眼鏡蛇又想到了個方法測試SOGOU抓取百億頁面的方法,就是利用幾乎每篇文章中幾乎出現(xiàn)的“com”,“的”等前去搜索,結(jié)果也令人失望,“com”詞在SOGOU搜索中只找到“1,428,761,785”個結(jié)果。百度搜索“com”的結(jié)果個數(shù)為“100,000,000”,GOOGLE搜索“com”的結(jié)果個數(shù)為“628,000,000”,YAHOO中文搜索“com”的結(jié)果個數(shù)為“1,570,000,000”。在這個特別關(guān)鍵字上,百度,GOOGLE,YAHOO已經(jīng)將此關(guān)鍵字的搜索結(jié)果個數(shù)處理了,SOGOU的數(shù)據(jù)應該是未處理的,其結(jié)果只有14億多。很明顯的看出,SOGOU網(wǎng)頁抓取數(shù)據(jù)之多,但供檢索的數(shù)量遠沒有100億那么龐大。
眼鏡蛇利用SOGOU的“比比看”試著搜索了一些熱門關(guān)鍵字,發(fā)現(xiàn)SOGOU的技術(shù)的確大有進步,好些詞的結(jié)果滿意度已經(jīng)超過了baidu與GOOGLE。網(wǎng)頁搜索質(zhì)量上去了,但也不能撒謊稱自己擁有百億搜索結(jié)果,用戶關(guān)心的是搜索質(zhì)量,不是搜索數(shù)量。搜索行業(yè),2007又是殘酷競爭的一年,SOGOU要想一統(tǒng)天下,下面就要看怎么從百度,GOOGLE中搶用戶了。