搜準率是一個很難量化的指標,如何判斷一個搜索引擎的搜索結(jié)果和使用者的意圖最相關(guān),沒有一個定性的結(jié)論。所以很多冠以智能化、社會化、元搜索頭銜的搜索引擎也都是朝搜準這個方向努力,耐人尋味的是,大多數(shù)公司都宣稱自己的搜索引擎是基于那些技術(shù),卻沒有告訴我們一個可以接受的衡量指標。當(dāng)然,這不怪他們。
搜全率相對來說則可以量化,最簡單的衡量指標就是索引量了。google和yahoo 之間曾有過爭論:“實測證明Google仍是搜索之王 雅虎"牛皮"吹破” 。對于這次爭論google是如何反擊的呢?正如keso所說的google在反商業(yè)化的上的成功一樣,google 隨后不久透露要減小索引庫的大小。很顯然對于浩如煙海的互聯(lián)網(wǎng)來說,能搜全仍是一個艱巨的目標。
類似的情景正在中國上演。在“It人士每天必讀的100篇互聯(lián)網(wǎng)新聞”上經(jīng)??梢钥吹窖呕⒅袊男麄鞲寮?,主題有開創(chuàng)藍海、搜索盲測、抓蟲行動等等,而百度此類的新聞卻鮮有耳聞。百度的低調(diào)或許可以讓他在靠近“google”的形象上多加一分。
中文搜索引擎誰最好?除了搜全率和搜準率外,最近又多出了一個爭論的焦點:“誰最懂中文”。然后在這場單方面發(fā)起的誰最懂中文的時候,搜狗卻實實在在的來了句:“搜狗更懂網(wǎng)絡(luò)”。我想雅虎市場人員也許該從百事可樂的成功中學(xué)點什么。
作為一個搜索引擎的愛好者,我對搜全率和搜準率的問題也非常關(guān)注。于是動手準備測試一下雅虎中國和百度索引庫的情況。這并不是一個好差事,但我決定還是嘗試一下。
搜全率的測試方法:基本方法:抽樣測試
分2個階段進行:
1、測試對指定站點的索引量 (本文進行分析)
2、測試對基礎(chǔ)關(guān)鍵詞的索引量(在下一篇文章中進行分析)
本文的數(shù)據(jù)主要是對“指定站點的索引量”的一個數(shù)據(jù)統(tǒng)計。
基本資料分三部分:
1、指定站點的來源,出于公平的考慮,指定站點分別來源于:http://site.baidu.com 和 http://site.yahoo.com.cn ??偣?784個,可以從下面的鏈接下載。
2、對上述站點的索引量統(tǒng)計,即使用:site:domain 的方法獲取搜索引擎對此站點的索引量。為了增加可比性,去掉了索引量為0的站點(或許因為網(wǎng)絡(luò)錯誤造成的,原始資料在附件中)。
(前端時間百度的site數(shù)量變化有些異常,現(xiàn)在基本正常。另一篇文章會捎帶分析這個現(xiàn)象。)
3、相關(guān)分析。
結(jié)果見下圖:
(分析過程省略,詳細的數(shù)據(jù)可以從這里下載: http://www.search-analysis.com/baiduVSyahoochina-01.rar)
結(jié)論:
1、百度的索引庫比雅虎中國的大。
在雙方都認為最重要的3793個站點中:百度索引量:1626829061 ,雅虎中國的索引量:1018594668,高出:608234393 ,高出6億。
2、百度的索引量分布圖比較接近“長尾 Long Tail ”,長尾曲線比較完美。圖形越接近長尾表明搜索引擎索引庫基礎(chǔ)的架構(gòu)越好。
(理由是:"哥白尼對天動說美學(xué)上的反對是他拒絕托勒密體系的重要原因..." - Thomas Kuhn, The Copernican Revolution )