性感美女脱光衣服全过程的视频,mmm美女视频

關(guān)于檢索，你一定想錯了

南書風(fēng) >《參考咨詢》

2009.12.01

關(guān)注

關(guān)于檢索，你一定想錯了(2009-11-28 02:51:24)

標(biāo)簽：檢索 it

感謝一些熱心關(guān)注，這幾個月意外層出不窮，另一方面又比較懶，所以沒有持續(xù)寫下去。

引言

很多人和js說，想通過系統(tǒng)的學(xué)習(xí)檢索，使檢索水平得到提高。

js很為難，因為事實上沒有較系統(tǒng)的“檢索理論”。不信的話去書店翻翻那些污七八糟的檢索書，看看里面都談了哪些“理論”。

底層的術(shù)語構(gòu)成、術(shù)語組合或許有規(guī)律，但沒有大樣本統(tǒng)計很難揭示，齊夫規(guī)律僅僅是談到詞頻而已。

因此，js想基于檢索實踐，談一些檢索實踐中常犯的錯誤，使檢索者通過增加實踐，少犯錯誤，逐漸提高檢索水平，并在實踐中體會和發(fā)現(xiàn)一些規(guī)律，這樣集思廣益，或許對認(rèn)識與構(gòu)建所謂的系統(tǒng)的“檢索理論”有點意義。

1. （先來個震撼點的）google一下“全球變暖”，有超過1000萬個網(wǎng)頁。（更多的俗稱是baidu一下...）

錯：很少有人想到這是個騙局。給檢索框里的“全球變暖”加上雙引號（單引號都不行），發(fā)現(xiàn)只有65萬多網(wǎng)頁（2009年11月28日）。

原因：

（1）google使用了分詞技術(shù)以及相關(guān)性檢索，將不完全匹配的網(wǎng)頁也視作檢索結(jié)果。例如僅含有“全球”或“變暖”，或者“全球”和“變暖”未連在一起的。具體輸出情形，js未做確切核實。當(dāng)然了，google自然有人知道，這取決于匹配規(guī)則和輸出閾等。

（2）實際上即便只有6萬個網(wǎng)頁，顯示說有60萬個也沒有問題，因為沒有人會找到第60001個網(wǎng)頁，看是否相關(guān)。

不信的話，用google提交“迪拜危機(jī)”（加雙引號）翻到最后一頁（相信js，你就能翻到），同時注意提示的檢索結(jié)果數(shù)量的變化。

很多新聞在結(jié)束時，習(xí)慣說個“baidu一下”或者“google一下”，與某個關(guān)鍵詞相關(guān)的網(wǎng)頁有xxxxx個，其實這些都是廢話。

2. 檢索系統(tǒng)很強(qiáng)大，只有想不到，沒有檢不到。

錯：你檢不到下周中午12點北京的具體氣溫，檢不到2012年的某一天會在做什么，檢不到你的愛人現(xiàn)在想什么，檢不到史前一萬年世界上有多少只螞蟻，檢不到海底一萬米究竟有哪些生物...

實際上，你只能檢到檢索系統(tǒng)收錄的信息。

3. 檢索高手很厲害，“人肉搜索”讓人無處可躲。

錯：

（1）所謂的“人肉搜索”是對“Grassroots search”（草根搜索）的誤解。

搜索引擎使應(yīng)用計算機(jī)檢索系統(tǒng)進(jìn)行的檢索得到普及，之前僅僅是一些專業(yè)的檢索人員以及專業(yè)的學(xué)術(shù)研究人員使用計算機(jī)檢索系統(tǒng)。搜索引擎的出現(xiàn)，使檢索的門檻大大降低，一般人（草根）也能使用了。

當(dāng)然，專業(yè)的計算機(jī)檢索系統(tǒng)在檢索內(nèi)容和檢索功能上區(qū)別還是相當(dāng)大的。

（2）菜鳥們對“人肉搜索”有兩種理解：a.集中較多的人進(jìn)行某個專門檢索（往往是搜某個十惡不赦者）；b.搜某人。