感謝一些熱心關(guān)注,這幾個月意外層出不窮,另一方面又比較懶,所以沒有持續(xù)寫下去。
引言
很多人和js說,想通過系統(tǒng)的學(xué)習(xí)檢索,使檢索水平得到提高。
js很為難,因為事實上沒有較系統(tǒng)的“檢索理論”。不信的話去書店翻翻那些污七八糟的檢索書,看看里面都談了哪些“理論”。
底層的術(shù)語構(gòu)成、術(shù)語組合或許有規(guī)律,但沒有大樣本統(tǒng)計很難揭示,齊夫規(guī)律僅僅是談到詞頻而已。
因此,js想基于檢索實踐,談一些檢索實踐中常犯的錯誤,使檢索者通過增加實踐,少犯錯誤,逐漸提高檢索水平,并在實踐中體會和發(fā)現(xiàn)一些規(guī)律,這樣集思廣益,或許對認(rèn)識與構(gòu)建所謂的系統(tǒng)的“檢索理論”有點意義。
1. (先來個震撼點的)google一下“全球變暖”,有超過1000萬個網(wǎng)頁。(更多的俗稱是baidu一下...)
錯:很少有人想到這是個騙局。給檢索框里的“全球變暖”加上雙引號(單引號都不行),發(fā)現(xiàn)只有65萬多網(wǎng)頁(2009年11月28日)。
原因:
(1)google使用了分詞技術(shù)以及相關(guān)性檢索,將不完全匹配的網(wǎng)頁也視作檢索結(jié)果。例如僅含有“全球”或“變暖”,或者“全球”和“變暖”未連在一起的。具體輸出情形,js未做確切核實。當(dāng)然了,google自然有人知道,這取決于匹配規(guī)則和輸出閾等。
(2)實際上即便只有6萬個網(wǎng)頁,顯示說有60萬個也沒有問題,因為沒有人會找到第60001個網(wǎng)頁,看是否相關(guān)。
不信的話,用google提交“迪拜危機(jī)”(加雙引號)翻到最后一頁(相信js,你就能翻到),同時注意提示的檢索結(jié)果數(shù)量的變化。
很多新聞在結(jié)束時,習(xí)慣說個“baidu一下”或者“google一下”,與某個關(guān)鍵詞相關(guān)的網(wǎng)頁有xxxxx個,其實這些都是廢話。
2. 檢索系統(tǒng)很強(qiáng)大,只有想不到,沒有檢不到。
錯:你檢不到下周中午12點北京的具體氣溫,檢不到2012年的某一天會在做什么,檢不到你的愛人現(xiàn)在想什么,檢不到史前一萬年世界上有多少只螞蟻,檢不到海底一萬米究竟有哪些生物...
實際上,你只能檢到檢索系統(tǒng)收錄的信息。
3. 檢索高手很厲害,“人肉搜索”讓人無處可躲。
錯:
(1)所謂的“人肉搜索”是對“Grassroots search”(草根搜索)的誤解。
搜索引擎使應(yīng)用計算機(jī)檢索系統(tǒng)進(jìn)行的檢索得到普及,之前僅僅是一些專業(yè)的檢索人員以及專業(yè)的學(xué)術(shù)研究人員使用計算機(jī)檢索系統(tǒng)。搜索引擎的出現(xiàn),使檢索的門檻大大降低,一般人(草根)也能使用了。
當(dāng)然,專業(yè)的計算機(jī)檢索系統(tǒng)在檢索內(nèi)容和檢索功能上區(qū)別還是相當(dāng)大的。
(2)菜鳥們對“人肉搜索”有兩種理解:a.集中較多的人進(jìn)行某個專門檢索(往往是搜某個十惡不赦者);b.搜某人。
實際上,100個人一起跑,速度還是趕不上汽車,菜鳥還是菜鳥。
至于什么找到某人的相關(guān)信息,實際上往往是現(xiàn)實中的知情人披露,而不是什么“人肉搜索”找到。那么多人怎么就“人肉”不到賈君鵬?
(3)以js的眼光看,也沒啥“檢索高手”。google是大眾化的檢索工具,其檢索功能并不繁復(fù),baidu就甭提了。這樣的檢索系統(tǒng)要成就高手,那是yy。
“人肉搜素”從名稱和效應(yīng)看,好像很可怕(盡管只是虛張聲勢),真正可怕的是缺失話語權(quán)底層的下意識宣泄,這和菜鳥們所推崇的“高精尖”檢索技術(shù)無關(guān)。
實際上,1000個被“不準(zhǔn)geming”的螞蟻還是螞蟻,一樣搞不定大象。
4. 我的檢索水平低,是因為沒有專門學(xué)過系統(tǒng)的“檢索理論”。
錯:你看一百本菜譜,自己不動手,還是只能做出豬食。
檢索做為一項實踐活動,目前還沒什么系統(tǒng)的“理論”,很多需要你在實際中積累感性認(rèn)識。
5. 現(xiàn)在的檢索系統(tǒng)不好,垃圾信息很多,找不到我想要找的。
錯:說這話的基本是缺乏較多檢索經(jīng)歷的外行,而且針對的是搜索引擎(他們也不會用專門的學(xué)術(shù)文獻(xiàn)檢索系統(tǒng))。
要明白:你的檢索目的是什么,是找到明天的氣象信息,還是近期的商業(yè)促銷信息。
對于前者,你檢索到1條準(zhǔn)確的就行,這很容易;對于后者,你檢索到1萬條有關(guān)冬裝打折的消息或許也嫌它們是垃圾,因為你感興趣的是伊利牛奶。
說google容易檢索出什么垃圾信息的,往往是首先因為有些自以為是的“研究人員”基于促銷自己的什么能把“垃圾信息”過濾的原創(chuàng)技術(shù)的需要。更多的外行冒充專業(yè)人員也跟風(fēng)以為有人能做得更好。
js對這些很不屑,沒做過幾道菜、沒吃過幾道菜也算大廚?也冒充評委平頭論足?建議聽聽“我完全沒有任何理由理你”。
本質(zhì)上說,在圖論上的NPC問題沒解決,人工智能無法真正實現(xiàn)之前,那些優(yōu)化算法的作用很有限。
有空接著寫。
限于個人淺薄認(rèn)識,上述內(nèi)容中肯定也有很多一定是js也想錯了,還請發(fā)現(xiàn)后告訴我,幫助我完善和提高,謝謝!