隨著Internet的飛速發(fā)展,WWW網(wǎng)上用戶和網(wǎng)上資源均呈爆炸性的增長,要想從網(wǎng)上快速、高效、全面地獲取自己所需要的中文信息資料,沒有搜索引擎的幫助,將是十分困難的。下面筆者就搜索引擎的一些檢索技巧,談?wù)勛约涸趯?shí)際應(yīng)用中的體會,以幫助讀者更好地使用中文搜索引擎來查找信息資料。
1 搜索引擎分類特點(diǎn)
網(wǎng)絡(luò)搜索引擎又稱網(wǎng)絡(luò)檢索引擎,是一些在web中主動搜索信息并將其自動索引的web網(wǎng)點(diǎn)。廣義上是指一種基于Internet的信息查詢系統(tǒng),包括信息存取、信息管理和信息檢索;狹義上指一種為搜索Internet上的網(wǎng)頁而設(shè)計(jì)的檢索軟件,其索引內(nèi)容存儲于可供查詢的大型數(shù)據(jù)庫中。
根據(jù)搜索方式的不同,搜索引擎可分為二類:
(1)全文(網(wǎng)頁級)搜索(Full Text Search)引擎,例如天網(wǎng)。它通過運(yùn)行一軟件“Robot”或“Spider”,沿著WWW文件間的鏈接自動在網(wǎng)上漫游,不斷搜集各類新網(wǎng)址及網(wǎng)頁,記錄URL文件的簡明概要、關(guān)鍵字或索引,形成成千上萬記錄的數(shù)據(jù)庫。只要用戶輸入查詢的關(guān)鍵字在數(shù)據(jù)庫中某主頁出現(xiàn),則這主頁就會作為匹配結(jié)果返回給用戶。全文搜索引擎有許多優(yōu)點(diǎn)①全文搜索;②檢索功能強(qiáng)。③信息更新速度快。但同時也有其不足之處:提供的信息雖然多而全,但可供選擇的信息太多反而降低相應(yīng)的命中率,并且提供的查詢結(jié)果重復(fù)鏈接較多,層次結(jié)構(gòu)不清晰,給人一種繁多雜亂的感覺。
(2)目錄(Directory)分類式(網(wǎng)站級)搜索引擎,如Yahoo!。它與全文搜索引擎的區(qū)別在于它是由人工建立的,通過“人工方式”將站點(diǎn)進(jìn)行了分類,不像全文搜索引擎那樣,將網(wǎng)站上的所有文章和信息都收錄進(jìn)去,而是首先將該網(wǎng)站劃分到某個分類下,再記錄一些摘要信息,對該網(wǎng)站進(jìn)行概述性的簡要介紹,用戶提出搜索要求時,搜索引擎只在網(wǎng)站的簡介中搜索。其優(yōu)點(diǎn):①層次、結(jié)構(gòu)清晰,易于查找;②多級類目,便于查詢到具體明確的主題;③內(nèi)容提要、分類目錄下,有簡明扼要的內(nèi)容,可以使用戶一目了然。其缺點(diǎn)是搜索范圍較?。桓滤俣嚷?;查詢交叉類目時容易遺漏。
目前,這二類搜索引擎之間的界限越來越模糊,具體使用何種搜索引擎,要根據(jù)不同的檢索目的來確定。
2 介紹幾種WWW上重要的中文搜索引擎
2.1 天網(wǎng)中文搜索引擎(http://pccms.pku.edu.cn:8000/gbindex.htm):目前收集了約100萬個網(wǎng)頁(國內(nèi))和14萬篇新聞組文章(香港),主要是中國教育和科研計(jì)算機(jī)網(wǎng)上的Web資源。用戶可以選擇查詢匹配程度(精確匹配、模糊匹配)、查詢范圍(Web、Newsgroup)、顯示模式(標(biāo)準(zhǔn)、簡要)。天網(wǎng)檢索命中率高,但重復(fù)網(wǎng)頁較多。
2.2 中文雅虎搜索引擎(http://www.yahoo.com):是最常用的搜索引擎之一,提供三種信息查詢方式:歸類信息瀏覽、主題查詢和關(guān)鍵詞搜索。它以分類目錄的形式將標(biāo)引內(nèi)容分為藝術(shù)、商業(yè)與經(jīng)濟(jì)、計(jì)算機(jī)和Internet、教育等14大類,用戶可以關(guān)鍵詞的方式查詢它的目錄。雅虎目錄最大特點(diǎn)是信息的分類工作由十幾位專家手工制作,更具科學(xué)性。與其他中文搜索引擎相比,中文Yahoo!在搜索速度方面占有優(yōu)勢。
2.3 悠游中文搜索引擎(http://www.goyoyo.com):其界面和搜索方式與雅虎相似,有超智能的Robot系統(tǒng),收集至少70萬個中文網(wǎng)頁,自動轉(zhuǎn)換中文繁、簡體。它有三種搜索方式:(1)“鍵入”,即“智慧型搜索、匹配型搜索”;(2)“選項(xiàng)”——如果用戶不懂任何中文輸入法,可以使用此項(xiàng)分類檢索。它提供14類選項(xiàng),每一選項(xiàng)包羅數(shù)個分類項(xiàng)目供用戶選擇;(3)“其它”——收錄了6個英文搜索引擎,當(dāng)用它查不出中文時,就去查英文。
2.4 網(wǎng)典搜索引擎(http:/www.wander.com.cn):是一個基于漢語語法、詞的上下文和語義等中文信息處理技術(shù),自動收集、識別Internet網(wǎng)上的www和News信息,智能化地提取摘要和關(guān)鍵詞、建立索引、提供查詢和對不良信息的監(jiān)控、報(bào)警功能的網(wǎng)絡(luò)信息自動發(fā)現(xiàn)和查詢系統(tǒng),采用可伸縮的分布式結(jié)構(gòu),提供多功能、智能化的用戶檢索接口,既可以使用www瀏覽器交互式的訪問,也可以發(fā)E-mail來檢索。
2.5 搜狐網(wǎng)絡(luò)搜索引擎(http://www.sohoo.com.cn):提供一個分類詳盡的Web目錄,須用樹型結(jié)構(gòu)對站點(diǎn)進(jìn)行層次性分類。相對于其它的搜索引擎,搜狐中文檢索系統(tǒng)具有以下的強(qiáng)勁優(yōu)勢:獨(dú)特的中文分詞功能;完美的分?jǐn)?shù)評估體系;似人的思維包含模式,可以實(shí)現(xiàn)“專題搜索”,自行定義搜索專題。
2.6 司南中文網(wǎng)上信息檢索(htpp://www.yippee.com.cn):結(jié)構(gòu)模仿著名的搜索引擎雅虎,采用關(guān)鍵詞檢索機(jī)制,但是在內(nèi)容上只收錄以中國大陸為主,包括世界各個國家和地區(qū)在內(nèi)的中文WWW網(wǎng)頁的網(wǎng)址的中文信息,并將所有的信息分為自然科學(xué)、社會與文化、娛樂與休閑等14個大類。
2.7 搜索客全中文搜索引擎(http:/www.cseek.com):采用分類檢索,將智能檢索與人工分類相結(jié)合。特點(diǎn)是全中文檢索;支持多種組合邏輯查詢;有中國最大的站點(diǎn)數(shù)據(jù)庫,每日更新1.5GB數(shù)據(jù);能自動識別GB碼和BIG5碼。
現(xiàn)將上述幾種搜索引擎的異同點(diǎn)做如下比較(見表1)。
3 提高檢索技巧,有效利用搜索引擎
3.1 確定使用哪一類搜索引擎,這是信息檢索關(guān)鍵的一步。因?yàn)槊總€搜索引擎有各自的優(yōu)缺點(diǎn),在索引資源、用戶界面、功能設(shè)置、檢索速度、檢索數(shù)量、收錄范圍、查詢理論、查詢技術(shù)、查詢方法等方面都不盡相同,導(dǎo)致每個搜索引擎在信息查全率、查準(zhǔn)率和易用上的差別也很大。
一般地,如果用戶查詢的主題不太明確,不能準(zhǔn)確地確定搜索的是什么或搜索的主題范圍很廣、概念很泛時,或只是對一般性的新聞事件進(jìn)行搜索時采用目錄式搜索引擎。例如:要了解澳門的一些情況,不妨使用Yahoo!目錄分類式搜索引擎,選用“澳門現(xiàn)狀”作為關(guān)鍵詞進(jìn)行查詢,結(jié)果有1個網(wǎng)站、40個網(wǎng)頁和20條有關(guān)的新聞符合檢索字串要求。
如果主題范圍較狹小,有特定主題,或者是要獲取有關(guān)交叉性、細(xì)節(jié)性問題的信息,檢索時采用全文搜索引擎。例如想了解澳門大學(xué)的情況,用天網(wǎng)搜索引擎,選用“澳門大學(xué)”為關(guān)鍵詞,返回結(jié)果有28條。如果用Yahoo!搜索引擎,查詢結(jié)果只有1個網(wǎng)站和2條新聞符合檢索字串,而且其中有好多信息是與主題詞毫無關(guān)聯(lián)的。
3.2 仔細(xì)研究一下所選搜索引擎主頁上的說明,能夠極大地提高搜索效率,節(jié)省時間。曾經(jīng)有人做過一項(xiàng)調(diào)查,結(jié)果僅有20%的人仔細(xì)研究過各大搜索引擎的說明。其實(shí)花上一點(diǎn)時間,了解各種搜索引擎的功能、使用方面的特點(diǎn)和技巧,有助于快速高效地查找所需的信息資料。
3.3 使用操作符改善檢索過程。許多站點(diǎn)允許使用布爾操作符,其基本操作是And、Or、Not。我們可以通過查看、分析搜索結(jié)果,再利用布爾操作符來擴(kuò)大或縮小檢索范圍。
如果返回的結(jié)果極少,可以檢查一下你的關(guān)鍵字中有沒有錯別字或語法錯誤,也可能是搜索表達(dá)式所設(shè)定的范圍太窄了,比如把一大串詞都用“And”或者“+”連起來,結(jié)果當(dāng)然很少了。為了盡可能全面檢索到所需信息,有時需要適當(dāng)擴(kuò)大檢索范圍,去掉一些諸如“And”、“+”之類的連接符號,多加上一些同義詞、近義詞,用“Or”連接,以提高查全率。值得注意的是,用同義詞進(jìn)行查找,例如用“電腦”、“計(jì)算機(jī)”或“COMPUTER”進(jìn)行搜索時,三者的查詢結(jié)果是不同的。
如果返回的結(jié)果成千上萬,而且許多信息對用戶來講毫無意義,這時縮小檢索范圍是提高查準(zhǔn)率的關(guān)鍵。構(gòu)造恰當(dāng)?shù)臋z索表達(dá)式,輸入盡可能多而精確的詞或詞組。對于所有的搜索引擎來說,在搜索框內(nèi)輸入的描述單詞越多,查得的相關(guān)結(jié)果越少,提供的詞組越精確,檢索結(jié)果就越好。也可使用特定的詞匯來縮小搜索范圍,比如不用“動物”而用“熊貓”。使用固定詞組,也就是具有固定搭配的詞。利用進(jìn)隊(duì)檢索功能,即利用前一次檢索的結(jié)果作為后一次檢索的范圍,逐步縮小檢索范圍。例如中文雅虎搜索引擎有一些特定的進(jìn)階檢索格式用來獲得更精確的檢索結(jié)果,其中之一是利用雙引號查詢完全符合關(guān)鍵字串的網(wǎng)站,當(dāng)鍵入“電子音樂”時,會找出包含中文輸入的網(wǎng)站,但是會忽略包含“電子爵士音樂”的網(wǎng)站。
再比如要了解澳門一些大學(xué)的情況,選用“澳門”、“大學(xué)”為主題詞,用邏輯“與”的關(guān)系,運(yùn)用天網(wǎng)搜索引擎進(jìn)行查詢,返回結(jié)果有687條,查看其中有許多信息是毫無意義的。若以“澳門的大學(xué)”為主題詞,命中0條。重新確定主題詞,以“澳門”、’高等院校”作為關(guān)鍵詞,用邏輯“與”的關(guān)系,查詢結(jié)果有68條符合要求,從中就可以找到澳門的三所院校“澳門大學(xué)”、“澳門理工學(xué)院”、“澳門高等校際學(xué)院”。
3.4 打開多個窗口,進(jìn)行多種嘗試。同時打開多個窗口進(jìn)行搜索,極大地減少等待時間,提高搜索效率。特別要注意的是,由于各種搜索引擎所覆蓋的網(wǎng)頁范圍、數(shù)量以及側(cè)重點(diǎn)是不一樣的,所以當(dāng)你第一次搜索失敗時,不要輕易放棄,可用多種搜索引擎進(jìn)行嘗試。
3.5 要經(jīng)常監(jiān)控站點(diǎn)的各個主要搜索引擎的排名情況。要經(jīng)常分析訪問記錄中通過查詢搜索引擎而來的訪問者,看看哪個引擎更有效、為什么,人們搜索了一些什么詞等。