2003-10-05 作者 邢志宇
--------------------------------------------------------------------------------
搜索引擎是開啟網(wǎng)絡(luò)知識(shí)殿堂的鑰匙,獲取知識(shí)信息的工具。隨著網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,搜索技術(shù)的日臻完善,中外搜索引擎已廣為人們熟知和使用。任何搜索引擎的設(shè)計(jì),均有其特定的數(shù)據(jù)庫(kù)索引范圍、獨(dú)特的功能和使用方法,以及預(yù)期的用戶群指向。一種搜索引擎不可能滿足所有人或一個(gè)人所有的檢索需求。在某些情況下,如文獻(xiàn)普查、專題查詢、新聞?wù){(diào)查與朔源、軟件及MP3下載地址搜索等等,人們往往需要使用多種搜索引擎,對(duì)搜索結(jié)果進(jìn)行比較、篩選和相互印證。為解決逐一登陸各搜索引擎,并在各搜索引擎中分別多次輸入同一檢索請(qǐng)求(檢索字串)等煩瑣操作,集成搜索引擎和元搜索引擎應(yīng)運(yùn)而生。
集成搜索引擎和元搜索引擎盡可能地減少和優(yōu)化了檢索操作,實(shí)現(xiàn)了“一次檢索輸入,多引擎同時(shí)搜索”。
目前國(guó)內(nèi)對(duì)集成搜索引擎和元搜索引擎的概念界定尚不清晰,二者多互稱、通用。事實(shí)上,集成搜索引擎和元搜索引擎是兩種不同類型的搜索工具,既有共同特點(diǎn),又有明顯差異。
一、集成搜索引擎 集成搜索引擎( All-in-One Search Page),亦稱為“多引擎同步檢索系統(tǒng) ”(如http://www.bioon.com/multisearch.htm)是在一個(gè)WWW頁(yè)面上鏈接若干種獨(dú)立的搜索引擎,檢索時(shí)需點(diǎn)選或指定搜索引擎,一次檢索輸入,多引擎同時(shí)搜索,搜索結(jié)果由各搜索引擎分別以不同頁(yè)面提交,其實(shí)質(zhì)是利用網(wǎng)站鏈接技術(shù)形成的搜索引擎集合,而并非真正意義上的搜索引擎。
集成搜索引擎無自建數(shù)據(jù)庫(kù),不需研發(fā)支持技術(shù),當(dāng)然也不能控制和優(yōu)化檢索結(jié)果。但集成搜索引擎制作與維護(hù)技術(shù)簡(jiǎn)單,可隨時(shí)對(duì)所鏈接的搜索引擎進(jìn)行增刪調(diào)整和及時(shí)更新,尤其大規(guī)模專業(yè)(如FLASH、MP3等)搜索引擎集成鏈接,深受特定用戶群歡迎。在搜索引擎發(fā)展進(jìn)程中,集成搜索引擎只是元搜索引擎的初級(jí)形態(tài),以其方便、實(shí)用在網(wǎng)絡(luò)搜索工具家族中占據(jù)一席之地。典型的集成搜索引擎有“搜索之家”(http://so.web165.com/)、“網(wǎng)際瑞士軍刀”(http://free.okey.net/~free/search1.htm)等。
二、元搜索引擎 元搜索引擎(Metasearch Engine),是一種調(diào)用其它獨(dú)立搜索引擎的引擎,亦稱“搜索引擎之母(The mother of searce engines)”。在這里,“元”(Meta)為“總的”、“超越”之意,元搜索引擎就是對(duì)多個(gè)獨(dú)立搜索引擎的整合、調(diào)用、控制和優(yōu)化利用。相對(duì)元搜索引擎,可被利用的獨(dú)立搜索引擎稱為“源搜索引擎”(source Engine),或“搜索資源”(searcing resources),整合、調(diào)用、控制和優(yōu)化利用源搜索引擎的技術(shù),稱為“元搜索技術(shù)”(Meta-searching technique),元搜索技術(shù)是元搜索引擎的核心。
元搜索引擎分為并行處理式和串行處理式兩大類。并行處理式元搜索引擎將用戶的查詢請(qǐng)求同時(shí)轉(zhuǎn)送給它調(diào)用鏈接的多個(gè)獨(dú)立型搜索引擎進(jìn)行查詢處理,串行處理式元搜索引擎將用戶的查詢請(qǐng)求依次轉(zhuǎn)送給它調(diào)用鏈接的每一個(gè)獨(dú)立型搜索引擎進(jìn)行查詢處理。
元搜索引擎是用戶同時(shí)利用多引擎進(jìn)行網(wǎng)絡(luò)搜索的中介。檢索時(shí),元搜索引擎根據(jù)用戶提交的檢索請(qǐng)求,調(diào)用源搜索引擎進(jìn)行搜索,對(duì)搜索結(jié)果進(jìn)行匯集、篩選、刪并等優(yōu)化處理后,以統(tǒng)一的格式在同一界面集中顯示。元搜索引擎雖沒有網(wǎng)頁(yè)搜尋機(jī)制,亦無獨(dú)立的索引數(shù)據(jù)庫(kù),但在檢索請(qǐng)求提交、檢索接口代理和檢索結(jié)果顯示等方面,均有自己研發(fā)的特色元搜索技術(shù)支持。如提交檢索請(qǐng)求時(shí),根據(jù)源搜索引擎的特點(diǎn)和技術(shù)參數(shù),指定優(yōu)先順序,并對(duì)檢索時(shí)間、檢索結(jié)果數(shù)量進(jìn)行控制;作為若干源搜索引擎的檢索接口代理,元搜索引擎必須具有較強(qiáng)的字符和語法轉(zhuǎn)換功能,使用戶的檢索請(qǐng)求為各具語法特點(diǎn)的不同的源搜索引擎所人知和接受; 而對(duì)檢索結(jié)果的顯示,不同的元搜索引擎有不同的處理技術(shù),由于元搜索引擎設(shè)定的檢索結(jié)果排序依據(jù)、最大返回結(jié)果數(shù)量、相關(guān)度參數(shù)及優(yōu)化機(jī)制等不同,調(diào)用相同的源搜索引擎的不同元搜索引擎顯示檢索結(jié)果的數(shù)量多少、排序先后、結(jié)果信息描述選擇亦有較大差異。
一款理想的元搜索引擎應(yīng)該具備以下特點(diǎn)和功能:第一,含蓋較多的搜索資源,可隨意選擇和調(diào)用源搜索引擎;其次,具備盡可能多的可選擇功能,如資源類型(網(wǎng)站、網(wǎng)頁(yè)、新聞、軟件、FTP、MP3、圖像等)選擇、返回結(jié)果數(shù)量控制、結(jié)果時(shí)段選擇、過濾功能選擇等;第三,強(qiáng)大的檢索請(qǐng)求處理功能(如支持邏輯匹配檢索、短語檢索、自然語言檢索等)和不同搜索引擎間檢索語法規(guī)則、字符的轉(zhuǎn)換功能(如對(duì)不支持“NEAR”算符的搜索引擎,可自動(dòng)實(shí)現(xiàn)由“NEAR”向“AND”算符的轉(zhuǎn)換等);第四,詳盡全面的檢索結(jié)果信息描述(如網(wǎng)頁(yè)名稱、URL、文摘、源搜索引擎、結(jié)果與用戶檢索需求的相關(guān)度等);第五,支持多種語言檢索。
目前運(yùn)營(yíng)的元搜索引擎各具特色,功能各有側(cè)重,完全“理想”的尚不多見。一些元搜索引擎在某些方面較為優(yōu)秀,而其它功能則欠缺或需改進(jìn):如大多元搜索引擎不支持多語種,尤其是漢語檢索;一些元搜索引擎實(shí)現(xiàn)檢索語法轉(zhuǎn)換的能力有限,不支持指定字段檢索,不能充分發(fā)揮各個(gè)獨(dú)立搜索引擎的高級(jí)檢索功能;部分元搜索引擎無源搜索引擎列表,用戶不能自主選擇和調(diào)用源搜索引擎;大部分元搜索引擎僅支持調(diào)用AltaVista、Excite、GoTo.com、Yahoo!、Infoseek、Lycos等常用的搜索引擎,一些大型搜索引擎如NorthernLight、HotBot等被排除在外,人為地限制了搜索資源的利用;在檢索結(jié)果上,元搜索引擎只能返回十幾、數(shù)十條“相關(guān)度”較高的結(jié)果,大量可能有價(jià)值的源搜索引擎的檢索結(jié)果被忽視,影響檢索結(jié)果的全面性。元搜索引擎的功能受著源搜索引擎和元搜索技術(shù)的雙重制約:一方面,源搜索引擎的各具特色的強(qiáng)大功能在元搜索引擎中受到限制而不能充分體現(xiàn),而另一方面,任何一種元搜索技術(shù)都不能發(fā)掘和利用源搜索引擎的全部功能。
1995年華盛頓大學(xué)碩士生 Eric Selberg 和 Oren Etzioni 推出第一個(gè)元搜索引擎---Metacrawler以來,這一新型的網(wǎng)絡(luò)檢索工具異軍突起,發(fā)展迅速,目前可用的元搜索引擎已近百種。盡管元搜索引擎存在著這樣那樣的功能局限,但其以含蓋較多的搜索資源,能夠在盡可能短的時(shí)間內(nèi)提供相對(duì)全面、準(zhǔn)確的檢索結(jié)果等諸多優(yōu)異功能受到用戶的青睞,已漸成為一種不可或缺的極具潛力的網(wǎng)絡(luò)檢索工具。
元搜索引擎一覽:
《搜索引擎觀察》2002年最佳元搜索引擎
1、Vivisimo ( http://vivisimo.com/) 調(diào)用多種搜索引擎,并對(duì)返回的結(jié)果自動(dòng)分類,界面友好,簡(jiǎn)單易用。
2、EZ2WWW ( http://www.ez2www.com/) 調(diào)用AllTheWeb, AltaVista, Google, Open Directory, Teoma, Wisenut and Yahoo等搜索引擎,高級(jí)搜索功能提供1000多種專項(xiàng)資源檢索,可進(jìn)行目錄檢索。
3、Kartoo ( http://www.kartoo.com/) 在搜索結(jié)果中顯示鏈接各相關(guān)頁(yè)面的關(guān)鍵詞。
4、SurfWax ( http://www.surfwax.com/) 有一個(gè)其它元搜索引擎沒有的獨(dú)特功能,即點(diǎn)擊每條結(jié)果左邊的“網(wǎng)址撳鈕”圖標(biāo),可瀏覽該結(jié)果包括的任何頁(yè)面,并顯示搜索語句在文件中的位置。可以把搜索結(jié)果和文件存儲(chǔ)起來以備后用。
5、Fazzle ( http://www.fazzle.com/) 即可進(jìn)行一般的網(wǎng)址搜索,又有一個(gè)主題目錄提供專題資源搜索。其前身為SearchOnline
著名元搜索引擎
1、InfoGrid ( http://www.infogrid.com/) 提供與主要搜索網(wǎng)站的直接連結(jié)和目錄檢索,具有強(qiáng)大的元搜索和新聞搜索功能。
2、Infonetware RealTerm Search ( http://www.infonetware.com/) 原為檢驗(yàn)網(wǎng)絡(luò)分類技術(shù)而設(shè)計(jì)。它以元搜索引擎知名,但具有強(qiáng)大的對(duì)搜索結(jié)果進(jìn)行主題分類的功能。與眾不同的是,用戶可選擇不同的主題,并得到來自所有主題搜索結(jié)果,而不是僅僅把搜索結(jié)果限制在一個(gè)主題范圍之內(nèi)。
3、Ithaki ( http://www.ithaki.net/dir.html) 支持包括中文在內(nèi)的14種語言檢索。
4、Ixquick ( http://www.ixquick.com/) 可搜索網(wǎng)站、MP3、新聞、圖象等多種網(wǎng)絡(luò)資源。
5、ProFusion ( http://www.profusion.com) 擁有智能化的搜索方案,提供諸如搜索引擎選擇、檢索類型、結(jié)果顯示、摘要選項(xiàng)、鏈接檢查等較多的檢索選項(xiàng),支持個(gè)性化設(shè)置,可以選擇三個(gè)最好的搜索引擎、或三個(gè)最快的搜索引擎、或全部搜索引擎、或手工選擇任意幾個(gè)搜索引擎來進(jìn)行搜索。自動(dòng)實(shí)現(xiàn)符合特殊檢索語法要求的轉(zhuǎn)換,如在調(diào)用Excite、InfoSeek、WebCrawler時(shí)將“NEAR”轉(zhuǎn)換成“AND”,在調(diào)用GoTo、Yahoo時(shí)將“NOT”刪除等。原為堪薩斯州大學(xué)所有,2000年四月被Intelliseek 搜索公司購(gòu)買。
6、Mamma ( http://www.mamma.com) 1996年面世,自稱為“搜索引擎之母”的并行元搜索引擎,可同時(shí)調(diào)用7個(gè)最常用的獨(dú)立搜索引擎,并且可查詢網(wǎng)上商店、新聞、股票指數(shù)、圖像和聲音文件等資源。其特點(diǎn)是檢索界面友好,檢索選項(xiàng)豐富,主要包括:可控制調(diào)用的獨(dú)立搜索引擎、選擇使用短語檢索功能、設(shè)定檢索時(shí)間、設(shè)定每頁(yè)可顯示記錄數(shù)等。另外,Mamma支持常用檢索語法在不同搜索引擎中的轉(zhuǎn)換,還提供了專門檢索頁(yè)面文件標(biāo)題的特殊檢索服務(wù),以及通過E-mail傳輸檢索結(jié)果的特色功能。檢索結(jié)果以相關(guān)性排序,內(nèi)容包括網(wǎng)頁(yè)名稱、URL、文摘、源搜索引擎?! ?br> 7、MetaCrawler ( http://www.metacrawler.com) 1995年由華盛頓大學(xué)推出,1997年被InfoSpace購(gòu)買。支持調(diào)用12個(gè)獨(dú)立搜索引擎,提供涵蓋近20個(gè)主題的目錄檢索服務(wù)。其檢索特性非常豐富,包括常規(guī)檢索、高級(jí)檢索、定制檢索、國(guó)家或地區(qū)的資源檢索等檢索服務(wù)模式。其中,高級(jí)檢索模式可實(shí)現(xiàn):搜索引擎的選擇調(diào)用,基于域名、地區(qū)或國(guó)家的檢索結(jié)果過濾,最長(zhǎng)檢索時(shí)間設(shè)置,每頁(yè)可顯示的和允許每個(gè)搜索引擎返回的檢索結(jié)果數(shù)量的設(shè)定,設(shè)定檢索結(jié)果排序依據(jù)(包括相關(guān)度、域名、源搜索引擎)等。以上內(nèi)容均可作為定制檢索的個(gè)性化選項(xiàng)并予以保存。另外,檢索結(jié)果中包括一個(gè)以1000為最大值的相關(guān)度指標(biāo)。
8、ByteSearch ( http://www.bytesearch.com) 搜索速度快,可檢索資源豐富,搜索范圍包括Web、城市信息、公司名錄、域名、FTP網(wǎng)站、多媒體、新聞組、包裹跟蹤等,并提供新聞瀏覽、URL提交、最新的20個(gè)檢索瀏覽、聯(lián)機(jī)商店等內(nèi)容方面的服務(wù)。支持完全匹配(All)、部分匹配(Any)、短語檢索(Phrase)等特性檢索功能,沒有搜索引擎列表,不能控制源搜索引擎的選擇。
9、SavvySearch ( http://savvy.cs.colostate.edu:2000/) 支持二十種語言(不包括中文),可調(diào)用全部或任意幾個(gè)搜索引擎,可選擇每個(gè)搜索引擎返回結(jié)果的數(shù)目,可進(jìn)行目錄檢索?! ?br> 常用元搜索引擎
1、qbSearch http://www.qbsearch.com/) 2、Query Server http://www.queryserver.com) 3、Turbo10 http://turbo10.com/) 4、Dogpile http://www.dogpile.com/) 5、Webcrawler http://www.webcrawler.com/) 6、Search.com http://www.search.com/)
其它元搜索引擎 1、1Blink http://www.1blink.com/) 2、Gimenei http://gimenei.com/) 3、IcySpicy http://www.icyspicy.com/) 4、MetaEureka http://www.metaeureka.com/) 5、Moonmist http://www.moonmist.info/) 6、Widow Meta Search http://www.widow.com/) 7、Family Friendly Search http://www.familFamily Friendly Searchyfriendlysearch.com/) 8、Searchy.co.uk http://www.searchy.co.uk/) 9、TeRespondo http://sl.terespondo.com/home/) 10、Watson for the Macintosh http://www.apple.com/downloads/m ... ilities/watson.html) 11、Chubbahttp://chubba.whatuseek.com/) 12、Debriefinghttp://debriefing.ixquick.com/) 13、C4 http://www.c4.com/ ) 14、Infindhttp://www.infind.com/) 15、Infozoidhttp://www.infozoid.com/) 16、Ixquickhttp://www.ixquick.com) 17、OneSeekhttp://www.oneseek.com/) 18、One2Seekhttp://one2seek.com/) 19、Query Serverhttp://www.queryserver.com/general.htm) 20、Proteushttp://www.thrall.org/proteus.html) 21、Searcheshttp://www.searches.com) 22、Searchbug http://www.searchbug.com/) 23、Skwormhttp://www.skworm.com/) 24、Skwormhttp://www.skworm.com/) 25、Sleuthhttp://www.isleuth.com) 26、SurfWaxhttp://www.surfwax.com/) 27、Supercrawlerhttp://www.supercrawler.com/) 28、Highway61 http://www.highway61.com/) 29、Cyber 411 http://www.cyber411.com/ ) | |