重要的網(wǎng)絡檢索方法 |
2004年 12月16日 |
邢志宇 利用浩瀚無序的互聯(lián)網(wǎng)信息,需要借助一定的工具和方法,搜索引擎肩負使命,應運而生。國內(nèi)一般把搜索引擎分為"分類搜索引擎"和"關鍵詞搜索引擎",國外則分別稱其為"Directory"和"Search engine"。 分類搜索是最早出現(xiàn)的一種網(wǎng)絡信息檢索方法,主題分類目錄的創(chuàng)制已有相當成熟的理論、技術和豐富的成功經(jīng)驗。Yahoo!被認為是分類搜索的鼻祖,Directory的代表,引領著分類搜索的潮流。搜狐(搜狗)開中文分類搜索先河,其"50,000主題分類,500,000優(yōu)選網(wǎng)站"無愧中文主題分類目錄的典范,堪稱中文分類搜索的旗艦。 1、何謂分類搜索 分類搜索是基于人工標引的檢索方法。它以科學、實用的分類目錄為工具,以規(guī)范化的自然語言為類名,在對網(wǎng)絡信息歸納、概括的基礎上,以網(wǎng)站為單元,提供經(jīng)過專家評價和人工整序的網(wǎng)絡信息。 分類搜索是突出族性特征的檢索方法。由于分類目錄已按照學科或主題對網(wǎng)絡信息進行了標引,所有網(wǎng)站在分類體系中同聚異分,各有所屬,"縱向成枝,橫向成網(wǎng)",只需"按圖索驥",同一類屬或相關主題的信息即可"循類以求",適用于查詢具有同一特征的多個目標和主題范圍廣、概念寬泛的問題。 分類搜索是關鍵詞搜索不可替代的檢索方法。關鍵詞搜索以簡單、快捷著稱,但龐大的結果列表、大量重復和無用的信息是其永遠的傷痛。而分類搜索恰恰獨具優(yōu)勢,經(jīng)過人工編輯的檢索結果既以精當、準確著稱,又以系統(tǒng)、有效見長。 分類搜索是循序漸進的檢索方法。與關鍵詞搜索即刻按照相關性遞減順序返回大量結果不同,分類搜索要首先確定所需信息在目錄中的類系歸屬和相關路徑,從大類入手,逐級瀏覽,漸進查詢,在相應類目下按字順展開網(wǎng)站列表,然后再根據(jù)網(wǎng)站名稱和簡介,對結果列表進行選擇。 分類搜索是門戶網(wǎng)站不可缺少的檢索方法?;ヂ?lián)網(wǎng)上搜索的概念最早來自于門戶網(wǎng)站,資深網(wǎng)民對互聯(lián)網(wǎng)的認識最初幾乎全部來自于當年yahoo!提供的分類搜索服務。有關數(shù)據(jù)顯示,我國將近70%以上網(wǎng)民是通過門戶網(wǎng)站認識和開始使用搜索引擎的。門戶網(wǎng)站是使用搜索引擎的主要平臺,搜索引擎也為門戶網(wǎng)站帶來了巨大的經(jīng)濟利益和訪問流量。 2、分類搜索的原理 分類搜索的基礎和前提是構建一個反映網(wǎng)站相關信息及其URL鏈接的目錄指南(Directory),在這個目錄中,經(jīng)過審核與標引的網(wǎng)站按學科或主題分門別類、有序排列。分類搜索就是在分類目錄中,根據(jù)所需信息的學科屬性或主題內(nèi)容,逐級檢索,循類以求。由于分類目錄是以數(shù)據(jù)庫形式存在的,也可以說,分類搜索就是對分類數(shù)據(jù)庫的檢索。 分類搜索建立在網(wǎng)絡分類的基礎上,了解分類搜索的原理,不能不首先了解網(wǎng)絡分類體系。分類標準、類目劃分、類目設置、類目序列等,對分類體系的構建至關重要,決定著分類目錄的性質(zhì)和功能,影響著分類搜索的效率和效果。系統(tǒng)性和實用性是對網(wǎng)絡信息分類的基本要求,以學科性質(zhì)為標準可以保證分類的系統(tǒng)性,以事物主題為標準體現(xiàn)了分類體系的實用性。國內(nèi)的分類搜索引擎如搜狗(搜狐)等,以學科分類為主,主題分類為輔,體現(xiàn)了系統(tǒng)性和實用性的完美結合。網(wǎng)絡分類體系的類目劃分,多強調(diào)易用性原則,為了直觀揭示和盡可能地減少檢索中的點擊次數(shù),不惜犧牲系統(tǒng)性,允許在類目的同一劃分過程中采用多個不同的劃分標準。類目的設置以方便使用和檢索習慣為依據(jù),為了引起網(wǎng)民的興趣和關注,常常突破體系分類的規(guī)則,把熱門主題或點擊率高的類目置于較高級位或顯著位置。類目序列以檢索頻次為主要參考指標,首先列舉檢索頻次較高的類目,突出重要或時尚主題,迎合網(wǎng)民的檢索習慣與檢索偏好。網(wǎng)絡信息分類有著強烈的時代特色和功利目的,它雖然注重系統(tǒng)性對穩(wěn)定分類體系的重要作用,但更關注檢索熱點及其趨勢變化;它雖然重視信息揭示和檢索中的邏輯關聯(lián)與認識意義,但更強調(diào)檢索的簡捷與方便。 由于網(wǎng)絡分類體系的特點,一些類系或類列已完全打破了體系分類的學科系統(tǒng)性,常規(guī)的瀏覽檢索很難快速有效地找到目標網(wǎng)站,此時可以利用目錄的數(shù)據(jù)庫優(yōu)勢,用關鍵詞直接進入某一類目,然后再在該類下瀏覽搜索。 3、怎樣進行分類搜索 進行分類搜索,首先要了解所使用的分類體系的特點及其類目設置,如Yahoo!是主題索引式指南(subject-based guide to web sites and web content),把全球網(wǎng)站按主題劃分為14個大類,網(wǎng)站收錄質(zhì)量較高,學術性較強,編輯嚴謹,久負盛譽,尤其"China "類下的中文和國內(nèi)網(wǎng)站極具參考價值。搜狗(搜狐)是典型的主題分類目錄,按學科或主題設置16個一級類目,50,000個主題分類,對中文網(wǎng)站收錄最為全面,但二級以下同位類和網(wǎng)站列表沒有固定的排列順序(如按拼音或筆畫),瀏覽查找多有不便。Yahoo!和搜狗(搜狐)都具有地區(qū)與主題(學科)分面組配檢索功能,都設置有大量的交替類目,可對網(wǎng)站進行多角度、多途徑檢索。 分類搜索還需注意,由于網(wǎng)絡分類沒有統(tǒng)一的分類標準,同名類目或相似類目,在不同的分類體系中的類目含義不盡相同,因此性質(zhì)相同或相近的網(wǎng)站在不同的分類體系中可能分屬不同的大類,或同一大類的不同級位。如與"太極拳"相關的網(wǎng)站,在搜狗(搜狐)中歸入"體育健身"大類之中(體育健身>武術/搏擊>太極拳),而雅虎中國則列于"休閑與生活"大類之下(休閑與生活 > 體育運動 > 武術 > 太極拳);"搜索引擎"在 此外,進行分類搜索還要了解不同分類目錄的網(wǎng)站收錄特點,如雅虎中國以收錄繁體中文網(wǎng)站見長,搜狗(搜狐)以本土化著稱,分別為查找BIG5碼網(wǎng)站和簡體中文網(wǎng)站的首選。 對分類搜索的作用意義、網(wǎng)絡分類、分類體系、搜索原理有了基本了解之后,我們以搜狗(搜狐)為例,來體驗一下分類搜索的功能及其區(qū)別于關鍵詞搜索的特點。 (1)進入檢索頁面(http://fenlei.sogou.com/或http://dir.sohu.com/),瀏覽分類目錄,根據(jù)查詢內(nèi)容確定大類歸屬及可能的查找路徑。分析檢索需求要考慮和兼顧內(nèi)容性質(zhì)和形式特征兩個方面,如檢索文學報刊網(wǎng)站,一般首先考慮從內(nèi)容即"文學"大類入手,再按載體形式區(qū)分,路徑為:"文學>報刊/雜志@",從形式即"新聞媒體"入手,再按內(nèi)容查找,路徑為:"新聞媒體>各類新聞媒體>文學 ",也可以得到同樣的結果。@為交替類目符號,其作用是指引并鏈接到使用類目。初次使用分類搜索,或?qū)Ψ诸愃阉鞑惶炀殨r,要把握和堅持以內(nèi)容性質(zhì)確定大類,以形式特征探索路徑,注意使用交替類目的原則,在實踐中熟悉分類體系,逐步掌握檢索要領和技巧。 (2)具有某些共同特征的網(wǎng)站,由于種種原因可能被分散在多個類目之中,要查全相關網(wǎng)站,除了從內(nèi)容性質(zhì)和形式特征尋求盡可能全面的檢索路徑外,利用關鍵詞搜索不失為有效而便利的方法。如生產(chǎn)紅木家具企業(yè)的網(wǎng)站分散在"工商經(jīng)濟--工業(yè)--輕工業(yè)/手工業(yè)--家具制造工業(yè)"、"工商經(jīng)濟--工業(yè)--輕工業(yè)/手工業(yè)--木材加工工業(yè)"、"公司企業(yè)--家具--仿古家具"、"國家與地區(qū)--**(省)--城市/地區(qū)/縣--**(城市)--公司/企業(yè)--家具"等三個類系的四個類目之中,其中有的路徑即使是有經(jīng)驗的搜索者也難以預料的,這時利用關鍵詞搜索結果中網(wǎng)站簡介下的路徑提示,就可以輕而易舉掌握相關網(wǎng)站的分布情況。 (3)當無難以定查詢內(nèi)容的大類歸屬,或某類的下位類和網(wǎng)站過多不便瀏覽時,可利用"在所有目錄下"或在"此目錄下"的分類數(shù)據(jù)庫關鍵詞搜索功能,快速找到網(wǎng)站的類屬和路徑。雅虎中國的分類數(shù)據(jù)庫關鍵詞搜索功能一向為人稱道,搜狗(搜狐)已取消了搜狐原有的分類數(shù)據(jù)庫關鍵詞搜索功能,雖然其互動式搜索引擎的"搜索提示"和一些搜索結果下的分類搜索路徑指示,從新的角度增強了分類搜索的功能,但缺乏分類數(shù)據(jù)庫的關鍵詞搜索仍不免使人感到不便和遺憾。 (4)分類搜索和關鍵詞搜索可以方便地相互切換,在關鍵詞搜索的結果中,點擊分類路徑指示的最后一個類名,就可進入分類搜索的網(wǎng)站列表,如以"寵物醫(yī)院"為關鍵詞檢索,在分類路徑指示"公司企業(yè)>娛樂>寵物>寵物醫(yī)院"、"娛樂休閑>寵物>寵物護理"中,點擊"寵物醫(yī)院"或"寵物護理"可得到分類搜索結果;反之,在任何一級分類搜索頁面,只要在搜索框中輸入關鍵詞,即可進入關鍵詞搜索。搜狗(搜狐)獨創(chuàng)的分類搜索和關鍵詞搜索的自由切換技術,使分類搜索與關鍵詞搜索的聯(lián)系更為密切,對兩種搜索方式的功能互補有著積極的意義。 (5)無論是分類搜索和關鍵詞搜索,都需要對檢索需求進行概念歸納和提煉,用規(guī)范化的自然語言準確表達檢索需求。二者的區(qū)別在于,分類搜索是以準確的需求表述,尋找相應的類目(類名),一次檢索只能以一個類目為路徑,以縮小外延的方法逐級瀏覽,逐類檢索,如查找提供"股票分析軟件"的網(wǎng)站,只能從"工商經(jīng)濟>金融/投資>股票>分析軟件",或"電腦網(wǎng)絡>軟件>行業(yè)軟件>股票/證券分析軟件@"循序檢索,不可能一下進入到"分析軟件"或"股票/證券分析軟件@"類目;而關鍵詞搜索是用表達檢索需求的詞語即關鍵詞與網(wǎng)頁數(shù)據(jù)庫進行匹配,可以用一個或多個關鍵詞隨意擴檢或縮檢,如"股票+分析軟件"、"股票分析軟件"、"股票+股市+分析軟件"等,只要檢索式長度不超過規(guī)定字節(jié),都有可能返回結果。搜狗(搜狐)的關鍵詞搜索具有網(wǎng)站分類數(shù)據(jù)庫的同步檢索功能,只要關鍵詞準確得當,可同時獲得人工編輯的網(wǎng)站信息和自動索引的網(wǎng)頁信息。 (6)搜狗雖是獨立域名的搜索引擎,但與搜狐仍屬于同源同宗,且不論搜狐的關鍵詞搜索是否采用搜狗的"第三代互動式"搜索技術,搜狗的分類目錄來源于搜狐是無可爭議的,然而搜狗類目設置、排列次序、網(wǎng)站收錄數(shù)量等與搜狐不盡相同,似乎難于給予合理的解釋,如果有分工的趨向,各自應有所側重和鮮明的特色。目前僅就分類搜索而言,搜狗和搜狐在功能和效果上尚無明顯的差別,都能夠給用戶帶來愉悅享受和令人滿意的結果
|