搜索引擎(search engines)是對互聯(lián)網(wǎng)上的信息資源進(jìn)行搜集整理,然后供你查詢的系統(tǒng)(也簡單地理解為一個程序),它包括信息搜集、信息整理和用戶查詢?nèi)糠帧?br>
搜索引擎其實(shí)也是一個網(wǎng)站,只不過該網(wǎng)站專門為你提供信息“檢索”服務(wù),它使用特有的程序把因特網(wǎng)上的所有信息歸類以幫助人們在浩如煙海的信息海洋中搜尋到自己所需要的信息。
搜索引擎按其工作的方式分為兩類:一類是分類目錄型的檢索,把因特網(wǎng)中的資源收集起來,由其提供的資源的類型不同而分成不同的目錄,再一層層地進(jìn)行分類,人們要找自己想要的信息可按他們的分類一層層進(jìn)入,就能最后到達(dá)目的地,找到自己想要的信息;另一類是基于關(guān)鍵詞的檢索,這種方式用戶可以用邏輯組合方式輸入各種關(guān)鍵詞(Keyword),搜索引擎計(jì)算機(jī)根據(jù)這些關(guān)鍵詞尋找用戶所需資源的地址,然后根據(jù)一定的規(guī)則反饋給用戶包含此關(guān)鍵字詞信息的所有網(wǎng)址和指向這些網(wǎng)址的鏈接。隨著因特網(wǎng)信息按幾何式增長,這些搜索引擎利用其內(nèi)部的一個叫 SPIDE(蜘蛛)的程序,自動搜索網(wǎng)站每一頁的開始,并把每一頁上代表超級鏈接的所有詞匯放入一個數(shù)據(jù)庫,供用戶來查詢。
早期的搜索引擎是把因特網(wǎng)中的資源服務(wù)器的地址收集起來,由其提供的資源的類型不同而分成不同的目錄,再一層層地進(jìn)行分類。人們要找自己想要的信息可按他們的分類一層層進(jìn)入,就能最后到達(dá)目的地,找到自己想要的信息。這其實(shí)是最原始的方式,只適用于因特網(wǎng)信息并不多的時候。隨著因特網(wǎng)信息按幾何式增長,出現(xiàn)了真正意義上的搜索引擎,這些搜索引擎知道網(wǎng)站上每一頁的開始,隨后搜索因特網(wǎng)上的所有超級鏈接,把代表超級鏈接的所有詞匯放入一個數(shù)據(jù)庫。這就是搜索引擎的原型。
隨著Yahoo!的出現(xiàn),搜索引擎的發(fā)展也進(jìn)入了黃金時代,相比以前其性能更加優(yōu)越?,F(xiàn)在的搜索引擎已經(jīng)不只是單純的搜索網(wǎng)頁的信息了,它們已經(jīng)變得更加綜合化,完美化了。以搜索引擎權(quán)威Yahoo!為例,從1995年3月由美籍華裔楊致遠(yuǎn)等人創(chuàng)辦Yahoo! 開始,到現(xiàn)在,他們從一個單一的搜索引擎發(fā)展到現(xiàn)在有電子商務(wù)、新聞信息服務(wù)、個人免費(fèi)電子信箱服務(wù)等多種網(wǎng)絡(luò)服務(wù),充分說明了搜索引擎的發(fā)展從單一到綜合的過程。
舉一個簡單例子,您如果需要購買鮮花,可又不知道在什么地方,這是您就可以打開雅虎,在它的主頁里有一個文字輸入框,您可以輸入“鮮花店”,然后點(diǎn)擊搜索按鈕,這是雅虎就可以為您搜索出網(wǎng)上所有的鮮花店的網(wǎng)站,您只要點(diǎn)擊搜索結(jié)果的網(wǎng)站即可進(jìn)入它的網(wǎng)站瀏覽。當(dāng)然,您也可以輸入“上海鮮花店”來檢索上海的鮮花店。
然而由于搜索引擎的工作方式和因特網(wǎng)的快速發(fā)展,使其搜索的結(jié)果讓人越來越不滿意。例如,搜索“電腦”這個詞匯,就可能有數(shù)百萬頁的結(jié)果。這是由于搜索引擎通過對網(wǎng)站的相關(guān)性來優(yōu)化搜索結(jié)果,這種相關(guān)性又是由關(guān)鍵字在網(wǎng)站的位置、網(wǎng)站的名稱、標(biāo)簽等公式來決定的。這就是使搜索引擎搜索結(jié)果多而雜的原因。而搜索引擎中的數(shù)據(jù)庫因?yàn)橐蛱鼐W(wǎng)的發(fā)展變化也必然包含了死鏈接。
搜索引擎的工作原理大致可以分為:
1、搜集信息:搜索引擎的信息搜集基本都是自動的。搜索引擎利用稱為網(wǎng)絡(luò)蜘蛛(spider)的自動搜索機(jī)器人程序來連上每一個網(wǎng)頁上的超連結(jié)。機(jī)器人程序根據(jù)網(wǎng)頁鏈到其他中的超鏈接,就象日常生活中所說的“一傳十,十傳百……”一樣,從少數(shù)幾個網(wǎng)頁開始,連到數(shù)據(jù)庫上所有到其他網(wǎng)頁的鏈接。理論上,若網(wǎng)頁上有適當(dāng)?shù)某B結(jié),機(jī)器人便可以遍歷絕大部分網(wǎng)頁。
2、整理信息:搜索引擎整理信息的過程稱為“建立索引”。搜索引擎不僅要保存搜集起來的信息,還要將它們按照一定的規(guī)則進(jìn)行編排。這樣,搜索引擎根本不用重新翻查它所有保存的信息而迅速找到所要的資料。想象一下,如果信息是不按任何規(guī)則地隨意堆放在搜索引擎的數(shù)據(jù)庫中,那么它每次找資料都得把整個資料庫完全翻查一遍,如此一來再快的計(jì)算機(jī)系統(tǒng)也沒有用。
3、接受查詢:用戶向搜索引擎發(fā)出查詢,搜索引擎接受查詢并向用戶返回資料。搜索引擎每時每刻都要接到來自大量用戶的幾乎是同時發(fā)出的查詢,它按照每個用戶的要求檢查自己的索引,在極短時間內(nèi)找到用戶需要的資料,并返回給用戶。目前,搜索引擎返回主要是以網(wǎng)頁鏈接的形式提供的,這些通過這些鏈接,用戶便能到達(dá)含有自己所需資料的網(wǎng)頁。通常搜索引擎會在這些鏈接下提供一小段來自這些網(wǎng)頁的摘要信息以幫助用戶判斷此網(wǎng)頁是否含有自己需要的內(nèi)容。