文/廣東 水月子
1、原理:信息檢索理論是起源
從字面意義上來解釋,搜索引擎是用于幫助互聯(lián)網(wǎng)用戶查詢信息的搜索工具,它以一定的策略在互聯(lián)網(wǎng)中搜集、發(fā)現(xiàn)信息,對信息進(jìn)行理解、提取、組織和處理,并為用戶提供檢索服務(wù),從而起到信息導(dǎo)航的目的。 不過在早期的時(shí)候,互聯(lián)網(wǎng)上面的搜索引擎和今天我們使用的搜索引擎有所不同,早期的搜索引擎更加像是我們今天很多中文“ICP網(wǎng)站”,把因特網(wǎng)中的資源服務(wù)器的地址收集起來,由其提供的資源類型的不同而分成不同的目錄,再一層層地進(jìn)行分類。人們要找自己想要的信息可按他們的分類一層層進(jìn)入,就能最后到達(dá)目的地,找到自己想要的信息。這其實(shí)是最原始的方式,只適用于因特網(wǎng)信息并不多的時(shí)候,因?yàn)槿绻畔⒁坏┒嗥饋?,查找的時(shí)候所花費(fèi)的時(shí)間就很長了。 簡單地說,搜索引擎的原理是起源于傳統(tǒng)的信息全文檢索理論,即計(jì)算機(jī)程序通過掃描每一篇文章中的每一個(gè)詞,建立以詞為單位的排序文件,檢索程序根據(jù)檢索詞在每一篇文章中出現(xiàn)的頻率和每一個(gè)檢索詞在一篇文章中出現(xiàn)的概率,對包含這些檢索詞的文章進(jìn)行排序,最后輸出排序的結(jié)果?;ヂ?lián)網(wǎng)搜索引擎除了需要有全文檢索系統(tǒng)之外,還要有所謂的“蜘蛛”(SPIDER)系統(tǒng),即能夠從互聯(lián)網(wǎng)上自動收集網(wǎng)頁的數(shù)據(jù)搜集系統(tǒng)。蜘蛛系統(tǒng)是John Leavitt開發(fā)的,并且由Michael Mauldin將這個(gè)系統(tǒng)融合到了Lycos搜索引擎里面去,它能夠?qū)⑺鸭玫木W(wǎng)頁內(nèi)容交給索引和檢索系統(tǒng)處理,就形成了我們常見的互聯(lián)網(wǎng)搜索引擎系統(tǒng)。當(dāng)然,一個(gè)完整的搜索引擎系統(tǒng)還需要有一個(gè)檢索結(jié)果的頁面生成系統(tǒng),也就是要把檢索結(jié)果高效地組裝成萬維網(wǎng)頁面。
2、歷史:Yahoo!是代表
說到搜索引擎的歷史,自然不能不說雅虎(Yahoo!)了。正如計(jì)算機(jī)時(shí)代的很多新事物一樣,Yahoo!起源于一個(gè)想法,隨后變成一種業(yè)余愛好,最終成了使人全身心投入的一項(xiàng)事業(yè)。Yahoo!的兩位創(chuàng)始人大衛(wèi).費(fèi)羅(David Filo)和楊致遠(yuǎn)(Jerry Yang)是美國斯坦福大學(xué)電機(jī)工程系的博士生,于1994年4月建立了自己的網(wǎng)絡(luò)指南信息庫,將其作為記錄他們個(gè)人對互聯(lián)網(wǎng)的興趣的一種方式。但是不久,他們將Yahoo!變成了一個(gè)可定制的數(shù)據(jù)庫,旨在滿足成千上萬的、剛剛開始通過互聯(lián)網(wǎng)社區(qū)使用網(wǎng)絡(luò)服務(wù)的用戶的需要。他們開發(fā)了可定制的軟件,幫助他們有效地查找、識別和編輯互聯(lián)網(wǎng)上存儲的資料。最初Yahoo!存放在楊致遠(yuǎn)的學(xué)生工作站“akebono”上,而搜索引擎存放在Filo的計(jì)算機(jī)“konishiki”上(這些計(jì)算機(jī)的名稱都來自于一些具有傳奇色彩的夏威夷摔交手),結(jié)果令大家意想不到的是,Yahoo!大受歡迎,斯坦福大學(xué)的計(jì)算機(jī)網(wǎng)絡(luò)由此受到來自外界的大瀏覽量的沖擊。1995年初,Netscape Communications公司邀請大衛(wèi).費(fèi)羅和楊致遠(yuǎn)將他們的文件轉(zhuǎn)移到Netscape公司提供的更大的計(jì)算機(jī)上。這一做法不僅使斯坦福大學(xué)的計(jì)算機(jī)網(wǎng)絡(luò)恢復(fù)了正常,而且令雙方都有所受益。今天,Yahoo!含有鏈接到互聯(lián)網(wǎng)上的成千上萬臺計(jì)算機(jī)中存儲的信息。 從1994年4月中國科學(xué)院網(wǎng)首次與Internet網(wǎng)互聯(lián)開始,中文搜索引擎的發(fā)展速度就非常驚人,臺灣和香港加入互聯(lián)網(wǎng)的時(shí)間較早,建立和發(fā)展中文搜索引擎的歷史較長,其發(fā)展速度也很快。在中國,大陸的中文搜索引擎以天網(wǎng)、搜狐、網(wǎng)易、新浪搜索等為代表;臺灣的中文搜索引擎以O(shè)penfind、奇摩、蓋世引擎等為代表;香港的中文搜索引擎以茉莉之窗、網(wǎng)上行、悠游等為代表。國際上一些大型的搜索引擎公司也紛紛加入了中文搜索引擎市場,最具有代表性的是Alta Vista、Yahoo中文簡體版和繁體版,還有Excite。
3、現(xiàn)在:與網(wǎng)頁完美結(jié)合
隨著網(wǎng)上內(nèi)容的爆炸式增長和內(nèi)容形式花樣的不斷翻新,搜索引擎越來越不能滿足挑剔的網(wǎng)民們的各種信息需求。目前的搜索引擎仍然存在不少的局限性。從1996年起,搜索引擎技術(shù)開始注重網(wǎng)頁質(zhì)量與相關(guān)性的結(jié)合,這主要是通過三種手段: 1.是對網(wǎng)上的超鏈結(jié)構(gòu)進(jìn)行分析,如INFOSEEK和GOOGLE; 2.是對用戶的點(diǎn)擊行為進(jìn)行分析,如DIRECTHIT(被ASK JEEVES收購); 3.是與網(wǎng)站目錄相結(jié)合。最新的趨勢則是搜索的個(gè)性化和本地化。 個(gè)性化:入門網(wǎng)站的個(gè)性化已經(jīng)比較成熟了,但是搜索引擎的個(gè)性化并沒有得到解決,不同的人使用相同的檢索詞得到的結(jié)果是相同的。也就是說搜索引擎沒有考慮人的地域、性別、年齡等方面的差別。DIRECTHIT等公司一年前開始了個(gè)性化方面的研發(fā)工作,但至今沒有推出任何產(chǎn)品。 本地化:本地化是一個(gè)比個(gè)性化更明顯的趨勢。隨著互聯(lián)網(wǎng)在全球的迅速普及,綜合性的搜索引擎已經(jīng)不能滿足很多非美國網(wǎng)民的信息需求。近來,YAHOO!、INKTOMI、LYCOS等公司不斷推出各國、各地區(qū)的本地搜索網(wǎng)站,搜索的本地化已經(jīng)是勢不可擋。
4、未來:高效、智能是主流
未來,搜索引擎的發(fā)展方向是:
1.自然語言理解技術(shù)
自然語言理解是計(jì)算機(jī)科學(xué)中的一個(gè)引人入勝的、富有挑戰(zhàn)性的課題。從計(jì)算機(jī)科學(xué)特別是從人工智能的觀點(diǎn)看,自然語言理解的任務(wù)是建立一種計(jì)算機(jī)模型,這種計(jì)算機(jī)模型能夠給出像人那樣理解、分析并回答自然語言。以自然語言理解技術(shù)為基礎(chǔ)的新一代搜索引擎,我們稱之為智能搜索引擎。由于它將信息檢索從目前基于關(guān)鍵詞層面提高到基于知識(或概念)層面,對知識有一定的理解與處理能力,能夠?qū)崿F(xiàn)分詞技術(shù)、同義詞技術(shù)、概念搜索、短語識別以及機(jī)器翻譯技術(shù)等。因而這種搜索引擎具有信息服務(wù)的智能化、人性化特征,允許網(wǎng)民采用自然語言進(jìn)行信息的檢索,為他們提供更方便、更確切的搜索服務(wù)。
2. P2P對等網(wǎng)絡(luò)
P2P是peer-to-peer的縮寫,意為對等網(wǎng)絡(luò)。其在加強(qiáng)網(wǎng)絡(luò)上人的交流、文件交換、分布計(jì)算等方面大有前途。長久以來,人們習(xí)慣的互聯(lián)網(wǎng)是以服務(wù)器為中心,人們向服務(wù)器發(fā)送請求,然后瀏覽服務(wù)器回應(yīng)的信息。而P2P所包含的技術(shù)就是使聯(lián)網(wǎng)電腦能夠進(jìn)行數(shù)據(jù)交換,但數(shù)據(jù)是存儲在每臺電腦里,而不是存儲在既昂貴又容易受到攻擊的服務(wù)器里。網(wǎng)絡(luò)成員可以在網(wǎng)絡(luò)數(shù)據(jù)庫里自由搜索、更新、回答和傳送數(shù)據(jù)。所有人都共享了他們認(rèn)為最有價(jià)值的東西,這將使互聯(lián)網(wǎng)上信息的價(jià)值得到極大的提升。 3.多媒體搜索引擎 隨著寬帶技術(shù)的發(fā)展,未來的互聯(lián)網(wǎng)是多媒體數(shù)據(jù)的時(shí)代。開發(fā)出可查尋圖像、聲音、圖片和電影的搜索引擎是一個(gè)新的方向。目前瑞典一家公司已經(jīng)研制推出被稱作“第五代搜索引擎”的動態(tài)的和有聲的多媒體搜索引擎。圖像、視頻將很快取代文本成為互聯(lián)網(wǎng)上主要的信息。
本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請
點(diǎn)擊舉報(bào)。