国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
第二節(jié) 搜索引擎的發(fā)展歷史

早在Web出現(xiàn)之前,互聯(lián)網(wǎng)上就已經(jīng)存在許多旨在讓人們共享的信息資源了。那些資源當(dāng)時(shí)主要存在于各種允許匿名訪問的FTP站點(diǎn)(anonymous ftp),內(nèi)容以學(xué)術(shù)技術(shù)報(bào)告、研究性軟件居多,它們以計(jì)算機(jī)文件的形式存在,文字材料的編碼通常是PostScript或者純文本(那時(shí)還沒有HTML)。

為了便于人們?cè)诜稚⒌腇TP資源中找到所需的東西,1990年加拿大麥吉爾大學(xué)(University of McGill)計(jì)算機(jī)學(xué)院的師生開發(fā)了一個(gè)軟件,Archie。它通過定期搜集并分析FTP系統(tǒng)中存在的文件名信息,提供查找分布在各個(gè)FTP主機(jī)中文件的服務(wù)。Archie能在只知道文件名的前提下,為用戶找到這個(gè)文件所在的FTP服務(wù)器的地址。Archie實(shí)際上是一個(gè)大型的數(shù)據(jù)庫,再加上與這個(gè)大型數(shù)據(jù)庫相關(guān)聯(lián)的一套檢索方法。該數(shù)據(jù)庫中包括大量可通過FTP下載的文件資源的有關(guān)信息,包括這些資源的文件名、文件長度、存放該文件的計(jì)算機(jī)名及目錄名等。盡管所提供服務(wù)的信息資源對(duì)象(非HTML文件)和本書所討論搜索引擎的信息資源對(duì)象(HTML網(wǎng)頁)不一樣,但基本工作方式是相同的(自動(dòng)搜集分布在廣域網(wǎng)上的信息,建立索引,提供檢索服務(wù)),因此人們公認(rèn)Archie為現(xiàn)代搜索引擎的鼻祖。

值得一提的是,即使是在10多年后的今天,以FTP 文件為對(duì)象的信息檢索服務(wù)技術(shù)依然在發(fā)展,尤其是在用戶使用界面上充分采用了Web風(fēng)格。北大天網(wǎng)文件檢索系統(tǒng)就是一個(gè)例子(見http://bingle.pku.edu.cn)。不過鑒于本書寫作定位的關(guān)系,后面將主要討論網(wǎng)頁搜索引擎的相關(guān)問題。

以Web網(wǎng)頁為對(duì)象的搜索引擎和以FTP文件為對(duì)象的檢索系統(tǒng)一個(gè)基本的不同點(diǎn)在于搜集信息的過程。前者是利用HTML文檔之間的鏈接關(guān)系,在Web上一個(gè)網(wǎng)頁、一個(gè)網(wǎng)頁的“爬取”(crawl),將那些網(wǎng)頁“抓”(fetch)到本地后進(jìn)行分析;后者則是根據(jù)已有的關(guān)于FTP站點(diǎn)地址的知識(shí)(例如得到了一個(gè)站點(diǎn)地址列表),對(duì)那些站點(diǎn)進(jìn)行訪問,獲得其文件目錄信息,并不真正將那些文件下載到系統(tǒng)上來。因此,如何在Web上“爬取”,就是搜索引擎要解決的一個(gè)基本問題。在這方面,1993年Matthew Gray開發(fā)了World Wide Web Wanderer,它是世界上第一個(gè)利用HTML網(wǎng)頁之間的鏈接關(guān)系來監(jiān)測(cè)Web發(fā)展規(guī)模的“機(jī)器人”(robot)程序。剛開始時(shí)它只用來統(tǒng)計(jì)互聯(lián)網(wǎng)上的服務(wù)器數(shù)量,后來則發(fā)展為能夠通過它檢索網(wǎng)站域名。鑒于其在Web上沿超鏈“爬行”的工作方式,這種程序有時(shí)也稱為“蜘蛛”(spider)。因此,在文獻(xiàn)中crawler, spider, robot一般都指的是相同的事物,即在Web上依照網(wǎng)頁之間的超鏈關(guān)系一個(gè)個(gè)抓取網(wǎng)頁的程序,通常也稱為“搜集”。在搜索引擎系統(tǒng)中,也稱為網(wǎng)頁搜集子系統(tǒng)。

現(xiàn)代搜索引擎的思路源于Wanderer,不少人在Matthew Grey工作的基礎(chǔ)上對(duì)它的蜘蛛程序做了改進(jìn)。1994年7月,Michael Mauldin將John Leavitt的蜘蛛程序接入到其索引程序中,創(chuàng)建了大家現(xiàn)在熟知的Lycos,成為第一個(gè)現(xiàn)代意義的搜索引擎。在那之后,隨著Web上信息的爆炸性增長,搜索引擎的應(yīng)用價(jià)值也越來越高,不斷有更新、更強(qiáng)的搜索引擎系統(tǒng)推出(下一節(jié)會(huì)有介紹)。這其中,特別引人注目的是Google(http://www.google.com),雖然是個(gè)姍姍來遲者(1998年才推出),但由于其采用了獨(dú)特的PageRank技術(shù),使它很快后來居上,成為當(dāng)前全球最受歡迎的搜索引擎(作者2003年初訪問印度,就聽到總統(tǒng)阿卜杜勒·卡拉姆講他經(jīng)常用Google在網(wǎng)上查找信息?。?。

在中國,據(jù)我們所知,對(duì)搜索引擎的研究起源于“中國教育科研網(wǎng)”(CERNET)一期工程中的子項(xiàng)目,北京大學(xué)計(jì)算機(jī)系的項(xiàng)目組在陳葆玨教授的主持下于1997年10月在CERNET上推出了天網(wǎng)搜索1.0版本。該系統(tǒng)在這幾年里不斷發(fā)展,目前已成為中國最大的公益性搜索引擎(http://e.pku.edu.cn)。在這之后,幾位在美國留學(xué)的華人學(xué)者回國創(chuàng)業(yè),成立了百度公司,于2000年推出了“百度”商業(yè)搜索引擎(http://www.baidu.com),并一直處于國內(nèi)搜索引擎的領(lǐng)先地位。我們看到慧聰公司也在中國推出了一個(gè)大規(guī)模搜索引擎(http://www.zhongsou.com),用起來感覺也不錯(cuò),但往后發(fā)展如何,還有待時(shí)間的考驗(yàn)。

當(dāng)我們談及搜索引擎的時(shí)候,不應(yīng)該忽略另外一個(gè)幾乎是同期發(fā)展出來的事物:基于目錄的信息服務(wù)網(wǎng)站。1994年4月,斯坦福(Stanford)大學(xué)的兩名博士生,David Filo和楊致遠(yuǎn)(Gerry Yang)共同創(chuàng)辦了Yahoo!門戶網(wǎng)站,并成功地使網(wǎng)絡(luò)信息搜索的概念深入人心。1996年中國出現(xiàn)了類似的網(wǎng)站,“搜狐”,(http://www.sohu.com)。在許多場(chǎng)合,也稱Yahoo!之類的門戶網(wǎng)站提供的信息查找功能為搜索引擎。但從技術(shù)上講,這樣的門戶中提供的搜索服務(wù)和前述搜索引擎是很不同的。這樣的門戶依賴的是人工整理的網(wǎng)站分類目錄,一方面,用戶可以直接沿著目錄導(dǎo)航,定位到他所關(guān)心的信息;另一方面,用戶也可以提交查詢?cè)~,讓系統(tǒng)將他直接引導(dǎo)到和該查詢?cè)~最匹配的網(wǎng)站。圖1-2就是我們?cè)谒押喜樵儭耙晾藨?zhàn)爭(zhēng)”的結(jié)果。和圖1-1相比,不難看到其風(fēng)格是很不相同的。在需要區(qū)別的場(chǎng)合,我們可以分別稱“自動(dòng)搜索引擎”和“目錄搜索引擎”,或者“網(wǎng)頁搜索引擎”和“網(wǎng)站搜索引擎”。一般來講,前者的信息搜索會(huì)更全面些,后者則會(huì)準(zhǔn)確些。在沒有特殊說明的情況下,本書中所討論的“搜索引擎”不包括Yahoo!和搜狐這樣的搜索方式。

隨著網(wǎng)上信息越來越多,單純靠人工整理網(wǎng)站目錄取得較高精度查詢結(jié)果的優(yōu)勢(shì)逐漸退化——對(duì)海量的信息進(jìn)行高質(zhì)量的人工分類已經(jīng)不太現(xiàn)實(shí)。目前有兩個(gè)發(fā)展方向。一是利用文本自動(dòng)分類技術(shù),在搜索引擎上提供對(duì)每篇網(wǎng)頁的自動(dòng)分類,這方面最先看到的例子是Google的“網(wǎng)頁分類”選項(xiàng),但它分類的對(duì)象只是英文網(wǎng)頁。在中文方面,文本自動(dòng)分類的研究工作有很多,但我們知道的第一個(gè)在網(wǎng)上提供較大規(guī)模網(wǎng)頁自動(dòng)分類服務(wù)的是北大網(wǎng)絡(luò)實(shí)驗(yàn)室馮是聰和龔筆宏等人的工作[馮是聰,2003],他們于2002年10月在天網(wǎng)搜索上掛接了一個(gè)300萬網(wǎng)頁的分類目錄。另一個(gè)發(fā)展方向是將自動(dòng)網(wǎng)頁爬取和一定的人工分類目錄相結(jié)合,希望形成一個(gè)既有高信息覆蓋率,也有高查詢準(zhǔn)確性的服務(wù)。

互聯(lián)網(wǎng)上信息量在不斷增加,信息的種類也在不斷增加。例如除了我們前面提到的網(wǎng)頁和文件,還有新聞組,論壇,專業(yè)數(shù)據(jù)庫等。同時(shí)上網(wǎng)的人數(shù)也在不斷增加,網(wǎng)民的成分也在發(fā)生變化。一個(gè)搜索引擎要覆蓋所有的網(wǎng)上信息查找需求已出現(xiàn)困難,因此各種主題搜索引擎,個(gè)性化搜索引擎,問答式搜索引擎等紛紛興起。這些搜索引擎雖然還沒有實(shí)現(xiàn)如通用搜索引擎那樣的大規(guī)模應(yīng)用,但隨著互聯(lián)網(wǎng)的發(fā)展,我們相信它們的生命力會(huì)越來越旺盛。另外,即使通用搜索引擎的運(yùn)行現(xiàn)在也開始出現(xiàn)分工協(xié)作,有了專業(yè)的搜索引擎技術(shù)和搜索數(shù)據(jù)庫服務(wù)提供商。例如美國的Inktomi,它本身并不是直接面向用戶的搜索引擎,但向包括Overture(原GoTo)、LookSmart、MSN、HotBot等在內(nèi)的其他搜索引擎提供全文網(wǎng)頁搜集服務(wù)。從這個(gè)意義上說,它是搜索引擎數(shù)據(jù)的來源。

搜索引擎出現(xiàn)雖然只有10年左右的歷史,但在Web上已經(jīng)有了確定不移的地位。據(jù)CNNIC統(tǒng)計(jì),它已經(jīng)成為繼電子郵件之后的第二大Web應(yīng)用。雖然它的基本工作原理已經(jīng)相當(dāng)穩(wěn)定,但在其質(zhì)量、性能和服務(wù)方式等方面的提高空間依然很大,研究成果層出不窮,是每年WWW學(xué)術(shù)年會(huì)1的重要論題之一。

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
搜索引擎知識(shí)
搜索引擎集(zt)
第一章 網(wǎng)絡(luò)能為我們做什么第三課 因特網(wǎng)信息資料檢索 -
賽迪網(wǎng)_IT門戶_資訊中心_即時(shí)新聞賽迪網(wǎng)搜索專區(qū):搜索引擎發(fā)展史回顧
搜索引擎、網(wǎng)絡(luò)爬蟲
文獻(xiàn)搜索方法概述
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服