韩国美女酒店激情在线视频,美女视频我看看

早在Web出現(xiàn)之前，互聯(lián)網(wǎng)上就已經(jīng)存在許多旨在讓人們共享的信息資源了。那些資源當(dāng)時(shí)主要存在于各種允許匿名訪問的FTP站點(diǎn)（anonymous ftp），內(nèi)容以學(xué)術(shù)技術(shù)報(bào)告、研究性軟件居多，它們以計(jì)算機(jī)文件的形式存在，文字材料的編碼通常是PostScript或者純文本（那時(shí)還沒有HTML）。

為了便于人們?cè)诜稚⒌腇TP資源中找到所需的東西，1990年加拿大麥吉爾大學(xué)（University of McGill）計(jì)算機(jī)學(xué)院的師生開發(fā)了一個(gè)軟件，Archie。它通過定期搜集并分析FTP系統(tǒng)中存在的文件名信息，提供查找分布在各個(gè)FTP主機(jī)中文件的服務(wù)。Archie能在只知道文件名的前提下，為用戶找到這個(gè)文件所在的FTP服務(wù)器的地址。Archie實(shí)際上是一個(gè)大型的數(shù)據(jù)庫，再加上與這個(gè)大型數(shù)據(jù)庫相關(guān)聯(lián)的一套檢索方法。該數(shù)據(jù)庫中包括大量可通過FTP下載的文件資源的有關(guān)信息，包括這些資源的文件名、文件長度、存放該文件的計(jì)算機(jī)名及目錄名等。盡管所提供服務(wù)的信息資源對(duì)象（非HTML文件）和本書所討論搜索引擎的信息資源對(duì)象（HTML網(wǎng)頁）不一樣，但基本工作方式是相同的（自動(dòng)搜集分布在廣域網(wǎng)上的信息，建立索引，提供檢索服務(wù)），因此人們公認(rèn)Archie為現(xiàn)代搜索引擎的鼻祖。

值得一提的是，即使是在10多年后的今天，以FTP 文件為對(duì)象的信息檢索服務(wù)技術(shù)依然在發(fā)展，尤其是在用戶使用界面上充分采用了Web風(fēng)格。北大天網(wǎng)文件檢索系統(tǒng)就是一個(gè)例子（見http://bingle.pku.edu.cn）。不過鑒于本書寫作定位的關(guān)系，后面將主要討論網(wǎng)頁搜索引擎的相關(guān)問題。

以Web網(wǎng)頁為對(duì)象的搜索引擎和以FTP文件為對(duì)象的檢索系統(tǒng)一個(gè)基本的不同點(diǎn)在于搜集信息的過程。前者是利用HTML文檔之間的鏈接關(guān)系，在Web上一個(gè)網(wǎng)頁、一個(gè)網(wǎng)頁的“爬取”（crawl），將那些網(wǎng)頁“抓”（fetch）到本地后進(jìn)行分析；后者則是根據(jù)已有的關(guān)于FTP站點(diǎn)地址的知識(shí)（例如得到了一個(gè)站點(diǎn)地址列表），對(duì)那些站點(diǎn)進(jìn)行訪問，獲得其文件目錄信息，并不真正將那些文件下載到系統(tǒng)上來。因此，如何在Web上“爬取”，就是搜索引擎要解決的一個(gè)基本問題。在這方面，1993年Matthew Gray開發(fā)了World Wide Web Wanderer，它是世界上第一個(gè)利用HTML網(wǎng)頁之間的鏈接關(guān)系來監(jiān)測(cè)Web發(fā)展規(guī)模的“機(jī)器人”（robot）程序。剛開始時(shí)它只用來統(tǒng)計(jì)互聯(lián)網(wǎng)上的服務(wù)器數(shù)量，后來則發(fā)展為能夠通過它檢索網(wǎng)站域名。鑒于其在Web上沿超鏈“爬行”的工作方式，這種程序有時(shí)也稱為“蜘蛛”（spider）。因此，在文獻(xiàn)中crawler, spider, robot一般都指的是相同的事物，即在Web上依照網(wǎng)頁之間的超鏈關(guān)系一個(gè)個(gè)抓取網(wǎng)頁的程序，通常也稱為“搜集”。在搜索引擎系統(tǒng)中，也稱為網(wǎng)頁搜集子系統(tǒng)。

現(xiàn)代搜索引擎的思路源于Wanderer，不少人在Matthew Grey工作的基礎(chǔ)上對(duì)它的蜘蛛程序做了改進(jìn)。1994年7月，Michael Mauldin將John Leavitt的蜘蛛程序接入到其索引程序中，創(chuàng)建了大家現(xiàn)在熟知的Lycos，成為第一個(gè)現(xiàn)代意義的搜索引擎。在那之后，隨著Web上信息的爆炸性增長，搜索引擎的應(yīng)用價(jià)值也越來越高，不斷有更新、更強(qiáng)的搜索引擎系統(tǒng)推出（下一節(jié)會(huì)有介紹）。這其中，特別引人注目的是Google（http://www.google.com），雖然是個(gè)姍姍來遲者（1998年才推出），但由于其采用了獨(dú)特的PageRank技術(shù)，使它很快后來居上，成為當(dāng)前全球最受歡迎的搜索引擎（作者2003年初訪問印度，就聽到總統(tǒng)阿卜杜勒·卡拉姆講他經(jīng)常用Google在網(wǎng)上查找信息?。?。

在中國，據(jù)我們所知，對(duì)搜索引擎的研究起源于“中國教育科研網(wǎng)”（CERNET）一期工程中的子項(xiàng)目，北京大學(xué)計(jì)算機(jī)系的項(xiàng)目組在陳葆玨教授的主持下于1997年10月在CERNET上推出了天網(wǎng)搜索1.0版本。該系統(tǒng)在這幾年里不斷發(fā)展，目前已成為中國最大的公益性搜索引擎（http://e.pku.edu.cn）。在這之后，幾位在美國留學(xué)的華人學(xué)者回國創(chuàng)業(yè)，成立了百度公司，于2000年推出了“百度”商業(yè)搜索引擎（http://www.baidu.com），并一直處于國內(nèi)搜索引擎的領(lǐng)先地位。我們看到慧聰公司也在中國推出了一個(gè)大規(guī)模搜索引擎（http://www.zhongsou.com），用起來感覺也不錯(cuò)，但往后發(fā)展如何，還有待時(shí)間的考驗(yàn)。

當(dāng)我們談及搜索引擎的時(shí)候，不應(yīng)該忽略另外一個(gè)幾乎是同期發(fā)展出來的事物：基于目錄的信息服務(wù)網(wǎng)站。1994年4月，斯坦福（Stanford）大學(xué)的兩名博士生，David Filo和楊致遠(yuǎn)（Gerry Yang）共同創(chuàng)辦了Yahoo!門戶網(wǎng)站，并成功地使網(wǎng)絡(luò)信息搜索的概念深入人心。1996年中國出現(xiàn)了類似的網(wǎng)站，“搜狐”，（http://www.sohu.com）。在許多場(chǎng)合，也稱Yahoo!之類的門戶網(wǎng)站提供的信息查找功能為搜索引擎。但從技術(shù)上講，這樣的門戶中提供的搜索服務(wù)和前述搜索引擎是很不同的。這樣的門戶依賴的是人工整理的網(wǎng)站分類目錄，一方面，用戶可以直接沿著目錄導(dǎo)航，定位到他所關(guān)心的信息；另一方面，用戶也可以提交查詢?cè)~，讓系統(tǒng)將他直接引導(dǎo)到和該查詢?cè)~最匹配的網(wǎng)站。圖1-2就是我們?cè)谒押喜樵儭耙晾藨?zhàn)爭(zhēng)”的結(jié)果。和圖1-1相比，不難看到其風(fēng)格是很不相同的。在需要區(qū)別的場(chǎng)合，我們可以分別稱“自動(dòng)搜索引擎”和“目錄搜索引擎”，或者“網(wǎng)頁搜索引擎”和“網(wǎng)站搜索引擎”。一般來講，前者的信息搜索會(huì)更全面些，后者則會(huì)準(zhǔn)確些。在沒有特殊說明的情況下，本書中所討論的“搜索引擎”不包括Yahoo!和搜狐這樣的搜索方式。

隨著網(wǎng)上信息越來越多，單純靠人工整理網(wǎng)站目錄取得較高精度查詢結(jié)果的優(yōu)勢(shì)逐漸退化——對(duì)海量的信息進(jìn)行高質(zhì)量的人工分類已經(jīng)不太現(xiàn)實(shí)。目前有兩個(gè)發(fā)展方向。一是利用文本自動(dòng)分類技術(shù)，在搜索引擎上提供對(duì)每篇網(wǎng)頁的自動(dòng)分類，這方面最先看到的例子是Google的“網(wǎng)頁分類”選項(xiàng)，但它分類的對(duì)象只是英文網(wǎng)頁。在中文方面，文本自動(dòng)分類的研究工作有很多，但我們知道的第一個(gè)在網(wǎng)上提供較大規(guī)模網(wǎng)頁自動(dòng)分類服務(wù)的是北大網(wǎng)絡(luò)實(shí)驗(yàn)室馮是聰和龔筆宏等人的工作[馮是聰,2003]，他們于2002年10月在天網(wǎng)搜索上掛接了一個(gè)300萬網(wǎng)頁的分類目錄。另一個(gè)發(fā)展方向是將自動(dòng)網(wǎng)頁爬取和一定的人工分類目錄相結(jié)合，希望形成一個(gè)既有高信息覆蓋率，也有高查詢準(zhǔn)確性的服務(wù)。

互聯(lián)網(wǎng)上信息量在不斷增加，信息的種類也在不斷增加。例如除了我們前面提到的網(wǎng)頁和文件，還有新聞組，論壇，專業(yè)數(shù)據(jù)庫等。同時(shí)上網(wǎng)的人數(shù)也在不斷增加，網(wǎng)民的成分也在發(fā)生變化。一個(gè)搜索引擎要覆蓋所有的網(wǎng)上信息查找需求已出現(xiàn)困難，因此各種主題搜索引擎，個(gè)性化搜索引擎，問答式搜索引擎等紛紛興起。這些搜索引擎雖然還沒有實(shí)現(xiàn)如通用搜索引擎那樣的大規(guī)模應(yīng)用，但隨著互聯(lián)網(wǎng)的發(fā)展，我們相信它們的生命力會(huì)越來越旺盛。另外，即使通用搜索引擎的運(yùn)行現(xiàn)在也開始出現(xiàn)分工協(xié)作，有了專業(yè)的搜索引擎技術(shù)和搜索數(shù)據(jù)庫服務(wù)提供商。例如美國的Inktomi，它本身并不是直接面向用戶的搜索引擎，但向包括Overture（原GoTo）、LookSmart、MSN、HotBot等在內(nèi)的其他搜索引擎提供全文網(wǎng)頁搜集服務(wù)。從這個(gè)意義上說，它是搜索引擎數(shù)據(jù)的來源。

搜索引擎出現(xiàn)雖然只有10年左右的歷史，但在Web上已經(jīng)有了確定不移的地位。據(jù)CNNIC統(tǒng)計(jì)，它已經(jīng)成為繼電子郵件之后的第二大Web應(yīng)用。雖然它的基本工作原理已經(jīng)相當(dāng)穩(wěn)定，但在其質(zhì)量、性能和服務(wù)方式等方面的提高空間依然很大，研究成果層出不窮，是每年WWW學(xué)術(shù)年會(huì)1的重要論題之一。

本站僅提供存儲(chǔ)服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊舉報(bào)。

国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看