韩国美女片在高清视频播放,韩国美女视频电影,看美女视频的app推荐

摘要

隨著網(wǎng)絡(luò)與通信技術(shù)的迅速發(fā)展，web信息爆炸性的增長，已經(jīng)成為一個(gè)巨大的海量信息空間。如何快速、準(zhǔn)確、方便的從如此龐大的信息庫中獲取自己需要的信息，是互聯(lián)網(wǎng)用戶面臨的一個(gè)重要問題。Web搜索引擎能為用戶提供一種查找所需資源的服務(wù)，已經(jīng)成為互聯(lián)網(wǎng)上僅次于電子郵件的第二大服務(wù)。本文首先介紹了搜索引擎的原理和實(shí)現(xiàn)技術(shù)。然后討論了搜索引擎技術(shù)發(fā)展最新前沿技術(shù)。最后，結(jié)合筆者在這方面的研究，給出了搜索引擎近期的發(fā)展方向。

關(guān)鍵詞

Web，搜索引擎，網(wǎng)絡(luò)技術(shù)

一. 導(dǎo)論

隨著網(wǎng)絡(luò)技術(shù)的應(yīng)用與發(fā)展，互連網(wǎng)已經(jīng)成為信息的重要來源地。到1999年底，已經(jīng)至少有1，600萬臺(tái)主機(jī)接入互連網(wǎng)，互聯(lián)網(wǎng)上網(wǎng)頁總數(shù)已達(dá)到10多億頁，并且以每月近千萬的數(shù)目遞增[1]。搜索引擎以一定的策略在互聯(lián)網(wǎng)中搜集、發(fā)現(xiàn)信息，對(duì)信息進(jìn)行理解、提取、組織和處理，并為用戶提供檢索服務(wù)，從而起到信息導(dǎo)航的目的[2]，互聯(lián)網(wǎng)用戶使用網(wǎng)絡(luò)獲取信息過程中，搜索引擎也成為必不可少的工具。調(diào)查表明，當(dāng)前的所有互連網(wǎng)應(yīng)用中，網(wǎng)絡(luò)信息搜索是僅次于電子郵件的第二大應(yīng)用，而這些搜索絕大多數(shù)是專門的，高度復(fù)雜的搜索引擎實(shí)現(xiàn)的。

按照信息搜集方法和服務(wù)提供方式的不同，搜索引擎系統(tǒng)可以分為三大類：目錄式搜索引擎，以人工方式或半自動(dòng)方式搜集信息，由編輯員查看信息之后，人工形成信息摘要，并將信息置于事先確定的分類框架中，由于web信息的海量性和人工處理能力、經(jīng)濟(jì)代價(jià)的限制，這類搜索引擎信息的即時(shí)性和全面性難以保證它的優(yōu)秀代表是Yahoo[3]等；機(jī)器人搜索引擎，由一個(gè)稱為蜘蛛（Spider）的機(jī)器人程序以某種策略自動(dòng)地在互聯(lián)網(wǎng)中搜集和發(fā)現(xiàn)信息，由索引器為搜集到的信息建立索引，由檢索器根據(jù)用戶的查詢輸入檢索索引庫，并將查詢結(jié)果返回給用戶，這類搜索引擎實(shí)現(xiàn)較為復(fù)雜，但能很好的實(shí)現(xiàn)信息的全面獲取和即時(shí)更新，它的優(yōu)秀代表是google[4]等,后文如非特別說明，都指這類搜索引擎；元搜索引擎，這類搜索引擎沒有自己的數(shù)據(jù)，而是將用戶的查詢請(qǐng)求同時(shí)向多個(gè)搜索引擎遞交，將返回的結(jié)果進(jìn)行重復(fù)排除、重新排序等處理后，作為自己的結(jié)果返回給用戶，這類搜索引擎兼集多個(gè)搜索引擎的信息，并且加入新的排序和信息過濾，可以很好的提高用戶滿意度，它的優(yōu)秀代表是vivisino[5]等。

本文組織如下：第二部分介紹了web搜索引擎的原理和實(shí)現(xiàn)技術(shù)；第三部分介紹了web搜索引擎的最新發(fā)展動(dòng)態(tài)和前沿技術(shù)；第四部分給出了基本展望。最后給出了結(jié)論。

二. web搜索引擎的原理、實(shí)現(xiàn)和評(píng)價(jià)指標(biāo)

web搜索引擎的原理通常為：首先是用蜘蛛（Spider）進(jìn)行全網(wǎng)搜索，自動(dòng)抓取網(wǎng)頁；然后將抓取的網(wǎng)頁進(jìn)行索引，同時(shí)也會(huì)記錄與檢索有關(guān)的屬性，中文搜索引擎中還需要首先對(duì)中文進(jìn)行分詞；最后，接受用戶查詢請(qǐng)求，檢索索引文件并按照各種參數(shù)進(jìn)行復(fù)雜的計(jì)算，產(chǎn)生結(jié)果并返回給用戶。

基于上面的原理，下面將簡要介紹Web搜索引擎實(shí)現(xiàn)。

1. 利用網(wǎng)絡(luò)蜘蛛獲取網(wǎng)絡(luò)資源。

這是一種半自動(dòng)化的資源（由于此時(shí)尚未對(duì)資源進(jìn)行分析和理解，不能成為信息而僅是資源）獲取方式。所謂半自動(dòng)化，是指搜索器需要人工指定起始網(wǎng)絡(luò)資源url（Uniform Resource Locator），然后獲取該url所指向的網(wǎng)絡(luò)資源，并分析該資源所指向的其他資源并獲取。其基本流程圖如下：

圖1,基本搜索器流程圖

網(wǎng)絡(luò)蜘蛛訪問資源的過程，是對(duì)互聯(lián)網(wǎng)上信息遍歷的過程。在實(shí)際的蜘蛛程序中，為了保證信息收集的全面性，及時(shí)性，還有多個(gè)蜘蛛程序的分工和合作問題，往往有復(fù)雜的控制機(jī)制。如google的在利用蜘蛛程序獲取網(wǎng)絡(luò)資源時(shí)，是由一個(gè)認(rèn)為管理程序負(fù)責(zé)任務(wù)的分配和結(jié)果的處理，多個(gè)分布式的蜘蛛程序從管理程序活動(dòng)任務(wù)，然后將獲取的資源作為結(jié)果返回，并從新獲得任務(wù)[6]。

2. 利用索引器從搜索器獲取的資源中抽取信息，并建立利于檢索的索引表：

當(dāng)用網(wǎng)絡(luò)蜘蛛獲取資源后后，需要對(duì)這些進(jìn)行加工過濾，去掉網(wǎng)控制代碼及無用信息，提取出有用的信息，并把信息用一定的模型表示，使查詢結(jié)果更為準(zhǔn)確。其中信息的表示模型一般有布爾模型，向量模型，概率模型和神經(jīng)網(wǎng)絡(luò)模型等[7]。Web上的信息一般表現(xiàn)為網(wǎng)頁，對(duì)每個(gè)網(wǎng)頁，須生成一個(gè)摘要，此摘要將顯示在查詢結(jié)果的頁面中，告訴查詢用戶各網(wǎng)頁的內(nèi)容概要。模型化的信息將存放在臨時(shí)數(shù)據(jù)庫中，由于web數(shù)據(jù)的數(shù)據(jù)量極為龐大，為了提高檢索效率，須按照一定規(guī)則建立索引。不同搜索引擎在建立索引時(shí)會(huì)考慮不同的選項(xiàng)，如是否建立全文索引，是否過濾無用詞匯，是否使用meta信息等。索引的建立包括：分析過程，處理文檔中可能的錯(cuò)誤；文檔索引，完成分析的文檔被編碼進(jìn)存儲(chǔ)桶，有些搜索引擎還會(huì)使用并行索引；排序，將存儲(chǔ)桶按照一定的規(guī)則排序，生產(chǎn)全文存儲(chǔ)桶。最終形成的索引一般按照倒排文件的格式存放。

3. 檢索及用戶交互：

前面兩部分屬于搜索引擎的后臺(tái)支持。本部分在前面信息索引庫的基礎(chǔ)上，接受用戶查詢請(qǐng)求，并到索引庫檢索相關(guān)內(nèi)容，返回給用戶。這部分的主要內(nèi)容包括：用戶查詢（query）理解，即最大可能貼近的理解用戶通過查詢串想要表達(dá)的查詢目的，并將用戶查詢轉(zhuǎn)換化為后臺(tái)檢索使用的信息模型；根據(jù)用戶查詢的檢索模型，在索引庫中檢索出結(jié)果集；結(jié)果排序：通過特定的排序算法，對(duì)檢索結(jié)果集進(jìn)行排序?，F(xiàn)在用的的排序因素一般有查詢相關(guān)度，google發(fā)明的pagerank計(jì)術(shù)，baidu的競價(jià)技術(shù)等。由于web數(shù)據(jù)的海量性和用戶初始查詢的模糊性，檢索結(jié)果集一般很大，而用戶一邊不會(huì)有足夠的耐性逐個(gè)查看所有的結(jié)果，所以怎樣設(shè)計(jì)結(jié)果集的排序算法，把用戶感興趣的結(jié)果排在前面就十分重要。

搜索引擎的評(píng)價(jià)指標(biāo)有響應(yīng)時(shí)間、查全率、查準(zhǔn)率和用戶滿意度等。其中響應(yīng)時(shí)間是從用戶提交查詢請(qǐng)求到搜索引擎給出查詢結(jié)果的時(shí)間間隔，響應(yīng)時(shí)間必須在用戶可以接受的范圍之內(nèi)。查全率是指查詢結(jié)果集信息的完備性。查準(zhǔn)率是指查詢結(jié)果集中符合用戶要求的數(shù)目與結(jié)果總數(shù)之比。用戶滿意度是一個(gè)難以量化的概念，除了搜索引擎本身的服務(wù)質(zhì)量外，它還和用戶群體，網(wǎng)絡(luò)環(huán)境有關(guān)系。在搜索引擎可以控制的范圍內(nèi)，其核心是搜索結(jié)果的排序，即前文提到的如何把最合適的結(jié)果排到前面。

三. web搜索引擎的最新動(dòng)態(tài)

當(dāng)前，搜索引擎技術(shù)已經(jīng)趨于成數(shù)，用戶滿意度也保持在一個(gè)可以接受的水平。在信息搜集技術(shù)，索引建立技術(shù)，檢索技術(shù)和結(jié)果集排序技術(shù)方面，最近幾年，除了google創(chuàng)造性的提出pagerank技術(shù)，并把他用于結(jié)果排序外，基本沒有什么突破性的進(jìn)展。而搜索引擎的研究與信息集成逐漸融合，在這方面的研究主要集中在兩個(gè)方面：查詢擴(kuò)展（query expansion）和結(jié)果集的動(dòng)態(tài)分類。

1．查詢擴(kuò)展：

由于用戶使用搜索引擎查找信息時(shí)，往往不能用搜索引擎提供的標(biāo)準(zhǔn)準(zhǔn)確的表述想要查找的東西，從而在基于用戶查詢請(qǐng)求到索引庫檢索前，需要進(jìn)行查詢擴(kuò)展（query expansion）。查詢擴(kuò)展包括兩個(gè)步驟：用新的關(guān)鍵詞擴(kuò)展初始查詢串；對(duì)擴(kuò)展后查詢串里的關(guān)鍵詞從新進(jìn)行權(quán)重分配。查詢擴(kuò)展的方法分為三類：基于用戶注冊(cè)興趣的方式；基于用戶對(duì)結(jié)果集操作反饋信息的方式[7]；基于搜索結(jié)果文檔集全局信息的方式[8]。這些方法分別通過不同的途徑擴(kuò)展用戶初始查詢，以期提高查詢結(jié)果的用戶貼近度。用戶興趣注冊(cè)的方式最準(zhǔn)確和易于實(shí)現(xiàn)，但用戶須先注冊(cè)，而用戶是否認(rèn)可和信任這種方式還未知；用戶反饋信息挖掘的方式中，用戶不需任何額外的操作，但搜索引擎的工作量會(huì)更大，挖掘的準(zhǔn)確度也難以控制，而挖掘本身也涉及用戶隱私許可問題；基于搜索結(jié)果文檔集全局信息的方式中，目前已經(jīng)有很好的實(shí)現(xiàn)，但由于不是針對(duì)特定的用戶進(jìn)行，而搜索引擎最需要的是實(shí)現(xiàn)個(gè)性化的搜索，所以對(duì)搜索結(jié)果的用戶貼近度沒有直接的幫助。

2．搜身結(jié)果的動(dòng)態(tài)分類：

由于結(jié)果集通常十分龐大，因而如何組織結(jié)果集展現(xiàn)形式，方便用戶快速的找到需要的信息就成為一個(gè)十分關(guān)鍵的問題。雖然通過改進(jìn)頁面排序算法，可以盡量使“重要”的頁面出現(xiàn)在返回結(jié)果的前面，但由于用戶職業(yè)，興趣，年齡等各方面的差異，很難讓所有的用戶都接受服務(wù)商給出的重要性順序。另外，統(tǒng)計(jì)顯示，用戶一般不會(huì)在結(jié)果集中向后翻超過五頁。所以將查詢結(jié)果以一定的類別層次組織，讓用戶能方便的選擇查看類別，可以很好的縮小結(jié)果集，從而使用戶能更快的查找信息。

目前這方面研究的主要要內(nèi)容包括，怎樣確定類別層次？怎樣確定文章所屬的類別？現(xiàn)有的解決方式大致可以分為兩種：(a)根據(jù)經(jīng)驗(yàn)或一定的計(jì)算模型，事先確定出靜態(tài)的類別層次，讓后通過網(wǎng)頁內(nèi)容的語義分析確定其所屬類別。它面臨的主要問題是：由于互連網(wǎng)用戶地域，職業(yè)，宗教的，教育程度的不可預(yù)知性，很難確定出讓所有用戶的接受的分類層次體系；由于類別層次是靜態(tài)的，所以對(duì)文章的歸類可避免會(huì)出現(xiàn)限制，使某些網(wǎng)頁沒有合適的類別可放；另外，目前基于自然語言理解的語義分析技術(shù)準(zhǔn)確度不高，系統(tǒng)消耗過大，由于網(wǎng)頁數(shù)量的海量性質(zhì)，所以每個(gè)網(wǎng)頁都需要很高的處理消耗是不能接受的。(b)對(duì)查詢結(jié)果集進(jìn)行動(dòng)態(tài)(on-the-fly)聚類，即在檢索結(jié)果集和結(jié)果集展現(xiàn)之間增加一步，先對(duì)結(jié)果集安一定的相似度計(jì)算算法進(jìn)行動(dòng)態(tài)聚類，然后將結(jié)果集安聚類的結(jié)果進(jìn)行組織，用戶可以選擇動(dòng)態(tài)生產(chǎn)的聚類類別以縮小結(jié)果集，從而快速的找到需要的信息。這種方式簡便靈活，且易于實(shí)現(xiàn)。但動(dòng)態(tài)生成的類別不能很好的構(gòu)成體系，層次關(guān)系更是難以體現(xiàn)，所以怎樣設(shè)計(jì)聚類算法，直接關(guān)系聚類結(jié)果的好壞。

四. web搜索引擎的發(fā)展趨勢(shì)淺談

以當(dāng)前信息技術(shù)發(fā)展的速度，任何人要預(yù)測(cè)技術(shù)的發(fā)展趨勢(shì)，都只會(huì)貽笑大方。具體到web搜索引擎技術(shù)，筆者只能根據(jù)當(dāng)前的研究成果和研究方向，就近期的可能發(fā)展，給出個(gè)人的見解。

當(dāng)前搜索引擎服務(wù)提高的挑戰(zhàn)主要來之兩方面，一個(gè)是用戶初始查詢請(qǐng)求描述的不準(zhǔn)卻性，用戶往往難以清楚的表達(dá)其信息需求。所以，當(dāng)前以及今后一段時(shí)間內(nèi)，對(duì)如何根據(jù)用戶模糊的查詢請(qǐng)求，較為準(zhǔn)確、全面的理解用戶的實(shí)際信息需求的研究，將是搜索引擎技術(shù)研究的一個(gè)重要方面。目前這方面的研究主要集中于查詢結(jié)果文檔的信息挖掘，這方面的努力已經(jīng)取得很多的成果。另一方面，挖掘用戶的個(gè)性化信息，將是一個(gè)能產(chǎn)生突破性成果的方法：根據(jù)用戶的背景信息，如知識(shí)水平，專業(yè)方向，職業(yè)和興趣等，將極大的促進(jìn)用戶初始查詢理解的準(zhǔn)確性和全面性。另外，對(duì)用戶網(wǎng)絡(luò)使用的日志分析，也能提供準(zhǔn)確的用戶網(wǎng)絡(luò)行為，從而為用戶信息需求分析提供重要依據(jù)。綜上所述，對(duì)個(gè)性化搜索引擎的實(shí)現(xiàn)的研究，將成為近段時(shí)間研究的重點(diǎn)和突破點(diǎn)。

搜索引擎服務(wù)質(zhì)量提高的另一個(gè)挑戰(zhàn)是，查詢結(jié)果集過于龐大，用戶往往不會(huì)看到位于結(jié)果集后部的信息。這方面目前已經(jīng)基本確定的解決方案是，根據(jù)分類體系組織結(jié)果集，通過類別選擇縮小結(jié)果范圍。它的實(shí)現(xiàn)難點(diǎn)是分類體系的確定和最終頁面歸屬類別的確定。目前的研究，主要是基于搜索引擎提供方對(duì)搜集到的信息的理解，限于當(dāng)前自然語言理解準(zhǔn)確度較低，開銷較大，這方面的研究難以有更大的突破。而另外的選擇是，讓信息發(fā)布者自己提供信息的類別，用統(tǒng)一的規(guī)范描述信息的類別信息和語義信息。搜索引擎只需獲取這些信息即可，無疑，這種方式得出的類別和語義信息都是最準(zhǔn)確得。例如，當(dāng)前一般網(wǎng)站都建有導(dǎo)航欄，網(wǎng)站內(nèi)容安導(dǎo)航欄所指得類別層次組織，從而可以把導(dǎo)航信息作為類別層次，各導(dǎo)航項(xiàng)只想得最終頁面歸屬于該類別下。筆者目前研究的重點(diǎn)就是如何提取網(wǎng)站欄目信息，如何把網(wǎng)站按欄目劃分范圍，從而把欄目和范圍對(duì)應(yīng)，把該范圍內(nèi)的所有內(nèi)容規(guī)類到對(duì)應(yīng)欄目項(xiàng)所指的類別。將來，如果能讓所有信息發(fā)布者規(guī)范的描述類別和語義信息，這方面的研究必將發(fā)上飛躍。

從上面的論述，不難看出，今后一段時(shí)間，搜索引擎技術(shù)的研究將主要集中在如何提供個(gè)性化服務(wù)[9]，如何提供基于信息發(fā)布者提供的信息類別及語義理解兩方面。

五. 結(jié)論

本文介紹了web搜索引擎的原理和實(shí)現(xiàn)技術(shù)，討論當(dāng)前web搜索引擎研究的最新動(dòng)態(tài)，并論述了近期web搜索引擎發(fā)展的方向。

參考文獻(xiàn)：

[1] 《world wide web search technoligies》Shi Nansi，Idea Group Publish

[2] 《搜索引擎技術(shù)及趨勢(shì)》李曉明，劉建國。2003.6

[3] http://www.yahoo.com。

[4] http://www.google.com。

[5] http://www.vivisino.com。

[6] 《搜索引擎與信息獲取技術(shù)》p107。徐寶文，張衛(wèi)風(fēng)；清華大學(xué)出版社。

[6] http://www.searchenginewatch.com。

[7] Conceptual retrieval based on feature clustering of documents。Youjin Chang，Ikkyu Cho。

[8] Modern information retrieval, p117。Addison Wesley。1999

[9] Microsoft Unveils its New Search Engine -At Last, Chris Sherman，2004.11

Trackback: http://tb.blog.csdn.net/TrackBack.aspx?PostId=181537

[收藏到我的網(wǎng)摘] hwalk發(fā)表于 2004年11月14日 20:30:00

相關(guān)文章：

搜索引擎發(fā)展綜述 2005-01-06 colin719
元搜索引擎的研究和設(shè)計(jì) 2005-01-06 colin719
搜索引擎的技術(shù)發(fā)展趨勢(shì) 2004-12-02 mronly2
搜索引擎技術(shù)及趨勢(shì) 2005-07-26 husn
>>>技術(shù)知識(shí)：詳細(xì)介紹常用的幾類搜索引擎技術(shù)<<< 2004-07-21 longrujun

特別推薦：

LAMP 技術(shù)簡介
如何幫助構(gòu)建用于解決常見業(yè)務(wù)問題的應(yīng)用程序紹基本的 PHP 概念 web
青牛軟件招聘軟件工程師
青牛（北京）技術(shù)有限公司（簡稱青牛軟件）是中國領(lǐng) web
成功創(chuàng)業(yè)者10大必備素質(zhì)
CSDN讀書頻道獨(dú)家連載 web
2007 年 XML 的十大預(yù)測(cè)
對(duì)于 XML 來說，2006 年是靜悄悄的一年。 2007 年是否會(huì)更令人激動(dòng)呢？ web
AJAX學(xué)習(xí)必備的三本書
AJAX圖書十幾本？那本書最適合您？ CSDN讀書頻道獨(dú)家奉獻(xiàn) web

本站僅提供存儲(chǔ)服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊舉報(bào)。

国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看