- 搜索引擎發(fā)展綜述 2005-01-06 colin719
- 元搜索引擎的研究和設(shè)計(jì) 2005-01-06 colin719
- 搜索引擎的技術(shù)發(fā)展趨勢(shì) 2004-12-02 mronly2
- 搜索引擎技術(shù)及趨勢(shì) 2005-07-26 husn
- >>>技術(shù)知識(shí):詳細(xì)介紹常用的幾類搜索引擎技術(shù)<<< 2004-07-21 longrujun
摘要
隨著網(wǎng)絡(luò)與通信技術(shù)的迅速發(fā)展,web信息爆炸性的增長,已經(jīng)成為一個(gè)巨大的海量信息空間。如何快速、準(zhǔn)確、方便的從如此龐大的信息庫中獲取自己需要的信息,是互聯(lián)網(wǎng)用戶面臨的一個(gè)重要問題。Web搜索引擎能為用戶提供一種查找所需資源的服務(wù),已經(jīng)成為互聯(lián)網(wǎng)上僅次于電子郵件的第二大服務(wù)。本文首先介紹了搜索引擎的原理和實(shí)現(xiàn)技術(shù)。然后討論了搜索引擎技術(shù)發(fā)展最新前沿技術(shù)。最后,結(jié)合筆者在這方面的研究,給出了搜索引擎近期的發(fā)展方向。
關(guān)鍵詞
Web,搜索引擎,網(wǎng)絡(luò)技術(shù)
一. 導(dǎo)論
隨著網(wǎng)絡(luò)技術(shù)的應(yīng)用與發(fā)展,互連網(wǎng)已經(jīng)成為信息的重要來源地。到1999年底,已經(jīng)至少有1,600萬臺(tái)主機(jī)接入互連網(wǎng),互聯(lián)網(wǎng)上網(wǎng)頁總數(shù)已達(dá)到10多億頁,并且以每月近千萬的數(shù)目遞增[1]。搜索引擎以一定的策略在互聯(lián)網(wǎng)中搜集、發(fā)現(xiàn)信息,對(duì)信息進(jìn)行理解、提取、組織和處理,并為用戶提供檢索服務(wù),從而起到信息導(dǎo)航的目的[2],互聯(lián)網(wǎng)用戶使用網(wǎng)絡(luò)獲取信息過程中,搜索引擎也成為必不可少的工具。調(diào)查表明,當(dāng)前的所有互連網(wǎng)應(yīng)用中,網(wǎng)絡(luò)信息搜索是僅次于電子郵件的第二大應(yīng)用,而這些搜索絕大多數(shù)是專門的,高度復(fù)雜的搜索引擎實(shí)現(xiàn)的。
按照信息搜集方法和服務(wù)提供方式的不同,搜索引擎系統(tǒng)可以分為三大類:目錄式搜索引擎,以人工方式或半自動(dòng)方式搜集信息,由編輯員查看信息之后,人工形成信息摘要,并將信息置于事先確定的分類框架中,由于web信息的海量性和人工處理能力、經(jīng)濟(jì)代價(jià)的限制,這類搜索引擎信息的即時(shí)性和全面性難以保證它的優(yōu)秀代表是Yahoo[3]等;機(jī)器人搜索引擎,由一個(gè)稱為蜘蛛(Spider)的機(jī)器人程序以某種策略自動(dòng)地在互聯(lián)網(wǎng)中搜集和發(fā)現(xiàn)信息,由索引器為搜集到的信息建立索引,由檢索器根據(jù)用戶的查詢輸入檢索索引庫,并將查詢結(jié)果返回給用戶,這類搜索引擎實(shí)現(xiàn)較為復(fù)雜,但能很好的實(shí)現(xiàn)信息的全面獲取和即時(shí)更新,它的優(yōu)秀代表是google[4]等,后文如非特別說明,都指這類搜索引擎;元搜索引擎,這類搜索引擎沒有自己的數(shù)據(jù),而是將用戶的查詢請(qǐng)求同時(shí)向多個(gè)搜索引擎遞交,將返回的結(jié)果進(jìn)行重復(fù)排除、重新排序等處理后,作為自己的結(jié)果返回給用戶,這類搜索引擎兼集多個(gè)搜索引擎的信息,并且加入新的排序和信息過濾,可以很好的提高用戶滿意度,它的優(yōu)秀代表是vivisino[5]等。
本文組織如下:第二部分介紹了web搜索引擎的原理和實(shí)現(xiàn)技術(shù);第三部分介紹了web搜索引擎的最新發(fā)展動(dòng)態(tài)和前沿技術(shù);第四部分給出了基本展望。最后給出了結(jié)論。
二. web搜索引擎的原理、實(shí)現(xiàn)和評(píng)價(jià)指標(biāo)
web搜索引擎的原理通常為:首先是用蜘蛛(Spider)進(jìn)行全網(wǎng)搜索,自動(dòng)抓取網(wǎng)頁;然后將抓取的網(wǎng)頁進(jìn)行索引,同時(shí)也會(huì)記錄與檢索有關(guān)的屬性,中文搜索引擎中還需要首先對(duì)中文進(jìn)行分詞;最后,接受用戶查詢請(qǐng)求,檢索索引文件并按照各種參數(shù)進(jìn)行復(fù)雜的計(jì)算,產(chǎn)生結(jié)果并返回給用戶。
基于上面的原理,下面將簡要介紹Web搜索引擎實(shí)現(xiàn)。
1. 利用網(wǎng)絡(luò)蜘蛛獲取網(wǎng)絡(luò)資源。
網(wǎng)絡(luò)蜘蛛訪問資源的過程,是對(duì)互聯(lián)網(wǎng)上信息遍歷的過程。在實(shí)際的蜘蛛程序中,為了保證信息收集的全面性,及時(shí)性,還有多個(gè)蜘蛛程序的分工和合作問題,往往有復(fù)雜的控制機(jī)制。如google的在利用蜘蛛程序獲取網(wǎng)絡(luò)資源時(shí),是由一個(gè)認(rèn)為管理程序負(fù)責(zé)任務(wù)的分配和結(jié)果的處理,多個(gè)分布式的蜘蛛程序從管理程序活動(dòng)任務(wù),然后將獲取的資源作為結(jié)果返回,并從新獲得任務(wù)[6]。
2. 利用索引器從搜索器獲取的資源中抽取信息,并建立利于檢索的索引表:
當(dāng)用網(wǎng)絡(luò)蜘蛛獲取資源后后,需要對(duì)這些進(jìn)行加工過濾,去掉網(wǎng)控制代碼及無用信息,提取出有用的信息,并把信息用一定的模型表示,使查詢結(jié)果更為準(zhǔn)確。其中信息的表示模型一般有布爾模型,向量模型,概率模型和神經(jīng)網(wǎng)絡(luò)模型等[7]。Web上的信息一般表現(xiàn)為網(wǎng)頁,對(duì)每個(gè)網(wǎng)頁,須生成一個(gè)摘要,此摘要將顯示在查詢結(jié)果的頁面中,告訴查詢用戶各網(wǎng)頁的內(nèi)容概要。模型化的信息將存放在臨時(shí)數(shù)據(jù)庫中,由于web數(shù)據(jù)的數(shù)據(jù)量極為龐大,為了提高檢索效率,須按照一定規(guī)則建立索引。不同搜索引擎在建立索引時(shí)會(huì)考慮不同的選項(xiàng),如是否建立全文索引,是否過濾無用詞匯,是否使用meta信息等。索引的建立包括:分析過程,處理文檔中可能的錯(cuò)誤;文檔索引,完成分析的文檔被編碼進(jìn)存儲(chǔ)桶,有些搜索引擎還會(huì)使用并行索引;排序,將存儲(chǔ)桶按照一定的規(guī)則排序,生產(chǎn)全文存儲(chǔ)桶。最終形成的索引一般按照倒排文件的格式存放。
3. 檢索及用戶交互:
前面兩部分屬于搜索引擎的后臺(tái)支持。本部分在前面信息索引庫的基礎(chǔ)上,接受用戶查詢請(qǐng)求,并到索引庫檢索相關(guān)內(nèi)容,返回給用戶。這部分的主要內(nèi)容包括:用戶查詢(query)理解,即最大可能貼近的理解用戶通過查詢串想要表達(dá)的查詢目的,并將用戶查詢轉(zhuǎn)換化為后臺(tái)檢索使用的信息模型;根據(jù)用戶查詢的檢索模型,在索引庫中檢索出結(jié)果集;結(jié)果排序:通過特定的排序算法,對(duì)檢索結(jié)果集進(jìn)行排序?,F(xiàn)在用的的排序因素一般有查詢相關(guān)度,google發(fā)明的pagerank計(jì)術(shù),baidu的競價(jià)技術(shù)等。由于web數(shù)據(jù)的海量性和用戶初始查詢的模糊性,檢索結(jié)果集一般很大,而用戶一邊不會(huì)有足夠的耐性逐個(gè)查看所有的結(jié)果,所以怎樣設(shè)計(jì)結(jié)果集的排序算法,把用戶感興趣的結(jié)果排在前面就十分重要。
搜索引擎的評(píng)價(jià)指標(biāo)有響應(yīng)時(shí)間、查全率、查準(zhǔn)率和用戶滿意度等。其中響應(yīng)時(shí)間是從用戶提交查詢請(qǐng)求到搜索引擎給出查詢結(jié)果的時(shí)間間隔,響應(yīng)時(shí)間必須在用戶可以接受的范圍之內(nèi)。查全率是指查詢結(jié)果集信息的完備性。查準(zhǔn)率是指查詢結(jié)果集中符合用戶要求的數(shù)目與結(jié)果總數(shù)之比。用戶滿意度是一個(gè)難以量化的概念,除了搜索引擎本身的服務(wù)質(zhì)量外,它還和用戶群體,網(wǎng)絡(luò)環(huán)境有關(guān)系。在搜索引擎可以控制的范圍內(nèi),其核心是搜索結(jié)果的排序,即前文提到的如何把最合適的結(jié)果排到前面。
三. web搜索引擎的最新動(dòng)態(tài)
當(dāng)前,搜索引擎技術(shù)已經(jīng)趨于成數(shù),用戶滿意度也保持在一個(gè)可以接受的水平。在信息搜集技術(shù),索引建立技術(shù),檢索技術(shù)和結(jié)果集排序技術(shù)方面,最近幾年,除了google創(chuàng)造性的提出pagerank技術(shù),并把他用于結(jié)果排序外,基本沒有什么突破性的進(jìn)展。而搜索引擎的研究與信息集成逐漸融合,在這方面的研究主要集中在兩個(gè)方面:查詢擴(kuò)展(query expansion)和結(jié)果集的動(dòng)態(tài)分類。
1. 查詢擴(kuò)展:
由于用戶使用搜索引擎查找信息時(shí),往往不能用搜索引擎提供的標(biāo)準(zhǔn)準(zhǔn)確的表述想要查找的東西,從而在基于用戶查詢請(qǐng)求到索引庫檢索前,需要進(jìn)行查詢擴(kuò)展(query expansion)。查詢擴(kuò)展包括兩個(gè)步驟:用新的關(guān)鍵詞擴(kuò)展初始查詢串;對(duì)擴(kuò)展后查詢串里的關(guān)鍵詞從新進(jìn)行權(quán)重分配。查詢擴(kuò)展的方法分為三類:基于用戶注冊(cè)興趣的方式;基于用戶對(duì)結(jié)果集操作反饋信息的方式[7];基于搜索結(jié)果文檔集全局信息的方式[8]。這些方法分別通過不同的途徑擴(kuò)展用戶初始查詢,以期提高查詢結(jié)果的用戶貼近度。用戶興趣注冊(cè)的方式最準(zhǔn)確和易于實(shí)現(xiàn),但用戶須先注冊(cè),而用戶是否認(rèn)可和信任這種方式還未知;用戶反饋信息挖掘的方式中,用戶不需任何額外的操作,但搜索引擎的工作量會(huì)更大,挖掘的準(zhǔn)確度也難以控制,而挖掘本身也涉及用戶隱私許可問題;基于搜索結(jié)果文檔集全局信息的方式中,目前已經(jīng)有很好的實(shí)現(xiàn),但由于不是針對(duì)特定的用戶進(jìn)行,而搜索引擎最需要的是實(shí)現(xiàn)個(gè)性化的搜索,所以對(duì)搜索結(jié)果的用戶貼近度沒有直接的幫助。
2. 搜身結(jié)果的動(dòng)態(tài)分類:
由于結(jié)果集通常十分龐大,因而如何組織結(jié)果集展現(xiàn)形式,方便用戶快速的找到需要的信息就成為一個(gè)十分關(guān)鍵的問題。雖然通過改進(jìn)頁面排序算法,可以盡量使“重要”的頁面出現(xiàn)在返回結(jié)果的前面,但由于用戶職業(yè),興趣,年齡等各方面的差異,很難讓所有的用戶都接受服務(wù)商給出的重要性順序。另外,統(tǒng)計(jì)顯示,用戶一般不會(huì)在結(jié)果集中向后翻超過五頁。所以將查詢結(jié)果以一定的類別層次組織,讓用戶能方便的選擇查看類別,可以很好的縮小結(jié)果集,從而使用戶能更快的查找信息。
目前這方面研究的主要要內(nèi)容包括,怎樣確定類別層次?怎樣確定文章所屬的類別?現(xiàn)有的解決方式大致可以分為兩種:(a)根據(jù)經(jīng)驗(yàn)或一定的計(jì)算模型,事先確定出靜態(tài)的類別層次,讓后通過網(wǎng)頁內(nèi)容的語義分析確定其所屬類別。它面臨的主要問題是:由于互連網(wǎng)用戶地域,職業(yè),宗教的,教育程度的不可預(yù)知性,很難確定出讓所有用戶的接受的分類層次體系;由于類別層次是靜態(tài)的,所以對(duì)文章的歸類可避免會(huì)出現(xiàn)限制,使某些網(wǎng)頁沒有合適的類別可放;另外,目前基于自然語言理解的語義分析技術(shù)準(zhǔn)確度不高,系統(tǒng)消耗過大,由于網(wǎng)頁數(shù)量的海量性質(zhì),所以每個(gè)網(wǎng)頁都需要很高的處理消耗是不能接受的。(b)對(duì)查詢結(jié)果集進(jìn)行動(dòng)態(tài)(on-the-fly)聚類,即在檢索結(jié)果集和結(jié)果集展現(xiàn)之間增加一步,先對(duì)結(jié)果集安一定的相似度計(jì)算算法進(jìn)行動(dòng)態(tài)聚類,然后將結(jié)果集安聚類的結(jié)果進(jìn)行組織,用戶可以選擇動(dòng)態(tài)生產(chǎn)的聚類類別以縮小結(jié)果集,從而快速的找到需要的信息。這種方式簡便靈活,且易于實(shí)現(xiàn)。但動(dòng)態(tài)生成的類別不能很好的構(gòu)成體系,層次關(guān)系更是難以體現(xiàn),所以怎樣設(shè)計(jì)聚類算法,直接關(guān)系聚類結(jié)果的好壞。
四. web搜索引擎的發(fā)展趨勢(shì)淺談
以當(dāng)前信息技術(shù)發(fā)展的速度,任何人要預(yù)測(cè)技術(shù)的發(fā)展趨勢(shì),都只會(huì)貽笑大方。具體到web搜索引擎技術(shù),筆者只能根據(jù)當(dāng)前的研究成果和研究方向,就近期的可能發(fā)展,給出個(gè)人的見解。
當(dāng)前搜索引擎服務(wù)提高的挑戰(zhàn)主要來之兩方面,一個(gè)是用戶初始查詢請(qǐng)求描述的不準(zhǔn)卻性,用戶往往難以清楚的表達(dá)其信息需求。所以,當(dāng)前以及今后一段時(shí)間內(nèi),對(duì)如何根據(jù)用戶模糊的查詢請(qǐng)求,較為準(zhǔn)確、全面的理解用戶的實(shí)際信息需求的研究,將是搜索引擎技術(shù)研究的一個(gè)重要方面。目前這方面的研究主要集中于查詢結(jié)果文檔的信息挖掘,這方面的努力已經(jīng)取得很多的成果。另一方面,挖掘用戶的個(gè)性化信息,將是一個(gè)能產(chǎn)生突破性成果的方法:根據(jù)用戶的背景信息,如知識(shí)水平,專業(yè)方向,職業(yè)和興趣等,將極大的促進(jìn)用戶初始查詢理解的準(zhǔn)確性和全面性。另外,對(duì)用戶網(wǎng)絡(luò)使用的日志分析,也能提供準(zhǔn)確的用戶網(wǎng)絡(luò)行為,從而為用戶信息需求分析提供重要依據(jù)。綜上所述,對(duì)個(gè)性化搜索引擎的實(shí)現(xiàn)的研究,將成為近段時(shí)間研究的重點(diǎn)和突破點(diǎn)。
搜索引擎服務(wù)質(zhì)量提高的另一個(gè)挑戰(zhàn)是,查詢結(jié)果集過于龐大,用戶往往不會(huì)看到位于結(jié)果集后部的信息。這方面目前已經(jīng)基本確定的解決方案是,根據(jù)分類體系組織結(jié)果集,通過類別選擇縮小結(jié)果范圍。它的實(shí)現(xiàn)難點(diǎn)是分類體系的確定和最終頁面歸屬類別的確定。目前的研究,主要是基于搜索引擎提供方對(duì)搜集到的信息的理解,限于當(dāng)前自然語言理解準(zhǔn)確度較低,開銷較大,這方面的研究難以有更大的突破。而另外的選擇是,讓信息發(fā)布者自己提供信息的類別,用統(tǒng)一的規(guī)范描述信息的類別信息和語義信息。搜索引擎只需獲取這些信息即可,無疑,這種方式得出的類別和語義信息都是最準(zhǔn)確得。例如,當(dāng)前一般網(wǎng)站都建有導(dǎo)航欄,網(wǎng)站內(nèi)容安導(dǎo)航欄所指得類別層次組織,從而可以把導(dǎo)航信息作為類別層次,各導(dǎo)航項(xiàng)只想得最終頁面歸屬于該類別下。筆者目前研究的重點(diǎn)就是如何提取網(wǎng)站欄目信息,如何把網(wǎng)站按欄目劃分范圍,從而把欄目和范圍對(duì)應(yīng),把該范圍內(nèi)的所有內(nèi)容規(guī)類到對(duì)應(yīng)欄目項(xiàng)所指的類別。將來,如果能讓所有信息發(fā)布者規(guī)范的描述類別和語義信息,這方面的研究必將發(fā)上飛躍。
從上面的論述,不難看出,今后一段時(shí)間,搜索引擎技術(shù)的研究將主要集中在如何提供個(gè)性化服務(wù)[9],如何提供基于信息發(fā)布者提供的信息類別及語義理解兩方面。
五. 結(jié)論
本文介紹了web搜索引擎的原理和實(shí)現(xiàn)技術(shù),討論當(dāng)前web搜索引擎研究的最新動(dòng)態(tài),并論述了近期web搜索引擎發(fā)展的方向。
參考文獻(xiàn):
[1] 《world wide web search technoligies》Shi Nansi,Idea Group Publish
[2] 《搜索引擎技術(shù)及趨勢(shì)》李曉明,劉建國。2003.6
[3] http://www.yahoo.com。
[6] 《搜索引擎與信息獲取技術(shù)》p107。徐寶文,張衛(wèi)風(fēng);清華大學(xué)出版社。
[6] http://www.searchenginewatch.com。
[7] Conceptual retrieval based on feature clustering of documents。Youjin Chang,Ikkyu Cho。
[8] Modern information retrieval, p117。Addison Wesley。1999
[9] Microsoft Unveils its New Search Engine -At Last, Chris Sherman,2004.11
Trackback: http://tb.blog.csdn.net/TrackBack.aspx?PostId=181537
聯(lián)系客服