国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開(kāi)APP
userphoto
未登錄

開(kāi)通VIP,暢享免費(fèi)電子書(shū)等14項(xiàng)超值服

開(kāi)通VIP
語(yǔ)義搜索引擎綜述

1.網(wǎng)絡(luò)搜索引擎的現(xiàn)狀
      搜索引擎在互聯(lián)網(wǎng)的重要地位由來(lái)已久。Yahoo 作為門戶網(wǎng)站奇跡般崛起所依靠的正是搜索引擎,Google 也以搜索引擎的技術(shù)創(chuàng)新、競(jìng)價(jià)排名和專業(yè)風(fēng)格創(chuàng)造了新的奇跡。在國(guó)內(nèi),百度也在很短的時(shí)間里憑借搜索引擎取得很大成功。

搜索引擎技術(shù)及業(yè)務(wù)模式的持續(xù)創(chuàng)新,不僅為互聯(lián)網(wǎng)注入了活力,而且其自身的價(jià)值正被重新審視和評(píng)估?;ヂ?lián)網(wǎng)的發(fā)展使得信息短缺的問(wèn)題被信息泛濫所取代,世界也已從信息時(shí)代走進(jìn)信息經(jīng)濟(jì)時(shí)代,這兩者的區(qū)別在于,前者強(qiáng)調(diào)信息本身的價(jià)值,只要解決信息資源短缺就會(huì)帶來(lái)價(jià)值的提升;后者認(rèn)為信息并不稀缺,只有通過(guò)對(duì)信息的甄別、加工提純和挖掘才能帶來(lái)價(jià)值的提升。

據(jù)中國(guó)國(guó)家互聯(lián)網(wǎng)中心(CNNIC)2005年1月發(fā)布的第15次互聯(lián)網(wǎng)發(fā)展統(tǒng)計(jì)報(bào)告[[1]],我國(guó)的網(wǎng)絡(luò)用戶有9400萬(wàn)人,比2004年6月發(fā)布的14次報(bào)告又增加了700萬(wàn)。在用戶經(jīng)營(yíng)使用的網(wǎng)絡(luò)服務(wù)中,搜索引擎僅次于電子郵箱排在第2位。有98.5%的用戶上網(wǎng)最主要的是獲取信息,通過(guò)搜索引擎獲取信息的占70.7%,搜索引擎成為未知狀態(tài)下發(fā)現(xiàn)有效信息的最有效方式。

2.網(wǎng)絡(luò)搜索引擎的工作原理
搜索引擎的原理,可以看作三步:

a) 從互聯(lián)網(wǎng)上抓取網(wǎng)頁(yè);

b) 建立索引數(shù)據(jù)庫(kù);

c) 在索引數(shù)據(jù)庫(kù)中搜索排序。

1. 從互聯(lián)網(wǎng)上抓取網(wǎng)頁(yè)

利用能夠從互聯(lián)網(wǎng)上自動(dòng)收集網(wǎng)頁(yè)的Spider系統(tǒng)程序,自動(dòng)訪問(wèn)互聯(lián)網(wǎng),并沿著任何網(wǎng)頁(yè)中的所有URL爬到其它網(wǎng)頁(yè),重復(fù)這過(guò)程,并把爬過(guò)的所有網(wǎng)頁(yè)收集回來(lái)。

2. 建立索引數(shù)據(jù)庫(kù)

由分析索引系統(tǒng)程序?qū)κ占貋?lái)的網(wǎng)頁(yè)進(jìn)行分析,提取相關(guān)網(wǎng)頁(yè)信息(包括網(wǎng)頁(yè)所在URL、編碼類型、頁(yè)面內(nèi)容包含的所有關(guān)鍵詞、關(guān)鍵詞位置、生成時(shí)間、大小、與其它網(wǎng)頁(yè)的鏈接關(guān)系等),根據(jù)一定的相關(guān)度算法進(jìn)行大量復(fù)雜計(jì)算,得到每一個(gè)網(wǎng)頁(yè)針對(duì)頁(yè)面文字中及超鏈中每一個(gè)關(guān)鍵詞的相關(guān)度(或重要性),然后用這些相關(guān)信息建立網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)。

3. 在索引數(shù)據(jù)庫(kù)中搜索排序

當(dāng)用戶輸入關(guān)鍵詞搜索后,由搜索系統(tǒng)程序從網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)中找到符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁(yè)。因?yàn)樗邢嚓P(guān)網(wǎng)頁(yè)針對(duì)該關(guān)鍵詞的相關(guān)度早已算好,所以只需按照現(xiàn)成的相關(guān)度數(shù)值排序,相關(guān)度越高,排名越靠前。最后,由頁(yè)面生成系統(tǒng)將搜索結(jié)果的鏈接地址和頁(yè)面內(nèi)容摘要等內(nèi)容組織起來(lái)返回給用戶。

3.網(wǎng)絡(luò)搜索引擎的評(píng)價(jià)指標(biāo)
評(píng)價(jià)搜索引擎的主要指標(biāo)有查全率、查準(zhǔn)率、響應(yīng)時(shí)間、覆蓋范圍、用戶使用方便性等等。

1.      查全率(Recall)

查全率又叫召回率,是指檢索出的相關(guān)文檔占全部相關(guān)文檔的比率。即用戶通過(guò)搜索引擎所獲取的有用信息與整個(gè)Internet中相關(guān)信息的比率。

2.      查準(zhǔn)率(Precision)

查準(zhǔn)率是指獲取的相關(guān)文檔與獲取文檔的比率。即用戶通過(guò)搜索引擎所獲取的真正是用戶需要的信息占獲取信息的比率。搜索引擎的查準(zhǔn)率是個(gè)復(fù)雜的概念,一方面表示搜索引擎對(duì)搜索結(jié)果的排序能力,另一方面卻體現(xiàn)了搜索引擎對(duì)垃圾網(wǎng)頁(yè)的抗干擾能力。

3.      響應(yīng)時(shí)間(Response Time)

響應(yīng)時(shí)間是指用戶發(fā)出查詢請(qǐng)求后到看到查詢結(jié)果的這段時(shí)間。

4.      覆蓋范圍(Coverage)

覆蓋范圍是指搜索引擎索引的Web頁(yè)面占整個(gè)Internet中頁(yè)面的比例。

5.      用戶方便性(Convenience)

用戶方便性包括查詢接口是否直觀、易于使用、查詢語(yǔ)法是否豐富,顯示結(jié)果是否易于查看等。

4.網(wǎng)絡(luò)搜索引擎的主要技術(shù)
網(wǎng)絡(luò)搜索引擎做為信息檢索系統(tǒng)的一個(gè)分支,理所當(dāng)然的涉及到信息檢索方面的技術(shù),同時(shí)它做為一個(gè)獨(dú)立、成熟的領(lǐng)域也有自己的技術(shù)空間:

  

1. 目錄檢索和全文檢索

         傳統(tǒng)的搜索引擎一般使用兩種技術(shù)來(lái)實(shí)現(xiàn)信息檢索:

         一是使用網(wǎng)站分類技術(shù)實(shí)現(xiàn)目錄檢索,即把網(wǎng)站進(jìn)行樹(shù)狀的歸類,登陸的網(wǎng)站屬于至少一個(gè)類別,對(duì)每個(gè)站點(diǎn)都有簡(jiǎn)略的描述。Yahoo采用了這種方法。為了分類科學(xué)準(zhǔn)確,需要有一支各科人才組成的維護(hù)隊(duì)伍。

         二是使用全文檢索技術(shù)。全文檢索技術(shù)處理的對(duì)象是文本,它能夠?qū)Υ罅课臋n建立由字(詞)到文檔的倒排索引,在此基礎(chǔ)上,用戶使用關(guān)鍵詞來(lái)對(duì)文檔進(jìn)行查詢時(shí),系統(tǒng)將給用戶返回該關(guān)鍵詞的網(wǎng)頁(yè)。

  

2. 索引文件結(jié)構(gòu)

         全文檢索的兩個(gè)關(guān)鍵技術(shù)是索引和檢索。檢索又是基于所建立的索引結(jié)構(gòu)進(jìn)行的。索引文件主要分為正向索引和倒排索引。正向索引是基于文檔的,每一個(gè)文檔對(duì)應(yīng)一個(gè)索引文件,其中記錄著這個(gè)文檔中出現(xiàn)的詞。倒排索引是基于詞匯表的,每一個(gè)特征詞對(duì)應(yīng)一個(gè)倒排索引,其中記錄著所有出現(xiàn)過(guò)這個(gè)詞的文檔。目前,技術(shù)比較成熟、也是公認(rèn)效率較高的索引存儲(chǔ)結(jié)構(gòu)是倒排文件。需要明確的是,中文的構(gòu)詞方式、句法、語(yǔ)法都與英文有很大區(qū)別,因此,不同于英文全文檢索的索引方法,中文全文檢索中主要的建立索引方法是字索引和詞索引。字索引保證了高的召回率,不會(huì)出現(xiàn)漏查錯(cuò)誤,但是會(huì)出現(xiàn)多查和誤查。檢索結(jié)果中會(huì)出現(xiàn)不少與檢索意圖無(wú)關(guān)的條目。另外,基于字索引的全文檢索的檢索效率也比較低。而詞索引保證了較高的查準(zhǔn)率和檢索效率,但是由于中文分詞能力的局限,導(dǎo)致基于詞索引的全文檢索必定會(huì)存在漏檢情況。另外,對(duì)于未登陸詞,詞索引顯得力不從心?,F(xiàn)存比較實(shí)用的中文信息檢索系統(tǒng)一般都結(jié)合使用了字詞混合索引,或者擴(kuò)展的詞索引,來(lái)保證召回率和查準(zhǔn)率。

         網(wǎng)絡(luò)搜索引擎由于各自的策略不同,在選擇索引對(duì)象的內(nèi)容時(shí)也有不同。有些搜索引擎對(duì)于信息庫(kù)中的頁(yè)面建立全文索引,有些只建立摘要部分,或者每個(gè)段落前面部分的索引,還有些搜索引擎(如Google)建立索引的時(shí)候,同時(shí)考慮超文本的不同標(biāo)記所表示的不同含義。如粗體、大字體顯示的東西往往比較重要;放在錨鏈中的信息往往是它所指向頁(yè)面的信息的概括,所以用它來(lái)作為它所指向的頁(yè)面的重要信息。Google,Infoseek還在建立索引的過(guò)程中收集頁(yè)面中的超鏈接。這些超鏈接反映了收集到的信息之間的空間結(jié)構(gòu)。利用這些結(jié)果信息可以提高頁(yè)面相關(guān)度判別時(shí)候的準(zhǔn)確度。

  

3. 數(shù)據(jù)源文件的分布策略

         搜索引擎的數(shù)據(jù)源文件主要包括索引文件和原文檔。目前,數(shù)據(jù)源文件的分布策略主要有集中存放和分布式存放。文獻(xiàn)[2]指出Google就是采用了集群的方式集中存放數(shù)據(jù)源文件,事實(shí)上,幾乎所有的商業(yè)搜索引擎都采用集中存放的方式,這是因?yàn)榉植际酱娣挪呗杂幸粋€(gè)硬傷,就是搜索請(qǐng)求從一個(gè)端點(diǎn)傳送到另外一個(gè)端點(diǎn)消耗的時(shí)間讓用戶難以忍受。但是,隨著互聯(lián)網(wǎng)上信息的急劇膨脹,改進(jìn)后的分布式策略是最終的解決方案。

  

4. 索引大文件的存放策略

         倒排文件是一個(gè)大文件,這是因?yàn)榈古盼募写娣诺挠涗洠℉it)表示的是文檔中出現(xiàn)本特征詞的狀況。目前的商業(yè)搜索引擎的文檔集中的文檔數(shù)量非常之大,因此倒排文件的記錄數(shù)也會(huì)很大,最終導(dǎo)致倒排文件的尺寸非常大。

         對(duì)于大文件首先考慮的是壓縮,像是Google存放的索引文件就是經(jīng)過(guò)壓縮的。好的壓縮算法同時(shí)要求壓縮比盡可能高、查找壓縮文件容易、解壓縮時(shí)間短。即使壓縮之后的文件仍然大到不能以獨(dú)立的文件形式存放,目前有兩種分離大文件為多個(gè)小文件的策略:

         一是基于文檔集的分離。主要是將文檔集分成有限個(gè)子集,對(duì)于每一個(gè)子集建立各自的索引文件,檢索過(guò)程就演變?yōu)閷?duì)多個(gè)文檔子集的檢索,最后做的合并處理。

         一是基于索引文件的分離。即是將索引大文件分為有限個(gè)子文件,并設(shè)計(jì)一張表記錄這種分離情況,當(dāng)要檢索這個(gè)索引文件時(shí)就查找這張表,根據(jù)表的記錄去查找每一個(gè)子文件。文獻(xiàn)[3]指出Google將索引大文件分離為若干個(gè)小文件,每一個(gè)小文件都以獨(dú)立的linux文件存放,通過(guò)linux系統(tǒng)管理這些小文件,這正是這個(gè)策略的一種表現(xiàn)。

  

5.         排序算法

各種搜索引擎的技術(shù)改進(jìn)和優(yōu)化,都直接反應(yīng)到搜索結(jié)果的排序上。許多搜索引擎都在進(jìn)一步研究新的排序方法,來(lái)提升客戶的滿意度。目前,不同搜索引擎基于不同的搜索策略設(shè)計(jì)有多種不同的排序算法,以Google為例,它采用很多種排序算法支持搜索結(jié)果,其中最典型的代表有PageRank和HillTop,這兩種都屬于超鏈接分析技術(shù)。

5.語(yǔ)義搜索的興起
目前實(shí)用化的信息檢索系統(tǒng)主要基于人工分類目錄或關(guān)鍵詞匹配。前者對(duì)海量信息資源的揭示的效率不高、深度有限;后者在信息的語(yǔ)義和語(yǔ)用的揭示上有局限性。信息檢索系統(tǒng)在智能處理能力上的缺乏,導(dǎo)致這些工具遠(yuǎn)遠(yuǎn)不能滿足用戶的需求。如何解決好諸如信息組織、知識(shí)表示、機(jī)器理解與人機(jī)交互等問(wèn)題,對(duì)于提高信息利用的效率,是非常重要和迫切的。近年來(lái),語(yǔ)義網(wǎng)的提出為解決這些問(wèn)題提供了鍥機(jī),由于語(yǔ)義網(wǎng)中的資源被結(jié)構(gòu)化,能被計(jì)算機(jī)所理解和識(shí)別,這樣提供了改進(jìn)傳統(tǒng)搜索技術(shù)的機(jī)會(huì)。語(yǔ)義檢索的目的是通過(guò)從語(yǔ)義網(wǎng)上獲取的數(shù)據(jù)增強(qiáng)并改進(jìn)傳統(tǒng)的搜索結(jié)果(基于信息檢索技術(shù))。它實(shí)現(xiàn)了用戶檢索請(qǐng)求的本體化,整個(gè)搜索引擎像領(lǐng)域?qū)<乙粯?,不僅給出查詢結(jié)果,還給出了與檢索請(qǐng)求相關(guān)的資源,大大提高檢索的精度和覆蓋率;實(shí)現(xiàn)了本體層次的檢索,突破了關(guān)鍵詞檢索局限于形式的固有缺陷。它的出現(xiàn)提高了用戶的滿意度,減少了不相關(guān)的返回結(jié)果,提高了檢索的精度和覆蓋率。

最初人們通過(guò)代表語(yǔ)義的HTML標(biāo)簽來(lái)改造網(wǎng)頁(yè),主要有GDA系統(tǒng)和
SHOE(SimpleHTMLOntologyExtensions)系統(tǒng)等。但這些系統(tǒng)的不足是僅能處理經(jīng)過(guò)HTML標(biāo)簽改造的網(wǎng)頁(yè)。

XML是非常有前途的語(yǔ)言,因?yàn)樗鼘⒕W(wǎng)頁(yè)的內(nèi)容、結(jié)構(gòu)和描述分離,并且非常適合知識(shí)的描述。但是XML通過(guò)它的句法結(jié)構(gòu)僅能描述一些語(yǔ)義屬性。

語(yǔ)義網(wǎng)絡(luò)的建立使得以語(yǔ)義為基礎(chǔ)的搜索引擎同時(shí)可以建立起來(lái)。在語(yǔ)義搜索引擎中,每一個(gè)查詢都在一些本體的上下文范圍內(nèi)執(zhí)行,來(lái)自本體的一些指南可以提高檢索的準(zhǔn)確性。在語(yǔ)義檢索中,使用的是概念匹配,即自動(dòng)抽取文檔的概念,加以標(biāo)引,用戶在系統(tǒng)的輔助下選用合適的詞語(yǔ)表達(dá)自己的信息需求,然后在兩者之間執(zhí)行概念匹配,即匹配在語(yǔ)義上相同、相近、相包含的詞語(yǔ)。

6.語(yǔ)義搜索當(dāng)前的應(yīng)用
當(dāng)前基于ontology 的語(yǔ)義檢索系統(tǒng)已經(jīng)得到了廣泛的關(guān)注和應(yīng)用,出現(xiàn)了一系列優(yōu)秀的應(yīng)用系統(tǒng),其中典型的有兩個(gè):SWOOGLE——語(yǔ)義網(wǎng)中的基于蜘蛛網(wǎng)的檢索系統(tǒng),系統(tǒng)從每個(gè)搜索到的文本中抽取本體,根據(jù)本體之間的相關(guān)度來(lái)比較文本之間的關(guān)系;TUCUXI(InTelligent Hunter Agent for Concept Understanding and LeXical ChaIning),該系統(tǒng)根據(jù)查找的本體在網(wǎng)頁(yè)上爬行,決定哪種網(wǎng)頁(yè)最滿足需求。特別的,TUCUXI 判斷文檔的相關(guān)性是同Map of Meanings 比較用戶所查詢的相關(guān)本體。Map of Meanings 語(yǔ)義豐富,用來(lái)對(duì)資源文本的表達(dá)。TUCUXI 采用了MOMIS 公用字典來(lái)表征用戶查詢的本體。在語(yǔ)義網(wǎng)中,基于Ontology 的語(yǔ)義檢索搜索引擎有SHOE、OntoBroker、OntoSeek、WebKB、Corese。

7.總結(jié)
語(yǔ)義搜索引擎是未來(lái)搜索引擎發(fā)展的方向,它的發(fā)展主要受限于語(yǔ)義web的發(fā)展以及自然語(yǔ)言處理技術(shù)。語(yǔ)義搜索引擎設(shè)計(jì)的最終目標(biāo)是讓計(jì)算機(jī)具有人的智能,以解決問(wèn)題的形式返回給用戶。語(yǔ)義搜索引擎設(shè)計(jì)的當(dāng)前目標(biāo)是讓計(jì)算機(jī)返回的結(jié)果更有針對(duì)性、準(zhǔn)確性。

  

參考文獻(xiàn):

[1] CNNIC第15次互聯(lián)網(wǎng)發(fā)展?fàn)顩r報(bào)告

[[2]] Luiz André Barroso, Jeffrey Dean, Urs Hölzle. WEB SEARCH FOR A PLANET: THE GOOGLE CLUSTER ARCHITECTURE

[[3]] Sanjay Ghemawat, Howard Gobioff, and Shun-Tak Leung. The Google File System

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
打開(kāi)APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
搜索引擎的工作機(jī)制[圖]
Web搜索引擎技術(shù)綜述
Matrixjava大講壇之搜索引擎技術(shù)
搜索引擎在網(wǎng)絡(luò)信息挖掘中的應(yīng)用 - 業(yè)界 - SOWANG 搜索愛(ài)好者論壇 - Power...
深網(wǎng)十大搜索引擎,能搜出谷歌都無(wú)法檢索的深度網(wǎng)頁(yè)
搜索引擎原理
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服