韩国美女激情视频,美女视频色网站国产,刘诗诗三级视频

1．網(wǎng)絡(luò)搜索引擎的現(xiàn)狀
搜索引擎在互聯(lián)網(wǎng)的重要地位由來(lái)已久。Yahoo 作為門戶網(wǎng)站奇跡般崛起所依靠的正是搜索引擎，Google 也以搜索引擎的技術(shù)創(chuàng)新、競(jìng)價(jià)排名和專業(yè)風(fēng)格創(chuàng)造了新的奇跡。在國(guó)內(nèi)，百度也在很短的時(shí)間里憑借搜索引擎取得很大成功。

搜索引擎技術(shù)及業(yè)務(wù)模式的持續(xù)創(chuàng)新，不僅為互聯(lián)網(wǎng)注入了活力，而且其自身的價(jià)值正被重新審視和評(píng)估?；ヂ?lián)網(wǎng)的發(fā)展使得信息短缺的問(wèn)題被信息泛濫所取代，世界也已從信息時(shí)代走進(jìn)信息經(jīng)濟(jì)時(shí)代，這兩者的區(qū)別在于，前者強(qiáng)調(diào)信息本身的價(jià)值，只要解決信息資源短缺就會(huì)帶來(lái)價(jià)值的提升；后者認(rèn)為信息并不稀缺，只有通過(guò)對(duì)信息的甄別、加工提純和挖掘才能帶來(lái)價(jià)值的提升。

據(jù)中國(guó)國(guó)家互聯(lián)網(wǎng)中心（CNNIC）2005年1月發(fā)布的第15次互聯(lián)網(wǎng)發(fā)展統(tǒng)計(jì)報(bào)告[[1]]，我國(guó)的網(wǎng)絡(luò)用戶有9400萬(wàn)人，比2004年6月發(fā)布的14次報(bào)告又增加了700萬(wàn)。在用戶經(jīng)營(yíng)使用的網(wǎng)絡(luò)服務(wù)中，搜索引擎僅次于電子郵箱排在第2位。有98.5%的用戶上網(wǎng)最主要的是獲取信息，通過(guò)搜索引擎獲取信息的占70.7%，搜索引擎成為未知狀態(tài)下發(fā)現(xiàn)有效信息的最有效方式。

2．網(wǎng)絡(luò)搜索引擎的工作原理
搜索引擎的原理，可以看作三步：

a) 從互聯(lián)網(wǎng)上抓取網(wǎng)頁(yè)；

b) 建立索引數(shù)據(jù)庫(kù)；

c) 在索引數(shù)據(jù)庫(kù)中搜索排序。

1. 從互聯(lián)網(wǎng)上抓取網(wǎng)頁(yè)

利用能夠從互聯(lián)網(wǎng)上自動(dòng)收集網(wǎng)頁(yè)的Spider系統(tǒng)程序，自動(dòng)訪問(wèn)互聯(lián)網(wǎng)，并沿著任何網(wǎng)頁(yè)中的所有URL爬到其它網(wǎng)頁(yè)，重復(fù)這過(guò)程，并把爬過(guò)的所有網(wǎng)頁(yè)收集回來(lái)。

2. 建立索引數(shù)據(jù)庫(kù)

由分析索引系統(tǒng)程序?qū)κ占貋?lái)的網(wǎng)頁(yè)進(jìn)行分析，提取相關(guān)網(wǎng)頁(yè)信息（包括網(wǎng)頁(yè)所在URL、編碼類型、頁(yè)面內(nèi)容包含的所有關(guān)鍵詞、關(guān)鍵詞位置、生成時(shí)間、大小、與其它網(wǎng)頁(yè)的鏈接關(guān)系等），根據(jù)一定的相關(guān)度算法進(jìn)行大量復(fù)雜計(jì)算，得到每一個(gè)網(wǎng)頁(yè)針對(duì)頁(yè)面文字中及超鏈中每一個(gè)關(guān)鍵詞的相關(guān)度（或重要性），然后用這些相關(guān)信息建立網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)。

3. 在索引數(shù)據(jù)庫(kù)中搜索排序

當(dāng)用戶輸入關(guān)鍵詞搜索后，由搜索系統(tǒng)程序從網(wǎng)頁(yè)索引數(shù)據(jù)庫(kù)中找到符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁(yè)。因?yàn)樗邢嚓P(guān)網(wǎng)頁(yè)針對(duì)該關(guān)鍵詞的相關(guān)度早已算好，所以只需按照現(xiàn)成的相關(guān)度數(shù)值排序，相關(guān)度越高，排名越靠前。最后，由頁(yè)面生成系統(tǒng)將搜索結(jié)果的鏈接地址和頁(yè)面內(nèi)容摘要等內(nèi)容組織起來(lái)返回給用戶。

3．網(wǎng)絡(luò)搜索引擎的評(píng)價(jià)指標(biāo)
評(píng)價(jià)搜索引擎的主要指標(biāo)有查全率、查準(zhǔn)率、響應(yīng)時(shí)間、覆蓋范圍、用戶使用方便性等等。

1．查全率（Recall）

查全率又叫召回率，是指檢索出的相關(guān)文檔占全部相關(guān)文檔的比率。即用戶通過(guò)搜索引擎所獲取的有用信息與整個(gè)Internet中相關(guān)信息的比率。

2．查準(zhǔn)率（Precision）

查準(zhǔn)率是指獲取的相關(guān)文檔與獲取文檔的比率。即用戶通過(guò)搜索引擎所獲取的真正是用戶需要的信息占獲取信息的比率。搜索引擎的查準(zhǔn)率是個(gè)復(fù)雜的概念，一方面表示搜索引擎對(duì)搜索結(jié)果的排序能力，另一方面卻體現(xiàn)了搜索引擎對(duì)垃圾網(wǎng)頁(yè)的抗干擾能力。

3．響應(yīng)時(shí)間（Response Time）

響應(yīng)時(shí)間是指用戶發(fā)出查詢請(qǐng)求后到看到查詢結(jié)果的這段時(shí)間。

4．覆蓋范圍（Coverage）

覆蓋范圍是指搜索引擎索引的Web頁(yè)面占整個(gè)Internet中頁(yè)面的比例。

5．用戶方便性（Convenience）

用戶方便性包括查詢接口是否直觀、易于使用、查詢語(yǔ)法是否豐富，顯示結(jié)果是否易于查看等。

4．網(wǎng)絡(luò)搜索引擎的主要技術(shù)
網(wǎng)絡(luò)搜索引擎做為信息檢索系統(tǒng)的一個(gè)分支，理所當(dāng)然的涉及到信息檢索方面的技術(shù)，同時(shí)它做為一個(gè)獨(dú)立、成熟的領(lǐng)域也有自己的技術(shù)空間：

1．目錄檢索和全文檢索

傳統(tǒng)的搜索引擎一般使用兩種技術(shù)來(lái)實(shí)現(xiàn)信息檢索：

一是使用網(wǎng)站分類技術(shù)實(shí)現(xiàn)目錄檢索，即把網(wǎng)站進(jìn)行樹(shù)狀的歸類，登陸的網(wǎng)站屬于至少一個(gè)類別，對(duì)每個(gè)站點(diǎn)都有簡(jiǎn)略的描述。Yahoo采用了這種方法。為了分類科學(xué)準(zhǔn)確，需要有一支各科人才組成的維護(hù)隊(duì)伍。

二是使用全文檢索技術(shù)。全文檢索技術(shù)處理的對(duì)象是文本，它能夠?qū)Υ罅课臋n建立由字（詞）到文檔的倒排索引，在此基礎(chǔ)上，用戶使用關(guān)鍵詞來(lái)對(duì)文檔進(jìn)行查詢時(shí)，系統(tǒng)將給用戶返回該關(guān)鍵詞的網(wǎng)頁(yè)。

2．索引文件結(jié)構(gòu)

全文檢索的兩個(gè)關(guān)鍵技術(shù)是索引和檢索。檢索又是基于所建立的索引結(jié)構(gòu)進(jìn)行的。索引文件主要分為正向索引和倒排索引。正向索引是基于文檔的，每一個(gè)文檔對(duì)應(yīng)一個(gè)索引文件，其中記錄著這個(gè)文檔中出現(xiàn)的詞。倒排索引是基于詞匯表的，每一個(gè)特征詞對(duì)應(yīng)一個(gè)倒排索引，其中記錄著所有出現(xiàn)過(guò)這個(gè)詞的文檔。目前，技術(shù)比較成熟、也是公認(rèn)效率較高的索引存儲(chǔ)結(jié)構(gòu)是倒排文件。需要明確的是，中文的構(gòu)詞方式、句法、語(yǔ)法都與英文有很大區(qū)別，因此，不同于英文全文檢索的索引方法，中文全文檢索中主要的建立索引方法是字索引和詞索引。字索引保證了高的召回率，不會(huì)出現(xiàn)漏查錯(cuò)誤，但是會(huì)出現(xiàn)多查和誤查。檢索結(jié)果中會(huì)出現(xiàn)不少與檢索意圖無(wú)關(guān)的條目。另外，基于字索引的全文檢索的檢索效率也比較低。而詞索引保證了較高的查準(zhǔn)率和檢索效率，但是由于中文分詞能力的局限，導(dǎo)致基于詞索引的全文檢索必定會(huì)存在漏檢情況。另外，對(duì)于未登陸詞，詞索引顯得力不從心?，F(xiàn)存比較實(shí)用的中文信息檢索系統(tǒng)一般都結(jié)合使用了字詞混合索引，或者擴(kuò)展的詞索引，來(lái)保證召回率和查準(zhǔn)率。

網(wǎng)絡(luò)搜索引擎由于各自的策略不同，在選擇索引對(duì)象的內(nèi)容時(shí)也有不同。有些搜索引擎對(duì)于信息庫(kù)中的頁(yè)面建立全文索引，有些只建立摘要部分，或者每個(gè)段落前面部分的索引，還有些搜索引擎（如Google）建立索引的時(shí)候，同時(shí)考慮超文本的不同標(biāo)記所表示的不同含義。如粗體、大字體顯示的東西往往比較重要；放在錨鏈中的信息往往是它所指向頁(yè)面的信息的概括，所以用它來(lái)作為它所指向的頁(yè)面的重要信息。Google，Infoseek還在建立索引的過(guò)程中收集頁(yè)面中的超鏈接。這些超鏈接反映了收集到的信息之間的空間結(jié)構(gòu)。利用這些結(jié)果信息可以提高頁(yè)面相關(guān)度判別時(shí)候的準(zhǔn)確度。

3．數(shù)據(jù)源文件的分布策略

搜索引擎的數(shù)據(jù)源文件主要包括索引文件和原文檔。目前，數(shù)據(jù)源文件的分布策略主要有集中存放和分布式存放。文獻(xiàn)[2]指出Google就是采用了集群的方式集中存放數(shù)據(jù)源文件，事實(shí)上，幾乎所有的商業(yè)搜索引擎都采用集中存放的方式，這是因?yàn)榉植际酱娣挪呗杂幸粋€(gè)硬傷，就是搜索請(qǐng)求從一個(gè)端點(diǎn)傳送到另外一個(gè)端點(diǎn)消耗的時(shí)間讓用戶難以忍受。但是，隨著互聯(lián)網(wǎng)上信息的急劇膨脹，改進(jìn)后的分布式策略是最終的解決方案。

4．索引大文件的存放策略

倒排文件是一個(gè)大文件，這是因?yàn)榈古盼募写娣诺挠涗洠℉it）表示的是文檔中出現(xiàn)本特征詞的狀況。目前的商業(yè)搜索引擎的文檔集中的文檔數(shù)量非常之大，因此倒排文件的記錄數(shù)也會(huì)很大，最終導(dǎo)致倒排文件的尺寸非常大。

對(duì)于大文件首先考慮的是壓縮，像是Google存放的索引文件就是經(jīng)過(guò)壓縮的。好的壓縮算法同時(shí)要求壓縮比盡可能高、查找壓縮文件容易、解壓縮時(shí)間短。即使壓縮之后的文件仍然大到不能以獨(dú)立的文件形式存放，目前有兩種分離大文件為多個(gè)小文件的策略：

一是基于文檔集的分離。主要是將文檔集分成有限個(gè)子集，對(duì)于每一個(gè)子集建立各自的索引文件，檢索過(guò)程就演變?yōu)閷?duì)多個(gè)文檔子集的檢索，最后做的合并處理。

一是基于索引文件的分離。即是將索引大文件分為有限個(gè)子文件，并設(shè)計(jì)一張表記錄這種分離情況，當(dāng)要檢索這個(gè)索引文件時(shí)就查找這張表，根據(jù)表的記錄去查找每一個(gè)子文件。文獻(xiàn)[3]指出Google將索引大文件分離為若干個(gè)小文件，每一個(gè)小文件都以獨(dú)立的linux文件存放，通過(guò)linux系統(tǒng)管理這些小文件，這正是這個(gè)策略的一種表現(xiàn)。

5．排序算法

各種搜索引擎的技術(shù)改進(jìn)和優(yōu)化，都直接反應(yīng)到搜索結(jié)果的排序上。許多搜索引擎都在進(jìn)一步研究新的排序方法，來(lái)提升客戶的滿意度。目前，不同搜索引擎基于不同的搜索策略設(shè)計(jì)有多種不同的排序算法，以Google為例，它采用很多種排序算法支持搜索結(jié)果，其中最典型的代表有PageRank和HillTop，這兩種都屬于超鏈接分析技術(shù)。

5．語(yǔ)義搜索的興起
目前實(shí)用化的信息檢索系統(tǒng)主要基于人工分類目錄或關(guān)鍵詞匹配。前者對(duì)海量信息資源的揭示的效率不高、深度有限；后者在信息的語(yǔ)義和語(yǔ)用的揭示上有局限性。信息檢索系統(tǒng)在智能處理能力上的缺乏，導(dǎo)致這些工具遠(yuǎn)遠(yuǎn)不能滿足用戶的需求。如何解決好諸如信息組織、知識(shí)表示、機(jī)器理解與人機(jī)交互等問(wèn)題，對(duì)于提高信息利用的效率，是非常重要和迫切的。近年來(lái)，語(yǔ)義網(wǎng)的提出為解決這些問(wèn)題提供了鍥機(jī)，由于語(yǔ)義網(wǎng)中的資源被結(jié)構(gòu)化，能被計(jì)算機(jī)所理解和識(shí)別，這樣提供了改進(jìn)傳統(tǒng)搜索技術(shù)的機(jī)會(huì)。語(yǔ)義檢索的目的是通過(guò)從語(yǔ)義網(wǎng)上獲取的數(shù)據(jù)增強(qiáng)并改進(jìn)傳統(tǒng)的搜索結(jié)果(基于信息檢索技術(shù))。它實(shí)現(xiàn)了用戶檢索請(qǐng)求的本體化，整個(gè)搜索引擎像領(lǐng)域?qū)＜乙粯?，不僅給出查詢結(jié)果，還給出了與檢索請(qǐng)求相關(guān)的資源，大大提高檢索的精度和覆蓋率；實(shí)現(xiàn)了本體層次的檢索，突破了關(guān)鍵詞檢索局限于形式的固有缺陷。它的出現(xiàn)提高了用戶的滿意度，減少了不相關(guān)的返回結(jié)果，提高了檢索的精度和覆蓋率。

最初人們通過(guò)代表語(yǔ)義的HTML標(biāo)簽來(lái)改造網(wǎng)頁(yè)，主要有GDA系統(tǒng)和
SHOE(SimpleHTMLOntologyExtensions)系統(tǒng)等。但這些系統(tǒng)的不足是僅能處理經(jīng)過(guò)HTML標(biāo)簽改造的網(wǎng)頁(yè)。

XML是非常有前途的語(yǔ)言，因?yàn)樗鼘⒕W(wǎng)頁(yè)的內(nèi)容、結(jié)構(gòu)和描述分離，并且非常適合知識(shí)的描述。但是XML通過(guò)它的句法結(jié)構(gòu)僅能描述一些語(yǔ)義屬性。

語(yǔ)義網(wǎng)絡(luò)的建立使得以語(yǔ)義為基礎(chǔ)的搜索引擎同時(shí)可以建立起來(lái)。在語(yǔ)義搜索引擎中，每一個(gè)查詢都在一些本體的上下文范圍內(nèi)執(zhí)行，來(lái)自本體的一些指南可以提高檢索的準(zhǔn)確性。在語(yǔ)義檢索中，使用的是概念匹配，即自動(dòng)抽取文檔的概念，加以標(biāo)引，用戶在系統(tǒng)的輔助下選用合適的詞語(yǔ)表達(dá)自己的信息需求，然后在兩者之間執(zhí)行概念匹配，即匹配在語(yǔ)義上相同、相近、相包含的詞語(yǔ)。

6．語(yǔ)義搜索當(dāng)前的應(yīng)用
當(dāng)前基于ontology 的語(yǔ)義檢索系統(tǒng)已經(jīng)得到了廣泛的關(guān)注和應(yīng)用，出現(xiàn)了一系列優(yōu)秀的應(yīng)用系統(tǒng)，其中典型的有兩個(gè)：SWOOGLE——語(yǔ)義網(wǎng)中的基于蜘蛛網(wǎng)的檢索系統(tǒng)，系統(tǒng)從每個(gè)搜索到的文本中抽取本體，根據(jù)本體之間的相關(guān)度來(lái)比較文本之間的關(guān)系；TUCUXI(InTelligent Hunter Agent for Concept Understanding and LeXical ChaIning)，該系統(tǒng)根據(jù)查找的本體在網(wǎng)頁(yè)上爬行，決定哪種網(wǎng)頁(yè)最滿足需求。特別的，TUCUXI 判斷文檔的相關(guān)性是同Map of Meanings 比較用戶所查詢的相關(guān)本體。Map of Meanings 語(yǔ)義豐富，用來(lái)對(duì)資源文本的表達(dá)。TUCUXI 采用了MOMIS 公用字典來(lái)表征用戶查詢的本體。在語(yǔ)義網(wǎng)中,基于Ontology 的語(yǔ)義檢索搜索引擎有SHOE、OntoBroker、OntoSeek、WebKB、Corese。

7．總結(jié)
語(yǔ)義搜索引擎是未來(lái)搜索引擎發(fā)展的方向，它的發(fā)展主要受限于語(yǔ)義web的發(fā)展以及自然語(yǔ)言處理技術(shù)。語(yǔ)義搜索引擎設(shè)計(jì)的最終目標(biāo)是讓計(jì)算機(jī)具有人的智能，以解決問(wèn)題的形式返回給用戶。語(yǔ)義搜索引擎設(shè)計(jì)的當(dāng)前目標(biāo)是讓計(jì)算機(jī)返回的結(jié)果更有針對(duì)性、準(zhǔn)確性。

參考文獻(xiàn)：

[1] CNNIC第15次互聯(lián)網(wǎng)發(fā)展?fàn)顩r報(bào)告

[[2]] Luiz André Barroso, Jeffrey Dean, Urs Hölzle. WEB SEARCH FOR A PLANET: THE GOOGLE CLUSTER ARCHITECTURE

[[3]] Sanjay Ghemawat, Howard Gobioff, and Shun-Tak Leung. The Google File System

本站僅提供存儲(chǔ)服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊舉報(bào)。

国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看