国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
下一代搜索引擎(轉(zhuǎn)貼)

下一代搜索引擎(轉(zhuǎn)貼)

關(guān)鍵詞下一代搜索引擎    發(fā)展趨向                                          

 

    搜索引擎是伴隨著互聯(lián)網(wǎng)的發(fā)展而不斷發(fā)展的,由于互聯(lián)網(wǎng)已經(jīng)成為人們學(xué)習(xí)工作和生活中不可缺少的平臺,幾乎每一個(gè)上網(wǎng)的人都會使用搜索引擎,圍繞搜索已經(jīng)形成一個(gè)重要的產(chǎn)業(yè)鏈,有些媒體甚至造出了“搜索經(jīng)濟(jì)”這個(gè)詞。

    既然搜索這樣魅力無窮,人們除了關(guān)心目前的搜索的現(xiàn)狀外,更加關(guān)心下一代搜索引擎是什么樣的,也就是想知道搜索引擎的發(fā)展趨勢。要回答這個(gè)問題,我們從搜索引擎所緊密關(guān)聯(lián)的兩個(gè)對象入手來分析。搜索引擎實(shí)際上就是在用戶(搜索引擎的使用者)和互聯(lián)網(wǎng)資源(搜索引擎的搜索對象)這兩者之間建立起一個(gè)聯(lián)系,將用戶真正想要的內(nèi)容呈現(xiàn)給用戶,同時(shí)用戶不想要的內(nèi)容不呈現(xiàn)給用戶。我們稱這一要求為“所得即所需”(What You Get is What You Want)。因此,本文從搜索引擎的用戶體驗(yàn)和互聯(lián)網(wǎng)資源的組織和獲取這兩個(gè)角度來分析一下搜索引擎技術(shù)的未來發(fā)展之路,并簡要回答一些疑問。

    第一、從互聯(lián)網(wǎng)資源組織的角度來看搜索引擎技術(shù)的發(fā)展趨勢。

    互聯(lián)網(wǎng)資源主要是以非規(guī)范文本或者多媒體形式存在的,如何讓這些資源達(dá)到某種程度的結(jié)構(gòu)化是提供快速準(zhǔn)確搜索的客觀的要求。也就是說如何表示互聯(lián)網(wǎng)資源是搜索引擎首先要回答的問題。在數(shù)據(jù)庫領(lǐng)域我們喜歡用數(shù)據(jù)模型的不同來作為區(qū)分技術(shù)進(jìn)步的主要依據(jù)。同樣,我們也可以從數(shù)據(jù)模型的角度來看一看搜索引擎技術(shù)的發(fā)展軌跡。

    第一代搜索引擎的特征是目錄搜索,代表產(chǎn)品當(dāng)然就是YAHOO了。這個(gè)時(shí)期的技術(shù)思路,不可避免地受傳統(tǒng)的圖書情報(bào)管理方法的影響。我們知道,傳統(tǒng)的圖書館面對大量的文獻(xiàn)資源,采用的辦法是首先建立一套圖書文獻(xiàn)分類標(biāo)準(zhǔn),然后將文獻(xiàn)按照分類標(biāo)準(zhǔn)手工或者計(jì)算機(jī)輔助地進(jìn)行分類,這樣用戶就可以按照這個(gè)分類進(jìn)行文獻(xiàn)的檢索了。第一代的搜索引擎也是采用類似的方法來建立網(wǎng)絡(luò)文獻(xiàn)的數(shù)據(jù)模型的,不過需要指出的是,YAHOO所采用的分類體系,比起傳統(tǒng)文獻(xiàn)分類體系來說,要簡單的多和不規(guī)范的多。從這種意義上講,YAHOO的技術(shù)創(chuàng)新不大。第一代搜索引擎的弊端和傳統(tǒng)圖書館文獻(xiàn)管理方法的弊端也是一樣的。首先,這個(gè)分類體系是由文獻(xiàn)的管理者人為的給出來的,用戶并不一定清楚,或者說普通用戶并不一定理解,這樣就有可能找不到想要的信息。其次,手工分類的成本太大、效率太低,不能適應(yīng)快速增長的網(wǎng)上信息資源管理的需要。

    第二代搜索引擎在看到了第一代搜索引擎的弊端后,創(chuàng)新性地提出了頁面重要性分析技術(shù)pageranking技術(shù)和超鏈分析技術(shù)等,將最重要的頁面優(yōu)先呈現(xiàn)給用戶。代表產(chǎn)品就是GOOGLE。與YAHOO不同的是,GOOGLE并不對文獻(xiàn)進(jìn)行分類,而是從文獻(xiàn)中識別出“關(guān)鍵字”來,然后建立倒排索引。也就是說文獻(xiàn)是用一組關(guān)鍵字列表來表示的,這就是網(wǎng)絡(luò)資源的數(shù)據(jù)模型。這一模型的好處就是計(jì)算機(jī)可以自動地完成,無需人工干預(yù),這使得大規(guī)模的搜索成為可能。根據(jù)用戶提交的查詢關(guān)鍵字,然后對出現(xiàn)這些關(guān)鍵字的頁面按照確定的方法對其進(jìn)行排序,并按照得分的高低順序呈現(xiàn)給用戶。這種方法的最大好處是用戶不需要額外的負(fù)擔(dān),只需要敲入適當(dāng)?shù)年P(guān)鍵字就可以了。用戶獲得了前所未有的信息體驗(yàn)。GOOGLE也因此獲得了蓬勃的發(fā)展。

    然而,在這里“關(guān)鍵字”僅僅是出現(xiàn)在網(wǎng)頁中的符號而已,它所指代的語義并沒有被使用。頁面分析所依據(jù)的也是存在于頁面之間的鏈接關(guān)系,它不能表示這些頁面本身包含什么信息。這就決定了搜索引擎還不能還好地處理頁面信息的語義,因此,目前搜索引擎出現(xiàn)了一系列的困難。根據(jù)中國互聯(lián)網(wǎng)網(wǎng)絡(luò)信息中心(CNNIC)的報(bào)告稱,用戶認(rèn)為在互聯(lián)網(wǎng)上查詢信息時(shí)遇到的最大問題是重復(fù)信息太多(44.6%)、信息太陳舊更新緩慢(27.5%)、得到的有用信息太少(10.7%)、信息查找不方便(10.2%)。這些問題中的第一項(xiàng)和第三項(xiàng)的主要根源都是搜索引擎不能理解存在于網(wǎng)頁中的信息的語義。為了解決這些問題,搜索引擎必須能夠表達(dá)和處理語義信息。所以,我們相信,下一代搜索引擎的數(shù)據(jù)模型必須是語義數(shù)據(jù)模型。

    我們認(rèn)為語義網(wǎng)(Semantic Web)是這種語義模型的最好的選擇。語義網(wǎng)采用XML+RDF+Ontology三個(gè)層次描述信息資源,構(gòu)成了計(jì)算機(jī)理解內(nèi)容的基礎(chǔ)。關(guān)于語義網(wǎng)我們已經(jīng)在2006年第4期本刊中給出了介紹,這里就不詳細(xì)介紹了。

    圍繞著建立語義網(wǎng),將會發(fā)展一系列的技術(shù),將是下一代搜索引擎所必須的。比如,自動標(biāo)注技術(shù),信息抽取技術(shù)等等。因此,從這種意義上講,下一代搜索引擎將是智能化的。

    第二、從用戶信息體驗(yàn)的角度來看搜索引擎技術(shù)的發(fā)展趨勢。

    用戶對網(wǎng)絡(luò)的信息體驗(yàn)是從分類檢索體驗(yàn)開始的,第一代搜索引擎呈現(xiàn)給用戶的是“千人一面”的分類體系和網(wǎng)頁內(nèi)容。人們在經(jīng)過了初始短暫的興奮后,很快就對這樣的信息訪問方式不滿意了。第二代的搜索引擎是以關(guān)鍵字作為表達(dá)查詢的主要手段的,以按相關(guān)度大小排列的文獻(xiàn)列表為展示方式。為了克服千人一面的不足,人們還引進(jìn)了一些個(gè)性化的技術(shù),包括對查詢輸入的修正,查詢結(jié)果的聚類等。但是,到目前為止,查詢輸入的主要方式還是關(guān)鍵字,查詢輸出的主要也還是文本列表。筆者以為如何為用戶的學(xué)習(xí)和工作營造一個(gè)個(gè)性化的信息空間,是未來搜索引擎應(yīng)該追求的方向,這里包括如何表達(dá)信息需求,如何展示/瀏覽搜索結(jié)構(gòu),如何對個(gè)性化的信息需求建立模型等等。從這種意義上講,下一代搜索引擎將是個(gè)性化的。

    第三、從互聯(lián)網(wǎng)資源獲取與更新策略的角度來看搜索引擎技術(shù)的發(fā)展趨勢。

    互聯(lián)網(wǎng)搜索首先需要的是及時(shí)地獲得新的信息,這里涉及資源抓取和更新策略問題。這方面筆者沒有深入研究,難以進(jìn)行推測。一種觀點(diǎn)認(rèn)為,第一代搜索引擎是集中式的,第二代是分布協(xié)同式的,而第三代將是“社會性”的,比如P2P這樣的模式。

    綜上所述,下一代搜索引擎的發(fā)展趨勢將是智能化的、個(gè)性化的。

    根據(jù)上述分析,我們來看一看目前關(guān)于搜索工具的一些觀點(diǎn),回答一些疑問。有一種觀點(diǎn)認(rèn)為“垂直搜索”或者叫做“專業(yè)搜索”是未來搜索引擎的發(fā)展趨勢。這是相對于那些什么都做的通用搜索引擎而言的。對于通用搜索引擎,無論是信息采集、還是信息的更新都是巨大的挑戰(zhàn),將搜索引擎限定在某個(gè)領(lǐng)域,有利于做深做精。因此,從經(jīng)營模式上,有其價(jià)值,就象圖書館也有專業(yè)的圖書館一樣。但是,從技術(shù)上講,并沒有多大的新意。

    有一種觀點(diǎn)認(rèn)為,下一代搜索引擎應(yīng)能處理深層網(wǎng)頁(DEEP WEB)。所謂深層搜索是指搜索那些放在數(shù)據(jù)庫中的信息。目前的搜索引擎主要處理普通的網(wǎng)頁(稱為淺層網(wǎng)頁),對于深層網(wǎng)頁的信息難以搜索,而據(jù)說這樣的信息是普通網(wǎng)頁的500倍。顯然,如何能夠?qū)⑺阉饕娴挠|角深入到數(shù)據(jù)庫里去,是下一代搜索引擎所關(guān)心的。但是,這里的技術(shù)關(guān)鍵是如何獲得數(shù)據(jù)庫中的全部信息,這個(gè)技術(shù)是信息獲取中的一部分,并不能代表下一代搜索引擎的本質(zhì)。

    還有一種觀點(diǎn)認(rèn)為,下一代搜索引擎必須是跨媒體的,也就是說用戶通過統(tǒng)一的界面和單一的提問,就能夠獲得以各種媒體形式存在的語義相似的結(jié)果。無疑,這是我們所提到的良好的個(gè)性化信息體驗(yàn)中所需要的功能。但是,這一功能的獲得,也需要分解成對數(shù)據(jù)對象的語義標(biāo)注和個(gè)性化的信息展示這兩個(gè)方面。因此,可以說是包括在我們上面的分析框架中的。

    在本文成文過程中多次與實(shí)驗(yàn)室的楊敏和趙峰同學(xué)進(jìn)行了討論,他們貢獻(xiàn)了一些很好的想法和素材,在此表示感謝。(作者:杜小勇/中國人民大學(xué)信息學(xué)院)

本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊舉報(bào)
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
Web 3.0時(shí)代:網(wǎng)絡(luò)對你無所不知 IT.com.cn IT世界網(wǎng)-先上IT網(wǎng)再逛電腦城
搜索引擎發(fā)展的隨想--Software Test 軟件測試
Google 黑板報(bào) -- 社區(qū) —— 下一代互聯(lián)網(wǎng)個(gè)性化...
用戶體驗(yàn)的宗旨:消滅多余的文字 | 網(wǎng)站運(yùn)營管理
網(wǎng)站統(tǒng)計(jì)工具的優(yōu)勢
中國搜索總裁陳沛演講
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服