国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開(kāi)APP
userphoto
未登錄

開(kāi)通VIP,暢享免費(fèi)電子書(shū)等14項(xiàng)超值服

開(kāi)通VIP
漫談聚類(lèi)搜索引擎的研究現(xiàn)狀
1 聚類(lèi)搜索引擎概念和工作流程

  所謂聚類(lèi)搜索引擎,就是運(yùn)用聚類(lèi)技術(shù)對(duì)搜索結(jié)果進(jìn)行自動(dòng)聚類(lèi)分析的搜索工具。其特點(diǎn)是去重性強(qiáng)、分類(lèi)性強(qiáng)、匯集性強(qiáng),即可以及時(shí)去除重復(fù)信息,對(duì)搜索的結(jié)果進(jìn)行分門(mén)別類(lèi),并可以匯集各大知名搜索引擎的信息資源。目前,典型的聚類(lèi)搜索引擎的基本工作步驟為:①依據(jù)用戶(hù)查詢(xún)的關(guān)鍵字,從一個(gè)或多個(gè)搜索引擎獲取搜索結(jié)果;②對(duì)搜索結(jié)果進(jìn)行預(yù)處理,過(guò)濾掉重復(fù)、無(wú)效信息;③將文檔中關(guān)鍵短語(yǔ)作為特征提取出來(lái)生成聚類(lèi)標(biāo)簽;④將文檔分配到生成的聚類(lèi)標(biāo)簽下;⑤將聚類(lèi)后的搜索結(jié)果進(jìn)行排序并顯示給用戶(hù)。

  2 國(guó)內(nèi)外聚類(lèi)搜索引擎的發(fā)展現(xiàn)狀

  搜索引擎的發(fā)展階段總共經(jīng)歷了三個(gè)階段[3],其中第1代搜索引擎主要是基于人工分類(lèi)的通用搜索;第2代主要依靠機(jī)器進(jìn)行自動(dòng)爬取和分析,利用鏈接分析技術(shù)實(shí)現(xiàn)更為準(zhǔn)確的搜索,如Google、百度等;第3代搜索引擎更加體現(xiàn)了智能化、互動(dòng)式和人性化。功能包括自動(dòng)聚類(lèi)、去重、用戶(hù)習(xí)慣記憶等方面,是未來(lái)搜索引擎主要的發(fā)展方向。

  近幾年,國(guó)際上對(duì)聚類(lèi)搜索引擎系統(tǒng)的研究日漸火熱,已經(jīng)出現(xiàn)了一些知名的聚類(lèi)搜索系統(tǒng)。其中,Scatter/Gather系統(tǒng)[4]是第一個(gè)在搜索引擎上使用聚類(lèi)方法的系統(tǒng);Vivisimo[5]是一種商業(yè)化聚類(lèi)搜索引擎,符合用戶(hù)使用習(xí)慣,搜索效率高?;贘ava的開(kāi)源Carrot2聚類(lèi)搜索引擎[5]可自動(dòng)的把搜索結(jié)果歸類(lèi)到相應(yīng)的語(yǔ)義類(lèi)別中,它的一個(gè)亮點(diǎn)是速度和易用性的提高。中文搜索領(lǐng)域,早期比較有實(shí)力的聚類(lèi)搜索引擎有Bbmao,Bbmao搜索系統(tǒng)推出了去重功能,為網(wǎng)民解決了大量閱讀重復(fù)信息的煩惱。Bbmao的聚類(lèi)功能,能夠提高查找信息的效率,它還具有云集各大搜索引擎結(jié)果的功能,同時(shí)完成海量信息的分門(mén)別類(lèi)。近期出現(xiàn)的baigoogleledu綜合了谷歌、百度兩大搜索引擎。其基本出發(fā)點(diǎn)是兩大搜索引擎的搜索結(jié)果的很大的差異性。這類(lèi)系統(tǒng)對(duì)搜索結(jié)果進(jìn)行聚類(lèi)分析,在一定程度上緩解了廣告泛濫的局面,使用戶(hù)更便捷地找到需要的信息。

  有關(guān)國(guó)內(nèi)外聚類(lèi)搜索引擎的相關(guān)技術(shù),主要有聚類(lèi)分析、聚類(lèi)算法、中文信息處理等技術(shù)。Anton等人[7]致力于把分類(lèi)體系引入評(píng)估體系來(lái)評(píng)價(jià)聚類(lèi)效果質(zhì)量的研究。SudiptoGuha等研究人員[8]應(yīng)用概念關(guān)聯(lián)代替?zhèn)鹘y(tǒng)的計(jì)算歐式距離,來(lái)衡量數(shù)據(jù)之間的相似度,從而確定聚類(lèi),達(dá)到了很好的效果。

  國(guó)內(nèi)一些學(xué)術(shù)組織和團(tuán)體很早就開(kāi)始對(duì)自動(dòng)文本分類(lèi)、聚類(lèi)領(lǐng)域等相關(guān)內(nèi)容進(jìn)行研究,從“天網(wǎng)”和“網(wǎng)絡(luò)指南針”開(kāi)始北京大學(xué)和清華大學(xué)就開(kāi)始致力于網(wǎng)頁(yè)的聚類(lèi)技術(shù)研究。此外,北京科技大學(xué)的麻雪云提出了一種基于關(guān)鍵名詞短語(yǔ)聚類(lèi)的中文搜索結(jié)果聚類(lèi)方法[9],利用百度、谷歌、雅虎三大搜索引擎來(lái)獲取互聯(lián)網(wǎng)信息,對(duì)搜索結(jié)果進(jìn)行聚類(lèi)分析。國(guó)防科技大學(xué)的肖坤對(duì)STC算法和Lingo算法進(jìn)行了比較,并對(duì)STC算法進(jìn)行了改進(jìn),設(shè)計(jì)實(shí)現(xiàn)了一個(gè)面向校園網(wǎng)聚類(lèi)搜索引擎系統(tǒng)[10]。

  2 聚類(lèi)搜索引擎的功能分析

  2.1 聚類(lèi)對(duì)象分析

  現(xiàn)有聚類(lèi)搜索引擎的聚類(lèi)對(duì)象主要包括三類(lèi)數(shù)據(jù):商業(yè)數(shù)據(jù)、評(píng)價(jià)數(shù)據(jù)、社交數(shù)據(jù)。

  商品數(shù)據(jù)主要包括對(duì)服裝、電器、化妝品等數(shù)據(jù)信息進(jìn)行分類(lèi)整理,例如用戶(hù)在淘寶網(wǎng)輸入“牙膏”關(guān)鍵字,在網(wǎng)頁(yè)上立馬顯示出“功能”、“品牌”、“產(chǎn)地”等分類(lèi)信息,并按照銷(xiāo)量、價(jià)格、信用進(jìn)行了排序,對(duì)商品的聚類(lèi)分析清晰明確。評(píng)價(jià)數(shù)據(jù)主要包括論壇對(duì)相關(guān)主題的討論信息,博客的交流信息,商業(yè)網(wǎng)站對(duì)商品的滿意度評(píng)價(jià)信息等。大連海事大學(xué)的魯明羽、姚曉娜等人提出一種基于模糊聚類(lèi)的網(wǎng)絡(luò)論壇熱點(diǎn)話題挖掘算法,通過(guò)分析帖子和用戶(hù)間的影響力傳遞,來(lái)判斷是否為焦點(diǎn)人物和熱門(mén)話題[11]。社交數(shù)據(jù)主要包括社交網(wǎng)絡(luò)注冊(cè)用戶(hù)個(gè)人資料信息、用戶(hù)關(guān)注度信息、用戶(hù)之間交互信息等社交數(shù)據(jù)資源。社交數(shù)據(jù)隱含了大量可以用于聚類(lèi)的關(guān)聯(lián)信息,對(duì)實(shí)現(xiàn)智能和個(gè)性化聚類(lèi)搜索具有重要意義。此外,聚類(lèi)對(duì)象按數(shù)據(jù)類(lèi)型還可以劃分為文本數(shù)據(jù)、多媒體數(shù)據(jù)等。

  2.2 聚類(lèi)功能分析

  聚類(lèi)搜索引擎的聚類(lèi)功能主要有智能聚類(lèi)、去重、多媒體、覆蓋性等能力。

  智能聚類(lèi):聚類(lèi)搜索引擎大多具有這項(xiàng)功能。目前做得最好的如Vivisimo系統(tǒng),它最大的特色是會(huì)對(duì)搜索結(jié)果自動(dòng)分類(lèi),采用專(zhuān)門(mén)開(kāi)發(fā)的啟發(fā)式算法來(lái)集合或聚類(lèi)原文文獻(xiàn)。

  去重:去重可以取掉大部分的廣告網(wǎng)頁(yè)并節(jié)省掉用戶(hù)的選擇時(shí)間,是十分實(shí)用的一項(xiàng)聚類(lèi)功能。國(guó)內(nèi)的比比貓的去重功能非常出色,在用戶(hù)獲得多個(gè)搜索引擎的搜索結(jié)果后,比比貓可以自動(dòng)為用戶(hù)獲取最有搜索結(jié)果并取掉重復(fù)的信息。

  多媒體:除了文本聚類(lèi),聚類(lèi)搜索引擎還關(guān)注視頻、音頻等多媒體信息進(jìn)行聚類(lèi)的功能,商業(yè)化、集成化、多媒體化的氣息更加濃厚。搜狗音樂(lè)推出了新版的聚類(lèi)頁(yè)面,可視化強(qiáng),用戶(hù)輸入重慶陽(yáng)光房名稱(chēng),將獲得全新的聚類(lèi)結(jié)果,該結(jié)果首先按照音頻特征聚類(lèi),再按照文本信息聚類(lèi),保證搜索界面顯示的音樂(lè)相關(guān)度最高。

  覆蓋性:聚類(lèi)搜索引擎一般基于一些大型通用搜索引擎的數(shù)據(jù)資源,這樣能夠保證搜索的結(jié)果覆蓋全面,可聚類(lèi)的對(duì)象內(nèi)容豐富。

  2.3 聚類(lèi)算法分析

  聚類(lèi)搜索引擎的聚類(lèi)算法主要有層次聚類(lèi)、樹(shù)狀聚類(lèi)、網(wǎng)狀聚類(lèi)、圓形聚類(lèi)。其中Carrot2、Clusty(clusty.com)、iBoogie(iBoogie.com)等系統(tǒng)使用層次聚類(lèi)的方法,按照來(lái)源及站點(diǎn)進(jìn)行聚類(lèi)。PinkySeach[12]和Mnemomap(mnemomap.org)系統(tǒng)是使用樹(shù)狀結(jié)構(gòu)的聚類(lèi)算法如重慶不銹鋼裝飾,將聚類(lèi)的結(jié)果以列表的形式展示出來(lái)。UJIKO系統(tǒng)(ujiko.com)是使用圓形結(jié)構(gòu)的聚類(lèi)算法,它將搜索結(jié)果聚類(lèi)后按照主題自動(dòng)分類(lèi)成圖形界面顯示出來(lái)。Quintura系統(tǒng)(quintura.com)是使用網(wǎng)狀結(jié)構(gòu)的聚類(lèi)算法,是通過(guò)標(biāo)簽云的形式將在語(yǔ)義上相關(guān)的詞聚類(lèi),構(gòu)成網(wǎng)狀鏈接。

  3 典型聚類(lèi)搜索引擎

  3.1 Vivisimo系統(tǒng)

  Vivisimo系統(tǒng)[5]的基本步驟包括:首先系統(tǒng)自動(dòng)地、并行地向多個(gè)大型搜索引擎提交查詢(xún)請(qǐng)求,然后匯集每個(gè)查詢(xún)返回的結(jié)果,對(duì)查詢(xún)的結(jié)果進(jìn)行聚類(lèi)分析,經(jīng)過(guò)去重、合并、分類(lèi)等步驟后,通過(guò)輸出處理顯示給用戶(hù)。Vivisimo的聚類(lèi)對(duì)象是從多個(gè)搜索引擎返回的搜索結(jié)果,主要是文本信息。Vivisimo的聚類(lèi)功能主要是文本的聚類(lèi),通過(guò)對(duì)文本內(nèi)容進(jìn)行對(duì)重慶不銹鋼宣傳欄搜索和歸類(lèi)分析,vivisimo的軟件可以使用戶(hù)從沒(méi)有預(yù)先標(biāo)記或分類(lèi)的資源中整合、分類(lèi)內(nèi)容。Vivisimo采用啟發(fā)式算法,借鑒了人工智能的理念,對(duì)檢索的結(jié)果進(jìn)行聚類(lèi),可以把文本信息自動(dòng)地分成等級(jí)排序的類(lèi)目,它的每一步都是自動(dòng)化的,不需要人工干預(yù)。

  目前Vivisimo的商業(yè)應(yīng)用十分廣泛,它對(duì)信息的分類(lèi)很體貼,具有人性化。其細(xì)致的檢索結(jié)果顯示方式使它成為了業(yè)界的精品,連續(xù)多年成為“最佳元搜索引擎”。但是,Vivisimo于沒(méi)有自身的數(shù)據(jù)資源庫(kù),依附于其他大型搜索引擎,獨(dú)立性較差,檢索功能有待加強(qiáng)。

  3.2 Carrot2系統(tǒng)

  Carrot2是基于Java開(kāi)發(fā)的開(kāi)源聚類(lèi)搜索系統(tǒng)[6],主要用于對(duì)搜索結(jié)果進(jìn)行聚類(lèi)。與Vivisimo相似,首先也是用戶(hù)輸入關(guān)鍵字在Bing、baidu、google等知名搜索引擎進(jìn)行搜索,然后對(duì)返回的搜索結(jié)果進(jìn)行聚類(lèi),并通過(guò)樹(shù)形的分類(lèi)圖進(jìn)行顯示出來(lái)。Carrot2的聚類(lèi)對(duì)象主要是各大搜索引擎返回的搜索結(jié)果,其通過(guò)文檔聚類(lèi)平臺(tái)workbench,對(duì)搜索的數(shù)據(jù)進(jìn)行聚類(lèi)分析,并通過(guò)文檔聚類(lèi)服務(wù)器DCS,將聚類(lèi)結(jié)果作為REST服務(wù)呈現(xiàn)。最后,Carrot2以WebApp方式將聚類(lèi)結(jié)果作為網(wǎng)絡(luò)應(yīng)用呈現(xiàn)給終端用戶(hù)。Carrot2采用的聚類(lèi)算法主要是Lingo(基于奇異值分解的索引結(jié)果聚類(lèi))算法和STC(Suffix Tree Clustering)后綴樹(shù)聚類(lèi)算法。

  目前Carrot2支持的聚類(lèi)算法較多,代碼開(kāi)源可以進(jìn)行版本的更新和改進(jìn)。該系統(tǒng)應(yīng)用廣泛、可移植性較好。但是Carrot2中文分詞效果不好,可視化效果不佳。

  4 聚類(lèi)搜索引擎發(fā)展趨勢(shì)

  文獻(xiàn)[1]通過(guò)對(duì)大量搜索引擎的評(píng)測(cè),發(fā)現(xiàn)獨(dú)立性差、專(zhuān)用算法欠缺、搜索速度慢等一系列問(wèn)題,但該文主要對(duì)搜索結(jié)果的聚類(lèi)方法進(jìn)行了評(píng)測(cè),對(duì)聚類(lèi)搜索引擎的趨勢(shì)的分析也主要側(cè)重于聚類(lèi)方法。本文認(rèn)為聚類(lèi)搜索引擎未來(lái)將向數(shù)據(jù)海量化,鏈接社交化,聚類(lèi)綜合化三個(gè)方向發(fā)展。

  4.1 數(shù)據(jù)海量化

  現(xiàn)階段的聚類(lèi)搜索由于數(shù)據(jù)集較為單一,聚類(lèi)算法過(guò)于老舊,造成呈現(xiàn)給用戶(hù)的檢索結(jié)果數(shù)量少,內(nèi)容貧乏,這樣必然影響聚類(lèi)搜索的發(fā)展壯大。所以未來(lái)聚類(lèi)搜索必然要向數(shù)據(jù)海量化發(fā)展。近期,美國(guó)互聯(lián)網(wǎng)公司“耶寶”日前推出一種更具人性化的搜索引擎,有別于當(dāng)今主流搜索引擎網(wǎng)站提供的單維搜索,并非一般的羅列搜索結(jié)果,而是通過(guò)對(duì)搜索的詞條和海量的網(wǎng)頁(yè)的內(nèi)容進(jìn)行分析,自動(dòng)對(duì)搜索結(jié)果進(jìn)行聚類(lèi)和分類(lèi),為用戶(hù)提供豐富而直觀的結(jié)果。

  4.2 鏈接社交化

  在搜索引擎中引入社交元素,由于目前Web社交網(wǎng)絡(luò)形成了一個(gè)巨大的DeepWeb(針對(duì)網(wǎng)絡(luò)爬蟲(chóng)而言),而這個(gè)數(shù)據(jù)量對(duì)搜索引擎來(lái)說(shuō)是非常大而且有用的,搜索引擎作為用戶(hù)獲取信息的主要渠道,勢(shì)必需要這些用戶(hù)活躍度和新鮮度很高的數(shù)據(jù)資源。由于社交數(shù)據(jù)中蘊(yùn)含著大量數(shù)據(jù)之間的潛在鏈接,因此基于社交數(shù)據(jù)進(jìn)行聚類(lèi)搜索可望更好滿足用戶(hù)的個(gè)性化需求。

  4.3 聚類(lèi)綜合化

  聚類(lèi)的多元化、跨領(lǐng)域、綜合化將是新型聚類(lèi)搜索的重要特點(diǎn)。局限于單個(gè)應(yīng)用領(lǐng)域的聚類(lèi)搜索已經(jīng)難以適應(yīng)需要,跨領(lǐng)域聚類(lèi)將是未來(lái)聚類(lèi)搜索面臨的主要挑戰(zhàn)。

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶(hù)發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
打開(kāi)APP,閱讀全文并永久保存 查看更多類(lèi)似文章
猜你喜歡
類(lèi)似文章
讓人眼睛一亮的新型搜索引擎
Google 以外的17個(gè)搜索引擎創(chuàng)新
元搜索引擎:更便捷的搜索?
Google的黃金拍檔,信息分類(lèi)專(zhuān)家Guidebeam
譯文:擊敗Google的賽跑 -google,譯文,草根網(wǎng)IT資訊精讀(20ju.com)
如何預(yù)測(cè)用戶(hù)query意圖
更多類(lèi)似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服