国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
信息檢索的核心支撐技術(shù) 中文全文檢索網(wǎng)
信息檢索的核心支撐技術(shù)
http://FullSearch.Com 中文全文檢索網(wǎng) 2004-9-15 9:52:54
關(guān)鍵詞:信息檢索

 ?。↖nformation Retrieval),通常指文本信息檢索,包括信息的存儲(chǔ)、組織、表現(xiàn)、查詢、存取等各個(gè)方面,其核心為文本信息的索引和檢索。從歷史上看,信息檢索經(jīng)歷了手工檢索、計(jì)算機(jī)檢索到目前網(wǎng)絡(luò)化、智能化檢索等多個(gè)發(fā)展階段。

  目前,信息檢索已經(jīng)發(fā)展到網(wǎng)絡(luò)化和智能化的階段。信息檢索的對(duì)象從相對(duì)封閉、穩(wěn)定一致、由獨(dú)立數(shù)據(jù)庫(kù)集中管理的信息內(nèi)容擴(kuò)展到開放、動(dòng)態(tài)、更新快、分布廣泛、管理松散的Web內(nèi)容;信息檢索的用戶也由原來(lái)的情報(bào)專業(yè)人員擴(kuò)展到包括商務(wù)人員、管理人員、教師學(xué)生、各專業(yè)人士等在內(nèi)的普通大眾,他們對(duì)信息檢索從結(jié)果到方式提出了更高、更多樣化的要求。適應(yīng)網(wǎng)絡(luò)化、智能化以及個(gè)性化的需要是目前信息檢索技術(shù)發(fā)展的新趨勢(shì)。

  信息檢索技術(shù)的熱點(diǎn)

  ◆ 智能檢索或知識(shí)檢索

  傳統(tǒng)的全文檢索技術(shù)基于關(guān)鍵詞匹配進(jìn)行檢索,往往存在查不全、查不準(zhǔn)、檢索質(zhì)量不高的現(xiàn)象,特別是在網(wǎng)絡(luò)信息時(shí)代,利用關(guān)鍵詞匹配很難滿足人們檢索的要求。智能檢索利用分詞詞典、同義詞典,同音詞典改善檢索效果,比如用戶查詢“計(jì)算機(jī)”,與“電腦”相關(guān)的信息也能檢索出來(lái);進(jìn)一步還可在知識(shí)層面或者說(shuō)概念層面上輔助查詢,通過(guò)主題詞典、上下位詞典、相關(guān)同級(jí)詞典,形成一個(gè)知識(shí)體系或概念網(wǎng)絡(luò),給予用戶智能知識(shí)提示,最終幫助用戶獲得最佳的檢索效果,比如用戶可以進(jìn)一步縮小查詢范圍至“微機(jī)”、“服務(wù)器”或擴(kuò)大查詢至“信息技術(shù)”或查詢相關(guān)的“電子技術(shù)”、“軟件”、“計(jì)算機(jī)應(yīng)用”等范疇。另外,智能檢索還包括歧義信息和檢索處理,如“蘋果”,究竟是指水果還是電腦品牌,“華人”與“中華人民共和國(guó)”的區(qū)分,將通過(guò)歧義知識(shí)描述庫(kù)、全文索引、用戶檢索上下文分析以及用戶相關(guān)性反饋等技術(shù)結(jié)合處理,高效、準(zhǔn)確地反饋給用戶最需要的信息。

  ◆ 知識(shí)挖掘

  目前主要指文本挖掘技術(shù)的發(fā)展,目的是幫助人們更好的發(fā)現(xiàn)、組織、表示信息,提取知識(shí),滿足信息檢索的高層次需要。 知識(shí)挖掘包括摘要、分類(聚類)和相似性檢索等方面。

  自動(dòng)摘要就是利用計(jì)算機(jī)自動(dòng)地從原始文獻(xiàn)中提取文摘。在信息檢索中,自動(dòng)摘要有助于用戶快速評(píng)價(jià)檢索結(jié)果的相關(guān)程度,在信息服務(wù)中,自動(dòng)摘要有助于多種形式的內(nèi)容分發(fā),如發(fā)往PDA、手機(jī)等。相似性檢索技術(shù)基于文檔內(nèi)容特征檢索與其相似或相關(guān)的文檔,是實(shí)現(xiàn)用戶個(gè)性化相關(guān)反饋的基礎(chǔ),也可用于去重分析。自動(dòng)分類可基于統(tǒng)計(jì)或規(guī)則,經(jīng)過(guò)機(jī)器學(xué)習(xí)形成預(yù)定義分類樹,再根據(jù)文檔的內(nèi)容特征將其歸類;自動(dòng)聚類則是根據(jù)文檔內(nèi)容的相關(guān)程度進(jìn)行分組歸并。自動(dòng)分類(聚類)在信息組織、導(dǎo)航方面非常有用。

  ◆ 異構(gòu)信息整合檢索和全息檢索

  在信息檢索分布化和網(wǎng)絡(luò)化的趨勢(shì)下,信息檢索系統(tǒng)的開放性和集成性要求越來(lái)越高,需要能夠檢索和整合不同來(lái)源和結(jié)構(gòu)的信息,這是異構(gòu)信息檢索技術(shù)發(fā)展的基點(diǎn),包括支持各種格式化文件,如TEXT、HTML、XML、RTF、MS Office、PDF、PS2/PS、MARC、ISO2709等處理和檢索;支持多語(yǔ)種信息的檢索;支持結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)及非結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)一處理;和關(guān)系數(shù)據(jù)庫(kù)檢索的無(wú)縫集成以及其他開放檢索接口的集成等。所謂“全息檢索”的概念就是支持一切格式和方式的檢索,從目前實(shí)踐來(lái)講,發(fā)展到異構(gòu)信息整合檢索的層面,基于自然語(yǔ)言理解的人機(jī)交互以及多媒體信息檢索整合等方面尚有待取得進(jìn)一步突破。

  另外,從工程實(shí)踐角度,綜合采用內(nèi)存和外部存儲(chǔ)的多級(jí)緩存、分布式群集和負(fù)載均衡技術(shù)也是信息檢索技術(shù)發(fā)展的重要方面。

  隨著互聯(lián)網(wǎng)的普及和電子商務(wù)的發(fā)展,企業(yè)和個(gè)人可獲取、需處理的信息量呈爆發(fā)式增長(zhǎng),而且其中絕大部分都是非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)。內(nèi)容管理的重要性日益凸現(xiàn),而信息檢索作為內(nèi)容管理的核心支撐技術(shù),隨著內(nèi)容管理的發(fā)展和普及,亦將應(yīng)用到各個(gè)領(lǐng)域,成為人們?nèi)粘9ぷ魃畹拿芮谢锇椤?

  信息檢索不等于 搜索引擎

  互聯(lián)網(wǎng)的發(fā)展明顯地促進(jìn)了信息檢索技術(shù)的發(fā)展和應(yīng)用,一大批搜索引擎產(chǎn)品誕生,為網(wǎng)民提供了很好的快速信息獲取和網(wǎng)絡(luò)信息導(dǎo)航工具,但是將信息檢索等同于使用搜索引擎就陷入了誤區(qū)。搜索引擎技術(shù)中也普遍采用了全文信息檢索技術(shù),但互聯(lián)網(wǎng)信息搜索和企業(yè)信息搜索是不同的。

  一是數(shù)據(jù)量。傳統(tǒng)信息檢索系統(tǒng)一般索引庫(kù)規(guī)模多在GB級(jí),但互聯(lián)網(wǎng)網(wǎng)頁(yè)搜索需要處理幾千萬(wàn)上億的網(wǎng)頁(yè),搜索引擎的基本策略都是采用檢索服務(wù)器群集,對(duì)大多數(shù)企業(yè)應(yīng)用是不合適和不必要的,并不適用于企業(yè)應(yīng)用。

  二是內(nèi)容相關(guān)性。信息太多,查準(zhǔn)和排序就特別重要,Google等搜索引擎發(fā)展了網(wǎng)頁(yè)鏈接分析技術(shù),根據(jù)互聯(lián)網(wǎng)上網(wǎng)頁(yè)被連接次數(shù)作為重要性評(píng)判的依據(jù)。但企業(yè)網(wǎng)站內(nèi)部的網(wǎng)頁(yè)鏈接由網(wǎng)站內(nèi)容采編發(fā)布系統(tǒng)決定,其鏈接次數(shù)存在偶然因素,不能作為判別重要性的依據(jù)。真正的企業(yè)應(yīng)用的檢索要求基于內(nèi)容的相關(guān)性排序,就是說(shuō),和檢索要求最相關(guān)的信息排在檢索結(jié)果的前面,鏈接分析技術(shù)此種排序基本不起作用。

  三是實(shí)時(shí)性。搜索引擎的索引生成和檢索服務(wù)是分開的,周期性更新和同步數(shù)據(jù),大的搜索引擎的更新周期需要以周乃至月度量;而企業(yè)信息檢索需要實(shí)時(shí)反映內(nèi)外信息變化,搜索引擎系統(tǒng)機(jī)制并不能適應(yīng)企業(yè)中動(dòng)態(tài)性數(shù)據(jù)增長(zhǎng)和修改的要求。

  四是安全性?;ヂ?lián)網(wǎng)搜索引擎都基于文件系統(tǒng),但企業(yè)應(yīng)用中內(nèi)容一般均會(huì)安全和集中地存放在數(shù)據(jù)倉(cāng)庫(kù)中以保證數(shù)據(jù)安全和管理的要求。

  五是個(gè)性化和智能化。由于搜索引擎數(shù)據(jù)和客戶規(guī)模的限制,相關(guān)反饋、知識(shí)檢索、知識(shí)挖掘等計(jì)算密集的智能技術(shù)很難應(yīng)用,而專門針對(duì)企業(yè)的信息檢索應(yīng)用能在智能化和個(gè)性走得更遠(yuǎn)。

  信息檢索的起源

  信息檢索起源于圖書館的參考咨詢和文摘索引工作,從19世紀(jì)下半葉首先開始發(fā)展,至20世紀(jì)40年代,索引和檢索成已為圖書館獨(dú)立的工具和用戶服務(wù)項(xiàng)目。

  隨著1946年世界上第一臺(tái)電子計(jì)算機(jī)問(wèn)世,計(jì)算機(jī)技術(shù)逐步走進(jìn)信息檢索領(lǐng)域,并與信息檢索理論緊密結(jié)合起來(lái);脫機(jī)批量情報(bào)檢索系統(tǒng)、聯(lián)機(jī)實(shí)時(shí)情報(bào)檢索系統(tǒng)相繼研制成功并商業(yè)化,20世紀(jì)60年代到80年代,在信息處理技術(shù)、通訊技術(shù)、計(jì)算機(jī)和數(shù)據(jù)庫(kù)技術(shù)的推動(dòng)下,信息檢索在教育、軍事和商業(yè)等各領(lǐng)域高速發(fā)展,得到了廣泛的應(yīng)用。Dialog國(guó)際聯(lián)機(jī)情報(bào)檢索系統(tǒng)是這一時(shí)期的信息檢索領(lǐng)域的代表,至今仍是世界上最著名的系統(tǒng)之一。

本文地址:http://www.FullSearcher.Com/n200491595254735.asp
網(wǎng)站地址:http://www.FullSearcher.Com/
文章來(lái)源:
本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
語(yǔ)義搜索引擎綜述
醫(yī)學(xué)文獻(xiàn)檢索
高中信息技術(shù)《因特網(wǎng)信息資源檢索》練習(xí)題(含解析)
搜索引擎發(fā)展綜述_eric的空間
信息檢索初級(jí)篇
搜索引擎要涉及的專業(yè)知識(shí)要點(diǎn)分析
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服