信息化的風(fēng)起云涌,提升了工作效率,也創(chuàng)造了更多的價(jià)值。與此同時(shí),信息化的發(fā)展也帶來(lái)了信息積累效應(yīng)。短短幾年間實(shí)現(xiàn)了基礎(chǔ)的信息化建設(shè)的企業(yè)累積了海量的數(shù)據(jù),這些都是企業(yè)的寶貴“財(cái)富”,如果不能有效利
用,只會(huì)形成占用IT資源的信息垃圾。而這些信息往往分散在企業(yè)的各個(gè)角落,找到它們?nèi)缤?#8220;大海撈針”。
在信息化發(fā)展快速的國(guó)家,對(duì)于挖掘這些信息的需求帶動(dòng)了企業(yè)級(jí)搜索市場(chǎng)的快速發(fā)展。美國(guó)Ovum Report在對(duì)全球軟件市場(chǎng)所做的研究報(bào)告也指出,企業(yè)內(nèi)部的檢索需求與Google,Yahoo式的Web檢索需求是相當(dāng)?shù)?,呈向上增長(zhǎng)的趨勢(shì),全球企業(yè)檢索技術(shù)的市場(chǎng)規(guī)模到2006年將成長(zhǎng)288%,達(dá)15.13億美元。專(zhuān)家預(yù)計(jì),中國(guó)市場(chǎng)將成為最新的全球增長(zhǎng)點(diǎn)。年初,企業(yè)搜索市場(chǎng)的領(lǐng)導(dǎo)者Autonomy收購(gòu)了其強(qiáng)大的競(jìng)爭(zhēng)對(duì)手Verity后,對(duì)中國(guó)市場(chǎng)更是“志在必得”。這一領(lǐng)域也同樣吸引了其他廠商的關(guān)注。
日前,IBM與百度共同簽署一項(xiàng)技術(shù)合作備忘錄,協(xié)作拓展硬盤(pán)搜索的應(yīng)用領(lǐng)域,幫助用戶(hù)從海量資料中快速地找到想要的信息,實(shí)現(xiàn)企業(yè)信息流的高效協(xié)作。
企業(yè)搜索的挑戰(zhàn)
今天的企業(yè)員工通常要在大量的文件中找到所需資料。比如說(shuō),員工要完成某份報(bào)告就必須弄清楚很多事情,查找大量的信息。這些信息有可能分散在企業(yè)的各個(gè)部分,既要從技術(shù)人員那邊獲得設(shè)計(jì)數(shù)據(jù),又要向市場(chǎng)部門(mén)詢(xún)問(wèn)銷(xiāo)售情況。由于時(shí)間久遠(yuǎn),有時(shí)連相關(guān)人員都無(wú)法給你滿(mǎn)意的答復(fù)。其實(shí)這些信息數(shù)以不同的形態(tài)存在在很多不同的系統(tǒng)里邊,關(guān)鍵是你如何找到它們。
相比那些結(jié)構(gòu)化數(shù)據(jù),目前非結(jié)構(gòu)化數(shù)據(jù)占據(jù)了大量的企業(yè)信息資源。據(jù)權(quán)威機(jī)構(gòu)統(tǒng)計(jì),在所有存儲(chǔ)的數(shù)據(jù)中,有85%采用的是非結(jié)構(gòu)化格式。這就為搜索提出了新的課題。廠商也都將解決企業(yè)級(jí)搜索的關(guān)鍵聚焦在非結(jié)構(gòu)化數(shù)據(jù)的挖掘上。IBM中國(guó)研究院院長(zhǎng)李實(shí)恭認(rèn)為,相對(duì)于網(wǎng)絡(luò)搜索,這就是企業(yè)搜索要面臨的挑戰(zhàn)。網(wǎng)絡(luò)搜尋要找到很多,而在企業(yè)搜尋則是為了不漏掉任何一個(gè)。
針對(duì)這一挑戰(zhàn),企業(yè)搜索領(lǐng)域的領(lǐng)導(dǎo)廠商Autonomy提出了智能搜索的概念。利用這種技術(shù),可以搜索多種文本格式內(nèi)容,如Text、Word、Excel、PPT、PDF,以及各種數(shù)據(jù)庫(kù)中的數(shù)據(jù)格式,甚至還可以搜索多媒體文檔內(nèi)容;而且不僅可以搜索互聯(lián)網(wǎng)內(nèi)容,還可以搜索本機(jī)和局域網(wǎng)上的內(nèi)容。這大大拓展了企業(yè)搜索的應(yīng)用空間。
據(jù)悉,IBM與百度的此次合作其目標(biāo)也指向了非結(jié)構(gòu)化數(shù)據(jù)。雙方將在UIMA(Unstructured Information ManagementArchitecture)技術(shù)進(jìn)行廣泛合作。UIMA作為IBM研究部門(mén)和軟件部門(mén)共同設(shè)計(jì)和開(kāi)發(fā)的非結(jié)構(gòu)化信息管理架構(gòu),客戶(hù)可以在此基礎(chǔ)上繼續(xù)開(kāi)發(fā)符合自己領(lǐng)域和行業(yè)應(yīng)用的文本分析模塊。
“智能”應(yīng)對(duì)
目前,IBM公司的研究和開(kāi)發(fā)部門(mén)已經(jīng)在UIMA平臺(tái)上實(shí)現(xiàn)了包括詞法分析(支持英文和中文等一類(lèi)語(yǔ)言)、句法分析、知識(shí)庫(kù)、問(wèn)答系統(tǒng)、文本檢索、機(jī)器翻譯等多種自然語(yǔ)言處理功能,算法上覆蓋了統(tǒng)計(jì)算法、規(guī)則算法、機(jī)器學(xué)習(xí)。從現(xiàn)狀看,UIMA更像是一個(gè)大的平臺(tái),它提供的是一個(gè)接口,不同用戶(hù)根據(jù)自己的實(shí)際進(jìn)行有針對(duì)性、個(gè)性化的二次開(kāi)發(fā)。
Autonomy則采用的是一種完全不同的實(shí)現(xiàn)方式。Autonomy智能搜索技術(shù)關(guān)注詞語(yǔ)在文檔中的邏輯關(guān)系。它綜合考慮詞語(yǔ)出現(xiàn)的上下文,同時(shí)又能夠查找到那些可能不包含具體詞語(yǔ)、但是包含相關(guān)概念的文檔。除此之外,它還可以實(shí)現(xiàn)概念提煉或基于例子的提煉。大部分用戶(hù)都可以指定一個(gè)或多個(gè)更相關(guān)的初始結(jié)果和請(qǐng)求,利用精選內(nèi)容中完整的上下文,Autonomy能夠真正聚焦用戶(hù)所感興趣而且適合的概念結(jié)果。
使用者可以對(duì)搜索需求進(jìn)行詳細(xì)地描述,Autonomy智能搜索技術(shù)根據(jù)對(duì)于搜索需求的邏輯思維,提供一套接近人們需求的一種信息(流)組合。通過(guò)Autonomy特有的信息呈現(xiàn)技術(shù),使用者不僅能夠看到搜索結(jié)果,還可以發(fā)現(xiàn)它們之間的邏輯聯(lián)系,以及信息流向的趨勢(shì),從而作出快速準(zhǔn)確的決策。以信息流的發(fā)展順序?yàn)閷?dǎo)向,Autonomy不僅能夠挖掘已知信息,還能獲得未知信息,將企業(yè)財(cái)富最大化。
Autonomy的智能搜索技術(shù)已經(jīng)在包括全球500強(qiáng)在內(nèi)的企業(yè)中得到廣泛應(yīng)用,相信隨著國(guó)內(nèi)企業(yè)信息化需求的升級(jí),智能搜索將成為挖掘企業(yè)內(nèi)部財(cái)富的重要手段。(AMT)
聯(lián)系客服