以上就是個人搜索范疇,而實際工作中,我們還需要企業(yè)級搜索,那就是在專有的企業(yè)網(wǎng)絡中,準確、安全地搜索企業(yè)數(shù)據(jù),特別是各種非結(jié)構(gòu)化數(shù)據(jù)信息。
針對企業(yè)搜索,IDC給出了這樣的解釋,"企業(yè)級搜索是一種組織的需求,屬于搜索引擎的高級應用。企業(yè)用戶對信息的需求不僅僅限于簡單的查詢結(jié)果,而是結(jié)合搜索、數(shù)據(jù)庫查詢、語義和句法分析、分類和聚類、相關性分析等技術,整合現(xiàn)有的信息資源,提煉出具有商業(yè)價值或社會價值的數(shù)據(jù)支持。"
準確搜索的前提:理解非結(jié)構(gòu)化數(shù)據(jù)
要整合企業(yè)網(wǎng)絡內(nèi)部的信息資源,首先要面對的就是:占企業(yè)所有數(shù)據(jù)中80%的各種各樣非結(jié)構(gòu)化數(shù)據(jù)信息,例如電話交談記錄、語音留言、電子郵件、Word 文檔、紙質(zhì)文檔、圖像、網(wǎng)頁、視頻以及數(shù)以百計其他形式的內(nèi)容。(結(jié)構(gòu)化數(shù)據(jù)指:與數(shù)據(jù)庫相關的數(shù)據(jù),例如Oracle、Lotus Notes、ODBC 兼容類型數(shù)據(jù))
對于這些非結(jié)構(gòu)化的數(shù)據(jù)信息,我們?nèi)狈δ軌蚶斫獠⒂行Ю眠@些內(nèi)容的技術,這一內(nèi)容豐富而又充滿戰(zhàn)略意義的資源常常無法發(fā)揮其作用。在這種情況下,我們通常會通過人力手工的方式,去分類、歸檔,而這種方式必然是低效的。
當前,有包括關鍵詞、布爾值、參數(shù)在內(nèi)的各種傳統(tǒng)搜索方法。而Autonomy采用了建立在模式識別計算技術(非線性自適應數(shù)字訊號處理)以及語境語言分析基礎上的創(chuàng)新語義識別搜索功能。這種搜索方式避免了關鍵詞搜索方式容易產(chǎn)生的不準確信息,在信息量巨大的搜索中顯得更加有效。同時,這種搜索方式不依賴語言、語種或語意,它完全把語言和文字當成一種數(shù)學符號來處理,這樣可以很快把系統(tǒng)移植到不同的語言中去。
模式識別計算技術主要基于兩個基本理論:貝葉斯概率論和香農(nóng)信息論。
如果一枚硬幣被連續(xù)拋100次,每次都是正面朝上,那么,拋第101次時,正面朝上的概率是多少?傳統(tǒng)統(tǒng)計學觀點的推論是:50%。而貝葉斯概率論則認為:100次連續(xù)正面朝上,證明該硬幣不均衡或兩面均為正面,所以拋第101次時正面朝上的概率會大大高于50%。 可見,貝葉斯的理論更加接近人的大腦思維邏輯。
香農(nóng)信息論則認為,出現(xiàn)頻率越小的信息單元,代表的信息量越大。這也可以解釋這樣的現(xiàn)象:在一個嘈雜的房子中,我們盡管不能完全聽清楚對方所有的話,但我們還是能聽懂對方說話的意思。也就是說,每個信息載體會包含大量重復的冗余信息,在對這些信息的處理過程中,冗余信息的權(quán)重要低得多,甚至可以忽略。而在關鍵詞搜索中,則相反,一個單詞出現(xiàn)的頻率越高,則該詞的重要程度越高。
正是基于這兩個基本理論,Autonomy在海量信息處理中取得了巨大成功。
企業(yè)搜索的關鍵:安全性
在搜索市場,有Google、Baidu、Yahoo等重點廠商,而在企業(yè)搜索市場,Autonomy卻遠超過了Google等。
據(jù)Autonomy公司中國區(qū)銷售總監(jiān)石建強介紹,"現(xiàn)在在國外企業(yè)搜索市場,我們幾乎見不到google影子了。"
為何在企業(yè)搜索市場,Google、Baidu不敵Autonomy?
其原因除了前面提到的搜索技術外,更重要的是安全性問題。
在企業(yè)搜索的應用中,原則是我們能夠搜索到企業(yè)內(nèi)部網(wǎng)絡中所有電腦中的數(shù)據(jù),然而這個過程中,安全性顯得格外重要。例如,不允許公司的前臺接線員搜索到CEO的郵件,也不會容忍保潔工看到單位某些內(nèi)部關鍵文檔。
此前,曾發(fā)生過用戶使用某種桌面搜索工具,在使用過程中,需要經(jīng)過長時間的文檔索引整理及備份,然而在這個過程中,該用戶電腦的數(shù)據(jù),卻通過網(wǎng)絡,被桌面搜索廠商傳到了美國加州的機房。
正是因為這些問題,Autonomy等專注企業(yè)搜索的廠商,對安全性非常重視,例如,員工權(quán)限的嚴格設置等。石建強介紹到,Autonomy有很好的權(quán)限控制的機制,例如,有一種叫硬涉及的權(quán)限的控制機制,搜索的時候我同時保證信息的權(quán)限和安全性,Autonomy對信息抓取的過程中會把信息的權(quán)限一同采集過來,然后搜索過程中放到權(quán)限平臺中去匹配你的信息,這個對效率沒有任何影響,目前在國內(nèi)大型企業(yè)都廣泛采用,比如說像格調(diào)。