某業(yè)內(nèi)人士對商業(yè)智能在現(xiàn)代社會的重要性曾做過如下比喻,《世說新語》中講: "盲人騎瞎馬,夜半臨深池。" 這短短十個字隱藏了四個危險:由無知的經(jīng)理人來經(jīng)營企業(yè),就如同"盲人騎馬",這是第一個危險;依賴無知的員工,就如同"騎瞎馬",這是第二個危險;參與激烈的市場競爭,就如同"臨深池", 這是第三個危險;在全球經(jīng)濟不景氣的時候參與激烈的市場競爭,就如同"夜半臨深池",這是第四個危險。所以"無知",已成為企業(yè)最大的威脅。
互聯(lián)時代,網(wǎng)絡(luò)中充斥著海量信息,企業(yè)需要對它們進行合理及有效地利用,從而幫助企業(yè)在業(yè)務(wù)管理及發(fā)展上做出及時、正確的判斷,然后采取明智的行動,做到在競爭中占據(jù)主動權(quán)。互聯(lián)網(wǎng)上流傳著這樣一個"尿布和啤酒"的經(jīng)典故事:美國一家大型超市利用數(shù)據(jù)挖掘技術(shù)來分析他們的銷售紀(jì)錄,發(fā)現(xiàn)尿布和啤酒的銷售量之間存在相當(dāng)大的關(guān)聯(lián)性。經(jīng)過進一步的調(diào)查,找到了產(chǎn)生這個現(xiàn)象的原因,在美國負責(zé)為孩子購買尿布的年輕父親們,很多時候會順帶給自己買些啤酒,于是超市采取措施將尿布和啤酒放在一起,結(jié)果兩種產(chǎn)品的銷售量都得到了增長。由此可見,數(shù)據(jù)爆炸時代,"商業(yè)智能"(BI)能夠摒棄企業(yè)的無知,為企業(yè)發(fā)展創(chuàng)造出巨大的價值。
另外,我們也應(yīng)了解在信息社會,信息并不是單一的,而是分為兩大類:一類信息為結(jié)構(gòu)化數(shù)據(jù),如數(shù)字、符號;而另一類信息無法用數(shù)字或統(tǒng)一的結(jié)構(gòu)表示,我們稱之為非結(jié)構(gòu)化數(shù)據(jù)。目前,隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,特別是Internet和Intranet技術(shù)的飛快發(fā)展,非結(jié)構(gòu)化數(shù)據(jù)的數(shù)量日趨增大。據(jù)統(tǒng)計,現(xiàn)今企業(yè)中80%的數(shù)據(jù)是以非結(jié)構(gòu)化的形式存在,如WEB頁面、技術(shù)文檔、電子郵件等。因此,商業(yè)智能除了要面對結(jié)構(gòu)化數(shù)據(jù)外,更多時候是需要處理無序的非結(jié)構(gòu)化數(shù)據(jù)。于是,一個從非結(jié)構(gòu)化文本信息中獲取用戶感興趣或有用信息的技術(shù)--"文本挖掘技術(shù)"發(fā)展起來,人們常說的文本驅(qū)動的商業(yè)智能,就是指的文本挖掘技術(shù)。
文本挖掘是數(shù)據(jù)挖掘技術(shù)的分支,它能夠使人們從大量冗余的信息中迅速發(fā)現(xiàn)對自己有用的信息,并在一定程度上揭示信息與信息之間的關(guān)聯(lián)。有人說文本挖掘是互聯(lián)網(wǎng)時代,繼門戶、搜索引擎和Web2.0之后最重要的技術(shù)之一,紐約時報甚至稱它為Web3.0。
文本挖掘作為人們挑戰(zhàn)信息爆炸式增長與信息有效利用之間矛盾的重要武器,受到世界的廣泛認可,目前國際上許多企業(yè)都在進行文本挖掘技術(shù)的研究,并取得一定成績。但在我國,文本挖掘技術(shù)發(fā)展歷史比較短。某一業(yè)內(nèi)人士說:"雖然我國文本挖掘技術(shù)的發(fā)展研究還處于初級階段,但想把國外的文本挖掘技術(shù)直接在我國進行利用,可以說是一件比較困難的事情,因為中文與西方文字是不同。如我要搜索'可樂'一詞,國外的技術(shù)可能會把'太可樂了'等眾多不相關(guān)詞語搜索出來。"
比較而言,國內(nèi)本土的軟件企業(yè)在發(fā)展文本挖掘技術(shù)上卻具有先天優(yōu)勢,如在中文分詞,習(xí)慣用語理解等方面。另外,做好中文文本挖掘技術(shù)還需要超越絕大多數(shù)現(xiàn)有搜索引擎所采用的單純基于特定關(guān)鍵字的查找匹配方式,而要在一定程度上去實現(xiàn)基于語義的搜索,即無論文中出現(xiàn)的是"筆記本","本本",還是"laptop",當(dāng)我們在查找"筆記本"時,這篇文章都應(yīng)該作為結(jié)果返回。但滿足以上要求并不是容易的事情,它需要在數(shù)據(jù)庫和信息檢索技術(shù)等方面具有長期的積累、也需要算法的高效,系統(tǒng)的穩(wěn)定和可擴展性。
據(jù)了解,在數(shù)量眾多的擁有文本挖掘技術(shù)的廠商中,北京拓爾思(TRS)信息技術(shù)股份有限公司是國內(nèi)第一家擁有真正實用化文本挖掘產(chǎn)品的企業(yè)。TRS文本挖掘技術(shù)有效結(jié)合自然語言處理技術(shù)、統(tǒng)計分析和機器學(xué)習(xí)技術(shù)及語言知識庫,實現(xiàn)了中文文本挖掘技術(shù)的商業(yè)化應(yīng)用,并在外交部、新華社、寶鋼等多家政府、媒體和企業(yè)項目中經(jīng)受住了海量信息和復(fù)雜環(huán)境的考驗。
根據(jù)2007-2008中國商業(yè)智能市場發(fā)展報告統(tǒng)計:從全球范圍來看,商業(yè)智能已經(jīng)成為最具有前景的信息化領(lǐng)域;從國內(nèi)來看,商業(yè)智能是企業(yè)信息化中最重要的組成部分。但在我國,文本挖掘畢竟是一門新興的前沿技術(shù),還有諸多問題等待研究、解決,同時也需要對人才進行儲備。為了推動文本挖掘技術(shù)整體水平向前發(fā)展;尋找、發(fā)現(xiàn)、選拔更多的高知識型專業(yè)挖掘技術(shù)人才投入到文本挖掘事業(yè)中來,為文本挖掘技術(shù)的前進提供有力的后續(xù)保障,"數(shù)據(jù)挖掘研究院"聯(lián)手TRS公司共同舉辦了"2008 TRS杯中國首屆文本挖掘智能大賽"。
商業(yè)智能提升了企業(yè)對市場的洞察力,文本挖掘成就了商業(yè)智能在互聯(lián)時代的重要作用。不難想象,隨著社會經(jīng)濟的快速發(fā)展,文本挖掘技術(shù)的應(yīng)用將越來越廣泛,商業(yè)智能也必將成為企業(yè)在競爭中克敵制勝的有效武器之一。這里,筆者衷心祝愿大賽的舉辦取得圓滿成功,同時也希望此項賽事能真正為致力于文本挖掘事業(yè)的人們搭起一座溝通的橋梁和相互學(xué)習(xí)的園地,讓中文文本挖掘技術(shù)取得更快的進步。
本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請
點擊舉報。