国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開(kāi)APP
userphoto
未登錄

開(kāi)通VIP,暢享免費(fèi)電子書(shū)等14項(xiàng)超值服

開(kāi)通VIP
商務(wù)智能架構(gòu)及其技術(shù)的討論
  BI是什么?BI(Business Intelligence)的中文譯名是商務(wù)智能,關(guān)于這個(gè)名詞的定義很多,比較嚴(yán)謹(jǐn)?shù)亩x如下:
“商務(wù)智能是企業(yè)利用現(xiàn)代信息技術(shù)收集、管理和分析結(jié)構(gòu)化和非結(jié)構(gòu)化的商務(wù)數(shù)據(jù)和信息,創(chuàng)造和累計(jì)商務(wù)知識(shí)和見(jiàn)解,改善商務(wù)決策水平,采取有效的商務(wù)行動(dòng),完善各種商務(wù)流程,提升各方面商務(wù)績(jī)效,增強(qiáng)綜合競(jìng)爭(zhēng)力的智慧和能力。”(作者:王茁)
也有比較簡(jiǎn)潔的定義:商務(wù)智能好比“數(shù)據(jù)煉油廠”,即把商業(yè)活動(dòng)中累積的數(shù)據(jù)加工成可用于支持商業(yè)決策的信息。
資料來(lái)源:美國(guó)數(shù)據(jù)倉(cāng)庫(kù)研究院(www.dw-institute.com

    BI是如何產(chǎn)生的?這需要從傳統(tǒng)的商務(wù)交易系統(tǒng)講起。
最初在商務(wù)交易中引入計(jì)算機(jī)輔助管理時(shí),開(kāi)發(fā)人員是根據(jù)企業(yè)已規(guī)定好的業(yè)務(wù)規(guī)則來(lái)編寫(xiě)交易系統(tǒng)。此時(shí)的商務(wù)系統(tǒng),其主要目的是讓“商務(wù)流程自動(dòng)化”,從而縮短業(yè)務(wù)周期,提高效率,增強(qiáng)企業(yè)的競(jìng)爭(zhēng)力,最終為企業(yè)創(chuàng)造更大的利潤(rùn)?,F(xiàn)今,絕大部分大、中型商業(yè)公司都已在內(nèi)部或多或少的引入的計(jì)算機(jī)輔助商務(wù)管理系統(tǒng)。
隨著計(jì)算機(jī)在商業(yè)管理中的普及,公司的高層管理人員有了更近一步的需求,即其企業(yè)的部門(mén)框架和業(yè)務(wù)規(guī)則隨著社會(huì)分工的日益細(xì)化,而不斷的發(fā)生變動(dòng)。而且,其中蘊(yùn)含了不少的新的商機(jī),精明的經(jīng)理們當(dāng)然不希望錯(cuò)過(guò)這些能讓企業(yè)更上層樓的機(jī)會(huì)了,而原有的商務(wù)管理系統(tǒng)面對(duì)日益變化的業(yè)務(wù)規(guī)則逐漸變得力不從心。
因此,軟件廠商針對(duì)新出現(xiàn)的商業(yè)部門(mén)和業(yè)務(wù)規(guī)則,推出了一系列的自成體系的,專門(mén)針對(duì)某塊商業(yè)數(shù)據(jù)管理的管理軟件,如財(cái)務(wù)管理軟件,客戶關(guān)系管理軟件,產(chǎn)品數(shù)據(jù)管理軟件,人力資源管理軟件等。但是,這些自成體系的的管理軟件之間,數(shù)據(jù)很難共享,從而在企業(yè)各個(gè)部門(mén)之間形成了“信息孤立”的局面。
    于是,軟件廠商又推出了更大塊集成的企業(yè)資源規(guī)劃(ERP)系統(tǒng),把之前推出的各塊獨(dú)立的管理系統(tǒng)整合起來(lái)。但是,單單把各個(gè)商務(wù)部門(mén)的管理軟件集成起來(lái),是否真的就是企業(yè)真正需要的“能適應(yīng)商務(wù)變化”的整體解決方案呢?
我認(rèn)為:如果僅僅針對(duì)目前的商務(wù)活動(dòng)和業(yè)務(wù)規(guī)則打包,答案一定是NO! 這個(gè)答案也早就被相關(guān)方面的專家所確定。那么,如何才能真正把各個(gè)商業(yè)部門(mén)之間的商務(wù)數(shù)據(jù)集成起來(lái),從中預(yù)測(cè)商務(wù)變化,找到潛在商機(jī),為商業(yè)決策提供數(shù)據(jù)支持呢?答案就是BI。
   不過(guò),BI的范圍太廣太大,在實(shí)際商務(wù)中我們往往只需運(yùn)用其中的某個(gè)部分就可以暫時(shí)滿足企業(yè)的需求,如數(shù)據(jù)倉(cāng)庫(kù),聯(lián)機(jī)事務(wù)分析(OLAP),數(shù)據(jù)挖掘,決策支持系統(tǒng)(DDS)等。其實(shí),整個(gè)BI的框架結(jié)構(gòu)可以用下面的圖中間的三部分(數(shù)據(jù)預(yù)處理、數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)分析)來(lái)表示:


現(xiàn)在決大多數(shù)企業(yè)已在其一個(gè)或多個(gè)部門(mén)內(nèi)采用了計(jì)算機(jī)商務(wù)管理系統(tǒng),也累積了相當(dāng)?shù)纳虡I(yè)數(shù)據(jù)。然而,正如業(yè)內(nèi)的那句老話“rich data, poor information”,以前累積的數(shù)據(jù),并沒(méi)有很好的得到利用。Why?并不是企業(yè)高層管理人員沒(méi)有想到,而是這些數(shù)據(jù)來(lái)源太廣,格式不統(tǒng)一,并且其中極少量的數(shù)據(jù)記錄格式不正確;同時(shí),累計(jì)的數(shù)據(jù)量相當(dāng)龐大,上百萬(wàn)條記錄才剛起步,某些大型公司每天所產(chǎn)生的商業(yè)記錄已過(guò)千萬(wàn);而且,某些細(xì)節(jié)對(duì)高層管理人員來(lái)說(shuō)并不重要。他們需要的是一份站在戰(zhàn)略層角度統(tǒng)觀全局,及時(shí)的,在短時(shí)間內(nèi)可以讀完,為企業(yè)決策服務(wù)的統(tǒng)計(jì)報(bào)表。
為了實(shí)現(xiàn)這一艱巨的目標(biāo),BI專家把任務(wù)分解成了三個(gè)子任務(wù):
  1)為了整合各種格式的數(shù)據(jù),清除原有數(shù)據(jù)中的錯(cuò)誤記錄,專家們提出了數(shù)據(jù)預(yù)處理的要求——STL(數(shù)據(jù)抽取、轉(zhuǎn)換、裝載);
  2)對(duì)預(yù)處理過(guò)數(shù)據(jù),應(yīng)該統(tǒng)一集中起來(lái),由此產(chǎn)生了元數(shù)據(jù)(Meta data)、數(shù)據(jù)倉(cāng)庫(kù)(Data Warehouse);
  3)最后,對(duì)于集中起來(lái)的龐大的數(shù)據(jù)集,還應(yīng)進(jìn)行相應(yīng)的專業(yè)統(tǒng)計(jì),從中發(fā)掘出對(duì)企業(yè)決策有價(jià)值的新的機(jī)會(huì),這就是OLAP(聯(lián)機(jī)事務(wù)分析)和數(shù)據(jù)挖掘(Data Mining)。

  下面具體介紹一下每個(gè)子任務(wù)所需要用到的專業(yè)技術(shù)和輔助工具。
  1)數(shù)據(jù)預(yù)處理(STL:Extraction,Transformation,Load)

  當(dāng)早期大型的在線事務(wù)處理系統(tǒng)(OLTP)問(wèn)世后不久,就出現(xiàn)了一種用于“抽取”處理的簡(jiǎn)單程序,其作用是搜索整個(gè)文件和數(shù)據(jù)庫(kù),使用某些標(biāo)準(zhǔn)選擇合乎要求的數(shù)據(jù),將其復(fù)制拷貝出來(lái),用于總體分析。因?yàn)檫@樣做不會(huì)影響正在使用的在線事務(wù)處理系統(tǒng),降低其性能,同時(shí),用戶可以自行控制抽取出來(lái)的數(shù)據(jù)。但是,現(xiàn)在情況發(fā)生了巨大的變化,企業(yè)同時(shí)采用了多個(gè)在線事務(wù)處理系統(tǒng),而這些系統(tǒng)之間的數(shù)據(jù)定義格式不盡相同,即使采用同一軟件廠商提供的不同軟件產(chǎn)品,或者僅僅是產(chǎn)品版本不同,之間的數(shù)據(jù)定義格式也有少許差距。由此,我們必須先定義一個(gè)統(tǒng)一的數(shù)據(jù)格式,然后把各個(gè)來(lái)源的數(shù)據(jù)按新的統(tǒng)一的格式進(jìn)行轉(zhuǎn)換,然后集中裝載入數(shù)據(jù)倉(cāng)庫(kù)中。

  其中,尤其要注意的一點(diǎn)時(shí),并不是各個(gè)來(lái)源的不同格式的所有數(shù)據(jù)都能被新的統(tǒng)一格式包容,我們也不應(yīng)強(qiáng)求非要把所有數(shù)據(jù)源的數(shù)據(jù)全部集中起來(lái)。Why?原因很多。有可能原來(lái)錄入的數(shù)據(jù)中,少量的記錄使用了錯(cuò)誤的數(shù)據(jù),這類數(shù)據(jù)如果無(wú)法校正,應(yīng)該被舍去。某些數(shù)據(jù)記錄是非結(jié)構(gòu)化的,很難將其轉(zhuǎn)化成新定義的統(tǒng)一格式,而且從中抽取信息必須讀取整個(gè)文件,效率極低,如大容量的二進(jìn)制數(shù)據(jù)文件,多媒體文件等,這類數(shù)據(jù)如果對(duì)企業(yè)決策不大,可以舍去。

  目前已有一部分軟件廠商開(kāi)發(fā)出專門(mén)的ETL工具,其中包括:
  ·Ardent DataStage
  ·Evolutionary Technologies,Inc. (ETI) Extract
  ·Information Powermart
  ·Sagent Solution
  ·SAS Institute
  ·Oracle Warehouse Builder
  ·MSSQL Server2000 DTS

  2)數(shù)據(jù)倉(cāng)庫(kù)  

  上面提到,在進(jìn)行STL之前,需要先定義一個(gè)統(tǒng)一的數(shù)據(jù)格式。那么,定義出來(lái)的統(tǒng)一的數(shù)據(jù)格式是否需要保存起來(lái),以便在數(shù)據(jù)倉(cāng)庫(kù)日后的演化中使用呢?Yes!隨著企業(yè)不斷變化的商業(yè)模式和業(yè)務(wù)規(guī)則,肯定需要對(duì)系統(tǒng)進(jìn)行修改和功能升級(jí)。如果弄不清楚之前定義的數(shù)據(jù)格式的具體含義,我們將無(wú)從下手。所以,我們需要一種用來(lái)描述數(shù)據(jù)的數(shù)據(jù)。早期我們使用的是數(shù)據(jù)字典(Data Dictionary),數(shù)據(jù)字典一般包括數(shù)據(jù)的定義、關(guān)系、來(lái)源、作用域、格式和用法。但是,隨著時(shí)間的推移,專家們發(fā)現(xiàn),越來(lái)越多的已搭建好的數(shù)據(jù)倉(cāng)庫(kù)希望方便的包容最新的各種格式的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),而傳統(tǒng)的基于關(guān)系型數(shù)據(jù)庫(kù)的數(shù)據(jù)字典并不能達(dá)成這一目標(biāo)。

  xml出世之后,這種自描述,可無(wú)限嵌套擴(kuò)展,平臺(tái)獨(dú)立性的文本數(shù)據(jù)格式為數(shù)據(jù)字典的進(jìn)化提供了相當(dāng)重要的技術(shù)支持,由此產(chǎn)生了基于xml的元數(shù)據(jù)的概念。并且,目前已有不少的軟件系統(tǒng)和數(shù)據(jù)倉(cāng)庫(kù)都采用了xml格的元數(shù)據(jù)。如微軟的.Net,P2P的EMule等。由此可見(jiàn),元數(shù)據(jù)并不單單局限運(yùn)用在數(shù)據(jù)倉(cāng)庫(kù)中。

  由于基于xml的元數(shù)據(jù)相當(dāng)靈活,我們可以用元數(shù)據(jù)來(lái)描述復(fù)雜的商業(yè)業(yè)務(wù)定義。所以,現(xiàn)在數(shù)據(jù)倉(cāng)庫(kù)中的元數(shù)據(jù)分為兩種:技術(shù)元數(shù)據(jù)和業(yè)務(wù)元數(shù)據(jù)。技術(shù)元數(shù)據(jù)(technical meta data)是為企業(yè)技術(shù)用戶和IT部門(mén)的員工提供支持的元數(shù)據(jù),對(duì)于維護(hù)和改進(jìn)系統(tǒng)來(lái)所至關(guān)重要。而業(yè)務(wù)元數(shù)據(jù)(business meta data)是為企業(yè)業(yè)務(wù)用戶提供支持的元數(shù)據(jù),使業(yè)務(wù)用戶更容易理解統(tǒng)計(jì)報(bào)表中的信息。

  元數(shù)據(jù)工具分為兩類:一類是將各種元數(shù)據(jù)集成到集中式倉(cāng)儲(chǔ)的集成工具,另一類是在倉(cāng)儲(chǔ)上執(zhí)行查詢?cè)L問(wèn)的訪問(wèn)工具。一般來(lái)說(shuō),大多數(shù)軟件廠商所提供的數(shù)據(jù)倉(cāng)庫(kù)、BI系統(tǒng)中都捆綁了相應(yīng)的工具。其中包括:
  ·Ardent MetaStage (Infomix)
  ·IBM information Catalog
  ·Brio Enterprise
  ·Business Objects
  ·Cognos Impromptu及Powerplau
  ·Information Advantage Business Intelligence
  ·Microsoft OLAP Services ("Plato")
  ·Microstrategy DSS Web and Server

  數(shù)據(jù)倉(cāng)庫(kù)是BI的基礎(chǔ),就好比廚師的食材。各個(gè)數(shù)據(jù)源的數(shù)據(jù)經(jīng)ETL的預(yù)處理后,就被送進(jìn)了數(shù)據(jù)倉(cāng)庫(kù)中。數(shù)據(jù)倉(cāng)庫(kù)有如下4個(gè)重要特性:
 ?、倜嫦蛑黝}的:不同類型的公司,其主題集合是不相同的。
  ②集成的:數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)來(lái)源很廣,數(shù)據(jù)倉(cāng)庫(kù)最重要的目的就是為了集成這些不同數(shù)據(jù)源的數(shù)據(jù)。
 ?、鄯且资У模汉蛡鹘y(tǒng)的操作型數(shù)據(jù)庫(kù)系統(tǒng)相比,數(shù)據(jù)倉(cāng)庫(kù)通常是以批量方式載入和訪問(wèn)。而且,對(duì)于數(shù)據(jù)倉(cāng)庫(kù)中的記錄,并不進(jìn)行一般意義上的數(shù)據(jù)更新,刪除。所有的歷史數(shù)據(jù)都會(huì)被保留,通常我們只是不停的批量導(dǎo)入新的數(shù)據(jù)。
 ?、茈S時(shí)間變化的:操作型數(shù)據(jù)庫(kù)系統(tǒng)出于性能上的考慮,并不保存系統(tǒng)投入運(yùn)行后所產(chǎn)生的所有數(shù)據(jù),一般只保留最新的60~90天內(nèi)所產(chǎn)生的數(shù)據(jù)記錄。而且,通常情況下,操作型數(shù)據(jù)庫(kù)中一項(xiàng)業(yè)務(wù)活動(dòng)只占用一條記錄。當(dāng)業(yè)務(wù)狀況發(fā)生變化后,我們只需更新相應(yīng)的記錄。而為了按時(shí)間變化發(fā)掘業(yè)務(wù)活動(dòng)的時(shí)序規(guī)律,數(shù)據(jù)倉(cāng)庫(kù)中,該業(yè)務(wù)活動(dòng)可能同時(shí)存在多條記錄,除了相應(yīng)字段的內(nèi)容不同外,其業(yè)務(wù)活動(dòng)的時(shí)間記錄也不相同。數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是一系列在某時(shí)某刻生成的復(fù)雜的快照,由此可見(jiàn),數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)是高度冗余且必須的。

  而且,由于數(shù)據(jù)倉(cāng)庫(kù)的使用對(duì)象不盡相同,數(shù)據(jù)倉(cāng)庫(kù)的設(shè)計(jì)需要考慮其數(shù)據(jù)單元的細(xì)節(jié)程度,即粒度。細(xì)節(jié)程度越高,粒度級(jí)就越低,反之亦然。例如:一個(gè)簡(jiǎn)單的交易處于低粒度級(jí),而每個(gè)月所有交易的匯總則處于一個(gè)高粒度級(jí)。通常,數(shù)據(jù)分析人員使用的數(shù)據(jù)粒度較低,而高層管理人員所使用的數(shù)據(jù)粒度較高。粒度同時(shí)決定了數(shù)據(jù)倉(cāng)庫(kù)所占用的物理空間的大小,盡管一條交易記錄可能只占用200個(gè)字節(jié),但是一個(gè)月所累積的10萬(wàn)條交易記錄就占用了20M個(gè)字節(jié)。如果按月對(duì)每月的所有交易記錄進(jìn)行綜合,所得到的記錄可能只占用500個(gè)字節(jié)。

  數(shù)據(jù)倉(cāng)庫(kù)通常的活動(dòng)是批量載入和查詢?cè)L問(wèn),并不進(jìn)行一般意義的數(shù)據(jù)更新,而且其數(shù)據(jù)冗余程度較高。為了提高查詢效率,我們可以采用一些非常規(guī)的方法來(lái)進(jìn)行數(shù)據(jù)分區(qū)存儲(chǔ)。而且,我們需要對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)進(jìn)行方便且有效的監(jiān)控。

  提供數(shù)據(jù)倉(cāng)庫(kù)技術(shù)服務(wù)的軟件廠商大多是從操作型數(shù)據(jù)庫(kù)系統(tǒng)發(fā)展起來(lái),其推出的數(shù)據(jù)倉(cāng)庫(kù)都是基于其自身研發(fā)的大型數(shù)據(jù)庫(kù)產(chǎn)品上,且捆綁了相應(yīng)的ETL,元數(shù)據(jù),OLAP,報(bào)表等工具,如IBM的DM2,SAS,Sybase,Oracle,Informix,MSSQL Server等。

  在本節(jié)末要說(shuō)明一下數(shù)據(jù)集市(Data Mark)。如果說(shuō)數(shù)據(jù)倉(cāng)庫(kù)是建立在企業(yè)級(jí)的數(shù)據(jù)模型之上的話。那么數(shù)據(jù)集市就是企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)的一個(gè)子集,他主要面向部門(mén)級(jí)業(yè)務(wù),并且只面向某個(gè)特定的主題。數(shù)據(jù)集市可以在一定程度上緩解訪問(wèn)數(shù)據(jù)倉(cāng)庫(kù)的瓶頸。然而,由于各個(gè)數(shù)據(jù)集市之間彼此獨(dú)立,從而形成新的“信息孤島”,也造成了重復(fù)投資。所以,目前越來(lái)越多的數(shù)據(jù)倉(cāng)庫(kù)廠商開(kāi)始提供幫助企業(yè)用戶整合原有數(shù)據(jù)集市,構(gòu)建集中數(shù)據(jù)倉(cāng)庫(kù)的技術(shù)服務(wù)。在實(shí)際項(xiàng)目中,到底是選擇數(shù)據(jù)倉(cāng)庫(kù),還是選擇數(shù)據(jù)集市,應(yīng)取決于該項(xiàng)目的主要商業(yè)驅(qū)動(dòng)。如果企業(yè)正忍受糟糕的數(shù)據(jù)管理和不一致的數(shù)據(jù),希望為今后打下良好的基礎(chǔ),則數(shù)據(jù)倉(cāng)庫(kù)的方案比較好。如果該企業(yè)迫切需要給用戶提供信息,那么可以先構(gòu)建一個(gè)數(shù)據(jù)集市。而一旦滿足了迫切的信息需求后,就應(yīng)該考慮包含獨(dú)立數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)體系結(jié)構(gòu)的轉(zhuǎn)換計(jì)劃。

  3)數(shù)據(jù)分析:OLAP和數(shù)據(jù)挖掘

  OLAP與數(shù)據(jù)挖掘是一個(gè)有機(jī)的整體,在OLAP中必定要針對(duì)不同的主題數(shù)據(jù)倉(cāng)庫(kù)采用相應(yīng)的數(shù)據(jù)挖掘算法來(lái)進(jìn)行數(shù)據(jù)分析。如果把數(shù)據(jù)倉(cāng)庫(kù)對(duì)BI系統(tǒng)的作用比作廚師的食材,那么,OLAP和數(shù)據(jù)挖掘則是廚具。

  聯(lián)機(jī)分析處理(OLAP)的概念最早是由關(guān)系數(shù)據(jù)庫(kù)之父E.F.Codd于1993年提出的,其目的是為了讓管理者靈活地對(duì)海量數(shù)據(jù)進(jìn)行瀏覽分析。當(dāng)時(shí),Codd認(rèn)為聯(lián)機(jī)事務(wù)處理(OLTP)已不能滿足終端用戶對(duì)數(shù)據(jù)庫(kù)查詢分析的需要,SQL對(duì)大數(shù)據(jù)庫(kù)進(jìn)行的簡(jiǎn)單查詢也不能滿足用戶分析的需求。用戶的決策分析需要對(duì)關(guān)系數(shù)據(jù)庫(kù)進(jìn)行大量計(jì)算才能得到結(jié)果,而查詢的結(jié)果并不能滿足決策者提出的需求。因此Codd提出了多維數(shù)據(jù)庫(kù)和多維分析的概念,即OLAP。Codd提出OLAP的12條準(zhǔn)則來(lái)描述OLAP系統(tǒng):
  準(zhǔn)則1 OLAP模型必須提供多維概念視圖
  準(zhǔn)則2 透明性準(zhǔn)則
  準(zhǔn)則3 存取能力推測(cè)
  準(zhǔn)則4 穩(wěn)定的報(bào)表能力
  準(zhǔn)則5 客戶/服務(wù)器體系結(jié)構(gòu)
  準(zhǔn)則6 維的等同性準(zhǔn)則
  準(zhǔn)則7 動(dòng)態(tài)的稀疏矩陣處理準(zhǔn)則
  準(zhǔn)則8 多用戶支持能力準(zhǔn)則
  準(zhǔn)則9 非受限的跨維操作
  準(zhǔn)則10 直觀的數(shù)據(jù)操縱
  準(zhǔn)則11 靈活的報(bào)表生成
  準(zhǔn)則12 不受限的維與聚集層次

  和傳統(tǒng)的聯(lián)機(jī)事務(wù)處理(OLTP)相比,兩者的區(qū)別很大,具體情況如下表:

 OLTP OLAP 
 用戶
 操作人員,低層管理人員
 決策人員,高級(jí)管理人員
 
 功能  
 日常操作處理
 分析決策
 
 DB設(shè)計(jì)
 面向應(yīng)用
 面向主題
 
 數(shù)據(jù)
 當(dāng)前的, 最新的細(xì)節(jié)的,二維的分立的
 歷史的, 聚集的, 多維的集成的, 統(tǒng)一的
 
 存取
 讀/寫(xiě)數(shù)十條記錄
 讀上百萬(wàn)條記錄

 工作單位
 簡(jiǎn)單的事務(wù)
 復(fù)雜的查詢

 用戶數(shù)
 上千個(gè)
 上百個(gè)

 DB大小
 100MB ~ GB
 100GB ~ TB
 

  利用多維的概念,OLAP提供了切片、切塊、下鉆、上卷和旋轉(zhuǎn)等多維度分析與跨維度分析功能。相對(duì)于普通的靜態(tài)報(bào)表,OLAP更能滿足決策者和分析人員對(duì)數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)的分析。OLAP系統(tǒng)架構(gòu)主要分為基于關(guān)系數(shù)據(jù)庫(kù)的ROLAP(Relational OLAP)、基于多維數(shù)據(jù)庫(kù)的MOLAP(Multidimensional OLAP)、基于混合數(shù)據(jù)組織的HOLAP(Hybrid OLAP)三種。前兩種方式比較常見(jiàn)。ROLAP表示基于關(guān)系數(shù)據(jù)庫(kù)的OLAP實(shí)現(xiàn)。它以關(guān)系數(shù)據(jù)庫(kù)為核心,以關(guān)系型結(jié)構(gòu)進(jìn)行多維數(shù)據(jù)的表示和存儲(chǔ)。ROLAP將多維數(shù)據(jù)庫(kù)的多維結(jié)構(gòu)劃分為兩類表:一類是事實(shí)表,用來(lái)存儲(chǔ)數(shù)據(jù)和維關(guān)鍵字;另一類是維表,即對(duì)每個(gè)維至少使用一個(gè)表來(lái)存放維的層次、成員類別等維的描述信息。MOLAP表示基于多維數(shù)據(jù)組織的OLAP實(shí)現(xiàn)。它以多維數(shù)據(jù)組織方式為核心,使用多維數(shù)組存儲(chǔ)數(shù)據(jù)。MOLAP查詢方式采用索引搜索與直接尋址相結(jié)合的方式,比ROLAP的表索引搜索和表連接方式速度要快得多。
  
  數(shù)據(jù)挖掘(Data Mining,DM)是指從大量不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、有用的信息和知識(shí)的過(guò)程。其表現(xiàn)形式為概念(Concepts)、規(guī)則(Rules)、模式(Patterns)等形式。

  從商業(yè)層來(lái)看,我個(gè)人認(rèn)為,在商業(yè)智能系統(tǒng)中進(jìn)行數(shù)據(jù)挖掘的目標(biāo)大致可分為兩類:
  ①?gòu)睦鄯e的業(yè)務(wù)數(shù)據(jù)中發(fā)掘出管理層事先不知道的、但又是潛在有用的信息,為其創(chuàng)造新的商業(yè)機(jī)會(huì)。商業(yè)銷(xiāo)售已有大量這方面的運(yùn)用實(shí)例,BI業(yè)內(nèi)流傳已久的“啤酒和尿布”,以及我在本文開(kāi)頭所舉的例子就屬此類。
 ?、趶睦鄯e的業(yè)務(wù)數(shù)據(jù)中尋求最優(yōu)的資源規(guī)劃方案,降低成本,從而提高利潤(rùn)。讓我們先從大家可能都想過(guò)一個(gè)例子談起——郵遞員送信,假設(shè)我是某個(gè)城市的郵遞員,一次要送出多封信件,收信人的住址分布在城市的各個(gè)街道上。那么該如何設(shè)計(jì)線路,來(lái)盡可能的減少行程呢?商業(yè)活動(dòng)中出現(xiàn)大量類似的例子,當(dāng)可供分析的數(shù)據(jù)不多時(shí),我們可以用紙筆來(lái)手工計(jì)算,找到最優(yōu)解。但是,如果原始數(shù)據(jù)量極為龐大的話,我們將不得不求助于計(jì)算機(jī)了。

  目前業(yè)內(nèi)已有很多成熟的數(shù)據(jù)挖掘方法論,為實(shí)際應(yīng)用提供了理想的指導(dǎo)模型。CRISP-DM(Cross-Industry Standard Process for Data Mining)就是公認(rèn)的、較有影響的方法論之一。CRISP-DM強(qiáng)調(diào),DM不單是數(shù)據(jù)的組織或者呈現(xiàn),也不僅是數(shù)據(jù)分析和統(tǒng)計(jì)建模,而是一個(gè)從理解業(yè)務(wù)需求、尋求解決方案到接受實(shí)踐檢驗(yàn)的完整過(guò)程。CRISP-DM將整個(gè)挖掘過(guò)程分為以下六個(gè)階段:商業(yè)理解(Business Understanding),數(shù)據(jù)理解(Data Understanding),數(shù)據(jù)準(zhǔn)備(Data Preparation),建模(Modeling),評(píng)估(Evaluation)和發(fā)布(Deployment)。其框架圖如下:


  商業(yè)理解就是對(duì)企業(yè)運(yùn)作、業(yè)務(wù)流程和行業(yè)背景的了解;數(shù)據(jù)理解是對(duì)現(xiàn)有企業(yè)應(yīng)用系統(tǒng)的了解;數(shù)據(jù)準(zhǔn)備就是從企業(yè)大量數(shù)據(jù)中取出一個(gè)與要探索問(wèn)題相關(guān)的樣板數(shù)據(jù)子集。建模是根據(jù)對(duì)業(yè)務(wù)問(wèn)題的理解,在數(shù)據(jù)準(zhǔn)備的基礎(chǔ)上,選擇一種更為實(shí)用的挖掘模型,形成挖掘的結(jié)論。評(píng)估就是在實(shí)際中檢驗(yàn)挖掘的結(jié)論,如果達(dá)到了預(yù)期的效果,就可將結(jié)論發(fā)布。

  在實(shí)際項(xiàng)目中,一般的事務(wù)處理系統(tǒng)甚至一些只提供報(bào)表分析功能的簡(jiǎn)單商業(yè)智能系統(tǒng),建成以后只需要少量的工程維護(hù)工作,而采用數(shù)據(jù)挖掘技術(shù)的商業(yè)智能系統(tǒng)往往有很大不同。因?yàn)閿?shù)據(jù)挖掘是一個(gè)商業(yè)理解、數(shù)據(jù)理解、建模、評(píng)估等一系列多次反復(fù)、多次調(diào)整、不斷修訂完善的過(guò)程,并且模型的應(yīng)用也不是一成不變的,在適當(dāng)?shù)臅r(shí)候需要更新和重建。所以一般的商業(yè)智能項(xiàng)目并不追求一次性工程建設(shè),更倡導(dǎo)的是一種與企業(yè)業(yè)務(wù)緊密聯(lián)系能夠提升企業(yè)競(jìng)爭(zhēng)力的咨詢服務(wù),而且熟悉業(yè)務(wù)和分析方法的分析人員在商業(yè)智能系統(tǒng)的應(yīng)用中起著至關(guān)重要的作用。

  從技術(shù)層來(lái)看,數(shù)據(jù)挖掘技術(shù)可分為描述型數(shù)據(jù)挖掘和預(yù)測(cè)型數(shù)據(jù)挖掘兩種。描述型數(shù)據(jù)挖掘包括數(shù)據(jù)總結(jié)、聚類及關(guān)聯(lián)分析等。預(yù)測(cè)型數(shù)據(jù)挖掘包括分類、回歸及時(shí)間序列分析等。
  1、數(shù)據(jù)總結(jié):繼承于數(shù)據(jù)分析中的統(tǒng)計(jì)分析。數(shù)據(jù)總結(jié)目的是對(duì)數(shù)據(jù)進(jìn)行濃縮,給出它的緊湊描述。傳統(tǒng)統(tǒng)計(jì)方法如求和值、平均值、方差值等都是有效方法。另外還可以用直方圖、餅狀圖等圖形方式表示這些值。廣義上講,多維分析也可以歸入這一類。
  2、聚類:是把整個(gè)數(shù)據(jù)庫(kù)分成不同的群組。它的目的是使群與群之間差別很明顯,而同一個(gè)群之間的數(shù)據(jù)盡量相似。這種方法通常用于客戶細(xì)分。在開(kāi)始細(xì)分之前不知道要把用戶分成幾類,因此通過(guò)聚類分析可以找出客戶特性相似的群體,如客戶消費(fèi)特性相似或年齡特性相似等。在此基礎(chǔ)上可以制定一些針對(duì)不同客戶群體的營(yíng)銷(xiāo)方案。
  3、關(guān)聯(lián)分析:是尋找數(shù)據(jù)庫(kù)中值的相關(guān)性。兩種常用的技術(shù)是關(guān)聯(lián)規(guī)則和序列模式。關(guān)聯(lián)規(guī)則是尋找在同一個(gè)事件中出現(xiàn)的不同項(xiàng)的相關(guān)性;序列模式與此類似,尋找的是事件之間時(shí)間上的相關(guān)性,如對(duì)股票漲跌的分析等。
  4、分類:目的是構(gòu)造一個(gè)分類函數(shù)或分類模型(也常常稱作分類器),該模型能把數(shù)據(jù)庫(kù)中的數(shù)據(jù)項(xiàng)映射到給定類別中的某一個(gè)。要構(gòu)造分類器,需要有一個(gè)訓(xùn)練樣本數(shù)據(jù)集作為輸入。訓(xùn)練集由一組數(shù)據(jù)庫(kù)記錄或元組構(gòu)成,每個(gè)元組是一個(gè)由有關(guān)字段(又稱屬性或特征)值組成的特征向量,此外,訓(xùn)練樣本還有一個(gè)類別標(biāo)記。一個(gè)具體樣本的形式可表示為:( v1, v2, ...,vn;c ),其中vi表示字段值,c表示類別。
  5、回歸:是通過(guò)具有已知值的變量來(lái)預(yù)測(cè)其它變量的值。一般情況下,回歸采用的是線性回歸、非線性回歸這樣的標(biāo)準(zhǔn)統(tǒng)計(jì)技術(shù)。一般同一個(gè)模型既可用于回歸也可用于分類。常見(jiàn)的算法有邏輯回歸、決策樹(shù)、神經(jīng)網(wǎng)絡(luò)等。
  6、時(shí)間序列:時(shí)間序列是用變量過(guò)去的值來(lái)預(yù)測(cè)未來(lái)的值。

  早期由于數(shù)據(jù)挖掘的理論和相關(guān)技術(shù)尚不成熟,軟件廠商并未為其數(shù)據(jù)庫(kù)產(chǎn)品開(kāi)發(fā)相應(yīng)的數(shù)據(jù)挖掘工具,但當(dāng)時(shí)已有少部分大型企業(yè)有這方面的技術(shù)需求。所以,市場(chǎng)上出現(xiàn)了一些獨(dú)立的數(shù)據(jù)挖掘工具,如SAS公司的Enterprise Miner、IBM公司的Intelligent Miner和SPSS公司的Clementine?,F(xiàn)在,隨著相關(guān)技術(shù)的日益成熟,越來(lái)越多的企業(yè)提出這樣的技術(shù)需求,軟件廠商也意識(shí)到其中的潛力,估計(jì)在未來(lái)的3~5年內(nèi),將會(huì)出現(xiàn)集成在數(shù)據(jù)倉(cāng)庫(kù)中完備的數(shù)據(jù)挖掘工具。

  最后要提醒大家的是,盡管商業(yè)智能應(yīng)用的前景光明,但是BI業(yè)內(nèi)還沒(méi)有形成一個(gè)統(tǒng)一的標(biāo)準(zhǔn)。而且,由于BI系統(tǒng)的實(shí)施是一個(gè)長(zhǎng)期的、迭代的過(guò)程,企業(yè)在這個(gè)過(guò)程中肯定會(huì)出現(xiàn)短期利潤(rùn)倒退的情況,這也在很大程度上打擊了企業(yè)的信心和實(shí)踐熱情。所以,目前絕大多數(shù)企業(yè)都對(duì)此持觀望態(tài)度,或只在有限的部門(mén)內(nèi)局部實(shí)施BI。我個(gè)人認(rèn)為,企業(yè)這樣做也是相當(dāng)明智的。但盡管是局部實(shí)施,機(jī)會(huì)還是有的。作為技術(shù)人員,可以爭(zhēng)取在相關(guān)技術(shù)的研發(fā)上取得突破;作為軟件廠商的話,則應(yīng)從現(xiàn)有老客戶和現(xiàn)有產(chǎn)品的技術(shù)升級(jí)中尋求機(jī)會(huì)。

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
打開(kāi)APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
數(shù)據(jù)倉(cāng)庫(kù)學(xué)習(xí)筆記
從數(shù)據(jù)倉(cāng)庫(kù)到商業(yè)智能
BI 基礎(chǔ)知識(shí) 一
詳解BI的功能架構(gòu)和技術(shù)架構(gòu)
價(jià)格與人力資源成制約BI應(yīng)用普及最大因素
商業(yè)智能與風(fēng)險(xiǎn)管理信息化
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服