選擇合適的ETL工具 ■ 黃予輝 目前,商業(yè)智能系統(tǒng)有兩種實(shí)施策略: 一種是將BI系統(tǒng)建造在目前已有的業(yè)務(wù)系統(tǒng)之上,以企業(yè)應(yīng)用集成(EAI)系統(tǒng)為核心,將各個(gè)業(yè)務(wù)系統(tǒng)的獨(dú)立數(shù)據(jù)統(tǒng)一成標(biāo)準(zhǔn)數(shù)據(jù)格式(如XML),然后,由BI系統(tǒng)進(jìn)行整合、分析、展現(xiàn)。此類BI系統(tǒng)通常是與EAI系統(tǒng)捆綁在一起的,其架構(gòu)讀者可通過(guò)EAI系統(tǒng)的相關(guān)資料進(jìn)行了解,此處將不做討論。 另一種是將BI系統(tǒng)建立在企業(yè)級(jí)的數(shù)據(jù)倉(cāng)庫(kù)基礎(chǔ)上,由數(shù)據(jù)倉(cāng)庫(kù)將企業(yè)的業(yè)務(wù)數(shù)據(jù)統(tǒng)一存儲(chǔ)在企業(yè)邏輯數(shù)據(jù)模型架構(gòu)中,然后,通過(guò)在數(shù)據(jù)倉(cāng)庫(kù)基礎(chǔ)上建立邏輯或物理的數(shù)據(jù)集市、數(shù)據(jù)決策系統(tǒng)、數(shù)據(jù)在線分析系統(tǒng)等子系統(tǒng),完成數(shù)據(jù)的整合、分析,然后由前端展現(xiàn)工具對(duì)已有的數(shù)據(jù)(原始數(shù)據(jù)、整合數(shù)據(jù))進(jìn)行匯總及展現(xiàn)。由于此類BI系統(tǒng)可以分步實(shí)施,用戶可逐步建立其BI系統(tǒng),所以成功率比較高。以目前已有的商業(yè)智能系統(tǒng)來(lái)看,此種架構(gòu)將成為商業(yè)智能系統(tǒng)發(fā)展的主流。以下的討論將以此種架構(gòu)為基礎(chǔ)。 在企業(yè)級(jí)的以數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)為中心的商業(yè)智能系統(tǒng)中,其組成架構(gòu)包括以下幾部分: ● 源數(shù)據(jù)系統(tǒng) ● 可操作數(shù)據(jù)存儲(chǔ)系統(tǒng)(ODS) ● 數(shù)據(jù)決策系統(tǒng)(DDS) ● 在線分析系統(tǒng)(OLAP) ● 前端展現(xiàn)工具 ● 元數(shù)據(jù)系統(tǒng) 商業(yè)智能系統(tǒng)運(yùn)行的基礎(chǔ)是互相獨(dú)立、互不兼容的、復(fù)雜的源數(shù)據(jù)系統(tǒng),各個(gè)源數(shù)據(jù)系統(tǒng)是企業(yè)在不同的歷史時(shí)期建立的,面向不同業(yè)務(wù)需求的生產(chǎn)系統(tǒng)。因此,依照合理的方式整合源數(shù)據(jù)系統(tǒng),將源數(shù)據(jù)統(tǒng)一存儲(chǔ)在以企業(yè)邏輯模型構(gòu)建的ODS系統(tǒng)中,DDS、OLAP、前端展現(xiàn)工具依照用戶需求,對(duì)數(shù)據(jù)進(jìn)行匯總、展示,并按照用戶喜好的方式,將結(jié)果展現(xiàn)在用戶面前是商業(yè)智能系統(tǒng)的基本任務(wù)。由于企業(yè)業(yè)務(wù)系統(tǒng)的復(fù)雜性,各個(gè)源數(shù)據(jù)系統(tǒng)的數(shù)據(jù)結(jié)構(gòu)、格式、定義各不相同,為了能有效的整合企業(yè)數(shù)據(jù)系統(tǒng),保持?jǐn)?shù)據(jù)的一致性,并將數(shù)據(jù)統(tǒng)一地展現(xiàn)在客戶面前,ETL解決方案是用戶唯一的選擇。 ETL解決方案包括數(shù)據(jù)抽?。‥)、數(shù)據(jù)傳輸、轉(zhuǎn)換與清洗(T)、數(shù)據(jù)加載、調(diào)度(L),毋庸置言,ETL系統(tǒng)將貫穿整個(gè)商業(yè)智能系統(tǒng)的全過(guò)程,如圖所示,從源數(shù)據(jù)系統(tǒng)到前端展示系統(tǒng)的整個(gè)商業(yè)智能系統(tǒng)各個(gè)組件之間,都存在ETL過(guò)程。 ETL方案對(duì)整個(gè)商業(yè)智能系統(tǒng)的重要性可與血液與人體的作用相提并論,一個(gè)有效的ETL處理方案將是系統(tǒng)成功的首要因素。 ETL方案的選擇應(yīng)考慮以下方面: ● 數(shù)據(jù)操作效率; ● 數(shù)據(jù)操作時(shí)間周期; ● 定制的靈活性。 對(duì)ETL來(lái)說(shuō),數(shù)據(jù)操作的效率是最重要的考慮因素。對(duì)效率的考察,應(yīng)包括以下幾點(diǎn): 1. 是否支持復(fù)雜的數(shù)據(jù)操作; 2. 是否支持多任務(wù)并行操作; 3. 是否符合系統(tǒng)對(duì)數(shù)據(jù)處理時(shí)間窗口的要求。 數(shù)據(jù)操作時(shí)間周期的支持包括: 1. 是否支持各種數(shù)據(jù)處理時(shí)間周期的混合操作; 2. 是否支持?jǐn)?shù)據(jù)的小批量持續(xù)加載; 3. 是否支持?jǐn)?shù)據(jù)的大批量定時(shí)加載。 定制靈活性包括: 1. 是否支持?jǐn)?shù)據(jù)依賴的建立; 2. 是否支持?jǐn)?shù)據(jù)流的建立; 3. 是否支持操作定時(shí)啟動(dòng); 4. 是否可擴(kuò)展; 5. 開發(fā)環(huán)境是什么,開發(fā)是否簡(jiǎn)單、靈活。 對(duì)于ETL流程的建立,通常有以下兩種方式: ● 利用數(shù)據(jù)庫(kù)系統(tǒng)、業(yè)務(wù)子系統(tǒng)工具自行開發(fā) ● 購(gòu)買現(xiàn)成的ETL工具 通常情況下,ETL方案中,以上兩種方式是同時(shí)存在的。一般情況下,利用各個(gè)子系統(tǒng)提供的工具進(jìn)行自行開發(fā),可充分利用子系統(tǒng)的優(yōu)化操作,提高數(shù)據(jù)處理效率,但其靈活性和可擴(kuò)展性欠佳;購(gòu)買現(xiàn)成的ETL工具(如EAI、Informatic等廠商的ETL工具),可靈活定制數(shù)據(jù)處理流程,簡(jiǎn)化數(shù)據(jù)開發(fā),縮短ETL方案實(shí)施周期,但其處理效率較低。因此,建議讀者應(yīng)結(jié)合以上的ETL建立方式,在保證ETL性能的前提下,購(gòu)買合適的ETL工具。(本文作者為NCR Teradata數(shù)據(jù)倉(cāng)庫(kù)事業(yè)部技術(shù)顧問(wèn))
本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)
點(diǎn)擊舉報(bào)。