數(shù)據(jù)集成是當下比較熱門的話題,相關的產(chǎn)品和平臺也越來越多。很多CIO都在各種數(shù)據(jù)集成平臺和產(chǎn)品之間猶豫不決。因此對數(shù)據(jù)集成平臺的框架體系有全面的理解,對各個廠家產(chǎn)品所提供的功能有深入的認識才能為數(shù)據(jù)平臺選型的決策提供可靠的保證。
我有幸參與了國內(nèi)一個知名企業(yè)的集成平臺的設計工作,并主導了數(shù)據(jù)集成平臺的需求分析和產(chǎn)品選型工作。這次工作中,研究了很多新的技術方向和產(chǎn)品,下面我主要講一下數(shù)據(jù)集成領域的一種新興的產(chǎn)品平臺主數(shù)據(jù)管理平臺MDM(Master Data Management)。
主數(shù)據(jù)的概念
首先介紹一下什么是主數(shù)據(jù)。這里借用其他網(wǎng)站的一個數(shù)據(jù)分類模型,我們可以看到有元數(shù)據(jù)(metadata),引用數(shù)據(jù)(Reference Data),主數(shù)據(jù)(Master Data),企業(yè)結(jié)構數(shù)據(jù)(Enterprise structure Data),交易活動數(shù)據(jù)(Transaction Activity Data),交易審計數(shù)據(jù)(Transaction Audit Data)這六大類數(shù)據(jù)。
簡要解釋一下這六大類的數(shù)據(jù),關于這些數(shù)據(jù)分類的定義可以在網(wǎng)上很容易的找到。
元數(shù)據(jù):數(shù)據(jù)的數(shù)據(jù),平時我們設計表時,大部分屬性字段就是元數(shù)據(jù)。比如,性別,國籍,出生省份等。這個是最接近自然意義的的數(shù)據(jù)。
引用數(shù)據(jù):元數(shù)據(jù)的可能取值范圍,我們設計表時所說的數(shù)據(jù)字典往往就是引用數(shù)據(jù)。比如,性別只能是男和女,男和女就是引用數(shù)據(jù)。國家的引用數(shù)據(jù)就是世界上這100多個國家和地區(qū);
主數(shù)據(jù):在我們數(shù)據(jù)庫設計中最重要的一些實體,是由元數(shù)據(jù)和引用數(shù)據(jù)實例的集合。DMReview 專欄作家 Jane Griffin 將主數(shù)據(jù)定義為“...用于為核心業(yè)務實體創(chuàng)建和維護全企業(yè)‘記錄系統(tǒng)’,以記錄業(yè)務交易并評定這些實體的業(yè)績所需的信息。”平時我們常碰到的客戶信息,產(chǎn)品信息都屬于主數(shù)據(jù)。對于主數(shù)據(jù)的介紹,我們會在后面詳細展開說明。
企業(yè)結(jié)構化數(shù)據(jù):企業(yè)業(yè)務中所需的數(shù)據(jù)實體 ,可能是多個主數(shù)據(jù)的集合。不同行業(yè)的結(jié)構化數(shù)據(jù)會有很大不同。
交易活動數(shù)據(jù):主數(shù)據(jù)之間活動產(chǎn)生的數(shù)據(jù)。比如客戶購買產(chǎn)品的交易記錄就是交易活動數(shù)據(jù),工廠生產(chǎn)產(chǎn)品,生產(chǎn)記錄也是交易活動數(shù)據(jù)。
交易審計數(shù)據(jù):我們對數(shù)據(jù)的所有活動都通過交易審計數(shù)據(jù)進行記錄。比如我們對客戶信息修改的操作,對交易的增加和刪除操作,這些活動在很多關鍵系統(tǒng)(比如銀行)都需要記錄,以合符相應法規(guī)的要求(如 Basel II、薩班斯—奧克斯利法案)。
下圖中數(shù)據(jù)模型中的藍色越深代表語義相關性越強和數(shù)據(jù)質(zhì)量越重要,而黃色越深代表數(shù)據(jù)的數(shù)據(jù)數(shù)量越多、更新的頻率越快、實時抓取的數(shù)據(jù)越快、數(shù)據(jù)的生命越短。下圖可以看到,元數(shù)據(jù)的數(shù)據(jù)語義性最強,幾乎不更新,數(shù)據(jù)量最少,生命周期最長。
主數(shù)據(jù)是企業(yè)應用系統(tǒng)中最基本的業(yè)務單元,下面是一段英文的原文:Master Data are the fundamental business data in the company, typically long-lived and used across multiple applications。
Core Master Data are operational entities, supporting all fundamental business activity transactions being executed on this level. The Core Master data are common and shareable within the organization。
我覺得很好理解,比如一個產(chǎn)品系統(tǒng),它處理的基本數(shù)據(jù)就是生產(chǎn)數(shù)據(jù)。HR系統(tǒng)處理的基本數(shù)據(jù)是雇員;CRM系統(tǒng)是客戶
一般來說核心主數(shù)據(jù)包含:Customers, Contracts, Suppliers, Distributors/Partners,Employees等等。
另外,各個行業(yè)對于主數(shù)據(jù)的管理的需求和期望會有很大不同,因此行業(yè)經(jīng)驗對于主數(shù)據(jù)管理也是很重要的。
主數(shù)據(jù)管理的概念
從上面的介紹可以了解,主數(shù)據(jù)并不是什么新的概念,但為什么之前沒有主數(shù)據(jù)管理的產(chǎn)品呢?其實,解釋這個問題和解釋數(shù)據(jù)集成出現(xiàn)的原因很類似。因為之前主數(shù)據(jù)依附于各個單獨的業(yè)務系統(tǒng),比如HR, ERP,SCM,企業(yè)的網(wǎng)站,商業(yè)合作伙伴的系統(tǒng)都可能對某一個主數(shù)據(jù)有存儲,比如某個產(chǎn)品。問題隨之來了,如系統(tǒng)間數(shù)據(jù)編碼不一致;數(shù)據(jù)的冗余;某些系統(tǒng)數(shù)據(jù)的不完整。舉個實際的例子,如果我們新建一個BI的系統(tǒng),那么有可能我需要從生產(chǎn)系統(tǒng),財務系統(tǒng),物流系統(tǒng),企業(yè)合作伙伴系統(tǒng)多個系統(tǒng)拿到一個完整的關于主數(shù)據(jù)的信息。顯然,需要一種解決方案,能夠提供一個單一的主數(shù)據(jù)訪問接口,以提高主數(shù)據(jù)訪問的效率;為企業(yè)的市場、銷售、客戶關系管理等活動提供可靠的數(shù)據(jù),提高企業(yè)的敏捷性。
主數(shù)據(jù)管理:主數(shù)據(jù)管理是數(shù)據(jù)管理的一種高級形式,它必須構建于ETL或者EII(Enterprise Information Integration)等技術之上,因此很多主數(shù)據(jù)管理平臺本身就包含了數(shù)據(jù)抽取、數(shù)據(jù)加載、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)質(zhì)量管理、數(shù)據(jù)復制和數(shù)據(jù)同步等功能。也有某些廠商把MDM作為數(shù)據(jù)集成產(chǎn)品的一個模塊交付給客戶。
無主數(shù)據(jù)管理時對主數(shù)據(jù)訪問
主數(shù)據(jù)分散在各個系統(tǒng)造成的問題:
數(shù)據(jù)在各個系統(tǒng)冗余,造成數(shù)據(jù)訪問繁瑣;編碼不統(tǒng)一; 數(shù)據(jù)不同步,缺乏一致性;
給企業(yè)業(yè)務帶來了如下影響:
延誤產(chǎn)品面市時間;產(chǎn)品供不應求;不準確的訂單交付 ;銷售效能低下;客戶滿意度降低;生產(chǎn)力降低。
有主數(shù)據(jù)管理平臺時對主數(shù)據(jù)的訪問的圖示
主數(shù)據(jù)管理平臺帶來的好處:
有統(tǒng)一的主數(shù)據(jù)訪問平臺;企業(yè)能夠提供一致的完整的共享信息平臺;集中的內(nèi)容豐富和干凈的數(shù)據(jù)中心;為使用數(shù)據(jù)的應用,企業(yè)業(yè)務流程和決策系統(tǒng)提供了一個真實的數(shù)據(jù)訪問通道。
我個人感覺MDM平臺建立之后,最受益的還是BI相關的應用。
主數(shù)據(jù)管理平臺的功能模塊
Master Repositories(主數(shù)據(jù)資源庫)::X-Ref DB, Masters DB, Master Data Applications;
Data Quality(數(shù)據(jù)質(zhì)量保證):源數(shù)據(jù)的質(zhì)量檢查,從源數(shù)據(jù)系統(tǒng)傳輸?shù)綌?shù)據(jù)緩儲區(qū)的所有數(shù)據(jù)都應首先接受質(zhì)量檢查后才能導入,源數(shù)據(jù)的質(zhì)量檢查應包括接口數(shù)據(jù)文件格式是否標準化的確認、文件大小確認,記錄數(shù)、文件生成時間的確認等內(nèi)容; ETL系統(tǒng)質(zhì)量檢查,包括對主外鍵關系、編碼規(guī)范的檢查。每次數(shù)據(jù)的抽取、轉(zhuǎn)換和加載都必須有完整的日志記錄,并在加載完成后確認記錄數(shù)前后一致。
Data enrichment(數(shù)據(jù)深度分析,關聯(lián)性分析):企業(yè)內(nèi)部分析;
System Integration(集成組件):主數(shù)據(jù)管理器;服務總線(提供data service);異常處理;映射(mapping)/轉(zhuǎn)換(Transforming)/加載(loading);數(shù)據(jù)交換(Data exchange);同步流程(Workflow);Business System;元數(shù)據(jù)/主數(shù)據(jù)訪問控制;數(shù)據(jù)錄入控制;數(shù)據(jù)采集;管理/安全
主數(shù)據(jù)管理平臺項目的實施
和很多集成項目一樣,項目的實施最重要的是制定好業(yè)務的策略和規(guī)劃,業(yè)務人員,業(yè)務需求和行業(yè)專家對數(shù)據(jù)的理解和分析是關鍵,技術平臺只是我們思想實現(xiàn)的重要工具,不會起決定性的作用。
提供主數(shù)據(jù)管理平臺的產(chǎn)商
傳統(tǒng)ERP廠商:SAP和ORACLE都基于自己的產(chǎn)品經(jīng)驗,在它們的ERP套裝軟件產(chǎn)品中加入了主數(shù)據(jù)管理產(chǎn)品。基于他們行業(yè)的經(jīng)驗,他們的產(chǎn)品有比較完整的主數(shù)據(jù)管理比較好的數(shù)據(jù)模型和主數(shù)據(jù)管理的經(jīng)驗。Oracle基于自身在CRM和制造行業(yè)的深厚經(jīng)驗,提供非常全面的客戶主數(shù)據(jù)產(chǎn)品UCM8.0和制造業(yè)主數(shù)據(jù)產(chǎn)品PIM12.0,
中間件廠商:TIBCO有專門的MDM產(chǎn)品,我看到的是他們一年前的產(chǎn)品介紹,感覺功能還比較欠缺,缺少很多重要的功能,當然我還沒有時間研究他們最新的產(chǎn)品。
ORACLE在MDM產(chǎn)品上有著比較明確的戰(zhàn)略和路線圖。在收購BEA后,相信在MDM產(chǎn)品上,ORACLE會結(jié)合原本就功能強大的 ODI 工具,加上BEA在數(shù)據(jù)集成領域產(chǎn)品的特點,基于自己原有的行業(yè)經(jīng)驗,提供更全面的產(chǎn)品,鞏固自己在中間件產(chǎn)品的領先地位。
IBM收購了一個MDM產(chǎn)品,我一向不太愿意研究IBM的產(chǎn)品,所以也沒有發(fā)言權。我Software AG(WebMethod)做的也可以,有專門的產(chǎn)品,功能也相對完善。但在實施團隊的力量上,要差一些。
對于主數(shù)據(jù)管理平臺,我會在以后的博客里面深入一些細節(jié)問題進行探討。歡迎有興趣的朋友提寶貴意見。