這是傅一平的第361篇原創(chuàng)
很多年前阿里出了《大數(shù)據(jù)之路》一書,在數(shù)據(jù)技術(shù)層面給出了有價(jià)值的指導(dǎo),算是一本經(jīng)典的書籍。最近華為出版了《華為數(shù)據(jù)之道》一書,給出了非數(shù)字原生企業(yè)在數(shù)據(jù)管理方面的實(shí)戰(zhàn)經(jīng)驗(yàn),特別適合于面臨數(shù)字化轉(zhuǎn)型的企業(yè)管理者、數(shù)據(jù)從業(yè)者。
這兩本書的特點(diǎn)都是體系化程度比較好,如果說(shuō)《大數(shù)據(jù)之路》是魚(yú),那《華為數(shù)據(jù)之道》就是水,沒(méi)有良好的數(shù)據(jù)治理體系保駕護(hù)航,數(shù)據(jù)技術(shù)要產(chǎn)生實(shí)際價(jià)值也很難。
一、整體框架
《華為數(shù)據(jù)之道》共有10個(gè)章節(jié)的內(nèi)容,其中最核心的內(nèi)容包括四大部分:數(shù)據(jù)湖、數(shù)據(jù)主題連接、數(shù)據(jù)消費(fèi)及數(shù)據(jù)治理,見(jiàn)下圖的整體框架。
個(gè)人認(rèn)為,數(shù)據(jù)治理對(duì)應(yīng)著第二章的綜合治理體系、第三章的數(shù)據(jù)分類、第四章的信息架構(gòu)、第八章的數(shù)據(jù)質(zhì)量及第九章的數(shù)據(jù)安全,數(shù)據(jù)湖和數(shù)據(jù)主題聯(lián)結(jié)對(duì)應(yīng)著第五章,合起來(lái)叫做數(shù)據(jù)底座,數(shù)據(jù)消費(fèi)對(duì)應(yīng)著第六章。
從框架角度來(lái)講,傳統(tǒng)的大數(shù)據(jù)平臺(tái)體系框架(如下圖所示)與華為的數(shù)據(jù)體系框架跟沒(méi)有大的區(qū)別,只是每個(gè)模塊的稱呼有所不同,模塊的劃分稍有區(qū)別。
1、數(shù)據(jù)交換層+數(shù)據(jù)處理層對(duì)應(yīng)著華為的數(shù)據(jù)湖。
2、數(shù)據(jù)開(kāi)放層中的基礎(chǔ)模型、融合模型及洞察主題對(duì)應(yīng)著華為的主題聯(lián)結(jié)。
3、數(shù)據(jù)開(kāi)放服務(wù)對(duì)應(yīng)著華為的數(shù)據(jù)服務(wù)。
4、數(shù)據(jù)處理層的分析引擎+應(yīng)用層對(duì)應(yīng)著華為的數(shù)據(jù)消費(fèi),把數(shù)據(jù)分析這種引擎下沉歸類到平臺(tái)端還是上浮歸類到消費(fèi)端就仁者見(jiàn)仁智者見(jiàn)智了。
5、數(shù)據(jù)資產(chǎn)管理+資源管理對(duì)應(yīng)著華為的數(shù)據(jù)治理,但華為的數(shù)據(jù)治理模塊不僅僅指治理平臺(tái)工具,還包括組織、機(jī)制和流程等等。
二、數(shù)據(jù)治理
《華為數(shù)據(jù)之道》提到,只有構(gòu)筑一套企業(yè)級(jí)的數(shù)據(jù)綜合治理體系,才能確保關(guān)鍵數(shù)據(jù)資產(chǎn)有清晰的業(yè)務(wù)管理責(zé)任,IT建設(shè)有穩(wěn)定的原則和依據(jù),作業(yè)人員有規(guī)范的流程和指導(dǎo)。當(dāng)面臨爭(zhēng)議時(shí),有裁決機(jī)構(gòu)和升級(jí)處理機(jī)制,治理過(guò)程所需的人才、組織、預(yù)算有充足的保障,最終建立有效的數(shù)據(jù)治理環(huán)境,數(shù)據(jù)的質(zhì)量和安全得到保障,數(shù)據(jù)的價(jià)值才能真正發(fā)揮出來(lái)。
這段話很精辟,衡量一個(gè)企業(yè)數(shù)據(jù)治理水平的高低,最關(guān)鍵的一是有沒(méi)有公司級(jí)的數(shù)據(jù)治理政策,二是這個(gè)政策有沒(méi)有組織的保障,三是這個(gè)保障流程運(yùn)行的質(zhì)量如何,我不知道華為是否真的全做到了,但政策和組織保障這部分內(nèi)容寫得比較詳細(xì)。
1、數(shù)據(jù)治理政策的頂層設(shè)計(jì)
數(shù)據(jù)治理政策是華為數(shù)據(jù)治理的頂層設(shè)計(jì),該政策在華為公司EMT(經(jīng)營(yíng)管理團(tuán)隊(duì))匯報(bào)通過(guò)后,由總裁簽發(fā),該政策明確了數(shù)據(jù)工作在華為公司治理體系的地位,體現(xiàn)了公司管理層對(duì)數(shù)據(jù)工作重要性的統(tǒng)一認(rèn)知。
華為數(shù)據(jù)管理總綱明確了數(shù)據(jù)治理最基本的原則,包括信息架構(gòu)、數(shù)據(jù)產(chǎn)生、數(shù)據(jù)應(yīng)用及數(shù)據(jù)質(zhì)量的職責(zé)和分工。在這個(gè)基礎(chǔ)上,華為針對(duì)信息架構(gòu)、數(shù)據(jù)質(zhì)量及數(shù)據(jù)源還給出了具體的管理政策。
比如信息架構(gòu)管理原則第二條規(guī)定:所有變革項(xiàng)目須遵從數(shù)據(jù)管控要求,對(duì)于不遵從管控要求的變革項(xiàng)目,數(shù)據(jù)管控組織擁有一票否決權(quán)。
比如數(shù)據(jù)產(chǎn)生管理原則第三條規(guī)定:關(guān)鍵數(shù)據(jù)須定義單一數(shù)據(jù)源,一點(diǎn)錄入,多點(diǎn)調(diào)用,數(shù)據(jù)質(zhì)量問(wèn)題應(yīng)在源頭解決。
比如信息架構(gòu)管理政策第一條:各數(shù)據(jù)Owner負(fù)責(zé)其所轄數(shù)據(jù)的信息架構(gòu)建設(shè)和維護(hù),承接及落實(shí)公司的數(shù)據(jù)規(guī)劃要求。
有時(shí)候我們連公司級(jí)的數(shù)據(jù)政策針對(duì)的管理對(duì)象都描述不清楚,比如信息架構(gòu)到底是什么,華為不僅明確了,還把原則政策化了,這一點(diǎn)難能可貴。
2、業(yè)務(wù)負(fù)責(zé)制的責(zé)任體系
華為公司的每一個(gè)數(shù)據(jù),必須由對(duì)應(yīng)的業(yè)務(wù)部門承擔(dān)管理責(zé)任,且必須有唯一的數(shù)據(jù)Owner。業(yè)務(wù)負(fù)責(zé)制的數(shù)據(jù)管理責(zé)任體系,是華為數(shù)據(jù)治理體系多年實(shí)踐經(jīng)驗(yàn)的結(jié)晶,是確保體系發(fā)揮作用的基石。
這個(gè)真的非常好,但知易行難。
數(shù)據(jù)誰(shuí)生成,誰(shuí)負(fù)責(zé),本來(lái)天經(jīng)地義,但現(xiàn)在IT背鍋不在少數(shù),大多數(shù)企業(yè)的數(shù)據(jù)由于沒(méi)有明確Owner,因此一旦出現(xiàn)數(shù)據(jù)質(zhì)量問(wèn)題就會(huì)相互扯皮,這是數(shù)據(jù)質(zhì)量問(wèn)題始終無(wú)法解決的一個(gè)根源,有時(shí)候業(yè)務(wù)數(shù)據(jù)出現(xiàn)問(wèn)題還要IT倒過(guò)來(lái)求著業(yè)務(wù)去規(guī)范錄入,完全是本末倒置。
華為按分層分級(jí)原則任命數(shù)據(jù)Owner,在公司層面設(shè)置公司數(shù)據(jù)Owner,在各業(yè)務(wù)領(lǐng)域設(shè)置領(lǐng)域數(shù)據(jù)Owner,這樣既能確保公司數(shù)據(jù)工作統(tǒng)籌規(guī)劃,也能同時(shí)兼顧各業(yè)務(wù)領(lǐng)域靈活多變的特征。
為落實(shí)公司制定的數(shù)據(jù)管理目標(biāo),在各業(yè)務(wù)領(lǐng)域要建立實(shí)體化的數(shù)據(jù)管理專業(yè)組織,實(shí)線向GPO(各業(yè)務(wù)領(lǐng)域的全球流程Owner,通常是業(yè)務(wù)領(lǐng)域的最高主管)匯報(bào),承接并落實(shí)GPO的數(shù)據(jù)管理責(zé)任,虛線向公司管理部匯報(bào),遵從公司統(tǒng)一的數(shù)據(jù)管理政策、流程和規(guī)則要求,見(jiàn)下圖所示。
筆者今年在文章《如何解決企業(yè)各個(gè)部門間的“數(shù)據(jù)孤島”問(wèn)題?》中也提到了業(yè)務(wù)部門組織保障的重要性,見(jiàn)下圖,兩者有異曲同工之妙。
最后,圍繞組織、機(jī)制和流程,要制定全生命周期的治理規(guī)范和方案,華為給了一張全景圖,大家可以參考。
3、信息架構(gòu)是數(shù)據(jù)治理的關(guān)鍵對(duì)象
企業(yè)在運(yùn)作過(guò)程中,首先需要管理好人和物等“資源”,然后管理好各類資源之間的聯(lián)系,即各類業(yè)務(wù)交易“事件”,再對(duì)各類事件的執(zhí)行效果進(jìn)行“整體描述和評(píng)估”,最終實(shí)現(xiàn)組織目標(biāo)和價(jià)值。但如果運(yùn)作過(guò)程中各類數(shù)據(jù)在企業(yè)各業(yè)務(wù)單元間無(wú)法高效、準(zhǔn)確、一致的傳遞,就會(huì)影響企業(yè)運(yùn)作的效率,比如主數(shù)據(jù)不一致就會(huì)問(wèn)題頻發(fā)。
而要解決這個(gè)問(wèn)題,就要對(duì)企業(yè)的信息架構(gòu)進(jìn)行治理,即構(gòu)建一套對(duì)業(yè)務(wù)運(yùn)作數(shù)據(jù)進(jìn)行有效管理的信息架構(gòu)方法論,用于指導(dǎo)企業(yè)內(nèi)部個(gè)部門的信息架構(gòu)建設(shè)工作,讓管理者、專家和員工之間有共同語(yǔ)言。
上面這段話說(shuō)明了信息架構(gòu)治理的業(yè)務(wù)價(jià)值。
(1)信息架構(gòu)的組成
信息架構(gòu)主要包括數(shù)據(jù)資產(chǎn)目錄、數(shù)據(jù)標(biāo)準(zhǔn)、企業(yè)級(jí)數(shù)據(jù)模型和數(shù)據(jù)分布四個(gè)組件,如下圖所示:
數(shù)據(jù)資產(chǎn)目錄決定了數(shù)據(jù)治理的邊界和對(duì)象,通過(guò)數(shù)據(jù)資產(chǎn)的分門別類不僅能讓數(shù)據(jù)模型歸位,幫助企業(yè)更好的對(duì)業(yè)務(wù)變革進(jìn)行規(guī)劃設(shè)計(jì)、避免重復(fù)建設(shè),也能讓數(shù)據(jù)資產(chǎn)找得到、看得清,為數(shù)據(jù)資產(chǎn)有效使用奠定基礎(chǔ)。
數(shù)據(jù)標(biāo)準(zhǔn)定義公司層面需要共同遵守的屬性層數(shù)據(jù)含義和業(yè)務(wù)規(guī)則,是公司層面對(duì)某個(gè)數(shù)據(jù)的共同理解,這些理解一旦確定下來(lái),就應(yīng)作為企業(yè)層面的標(biāo)準(zhǔn)在企業(yè)內(nèi)被共同遵守。
例如合同是公司最重要的數(shù)據(jù)之一,有必要對(duì)合同編號(hào)制訂統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn),包括編號(hào)的位數(shù),一旦合同編號(hào)數(shù)據(jù)標(biāo)準(zhǔn)制定下來(lái),那么整個(gè)公司所有業(yè)務(wù)部門都必須共同遵守,除了數(shù)據(jù)Owner以外,任何部門都不允許自定義合同編號(hào),否則一旦不同業(yè)務(wù)環(huán)節(jié)各自定義,那么數(shù)據(jù)就無(wú)法在上下游業(yè)務(wù)之間快速流轉(zhuǎn),往往需要額外的人工轉(zhuǎn)換和翻譯,這極大增加人工成本,延長(zhǎng)業(yè)務(wù)執(zhí)行周期。
數(shù)據(jù)模型是從數(shù)據(jù)視角對(duì)現(xiàn)實(shí)世界特征的模擬和抽象,根據(jù)業(yè)務(wù)需求抽取信息的主要特征,反應(yīng)業(yè)務(wù)信息(對(duì)象)之間的關(guān)聯(lián)關(guān)系。數(shù)據(jù)模型不僅能比較真實(shí)地模擬業(yè)務(wù)(場(chǎng)景),同時(shí)也是對(duì)重要業(yè)務(wù)模型和規(guī)則的固化。
數(shù)據(jù)分布定義了數(shù)據(jù)產(chǎn)生的源頭及在各流程和IT系統(tǒng)間的流動(dòng)情況,數(shù)據(jù)分布的核心是數(shù)據(jù)源,指業(yè)務(wù)上首次正式發(fā)布某項(xiàng)數(shù)據(jù)的應(yīng)用系統(tǒng),并經(jīng)過(guò)數(shù)據(jù)管理專業(yè)組織認(rèn)證,作為企業(yè)范圍內(nèi)唯一數(shù)據(jù)源頭被周邊系統(tǒng)調(diào)用,為了更好地識(shí)別、管理數(shù)據(jù)在流程和IT系統(tǒng)間的流動(dòng),可以通過(guò)信息鏈、數(shù)據(jù)流來(lái)進(jìn)行描述,體現(xiàn)某一數(shù)據(jù)在流程或應(yīng)用系統(tǒng)中是如何被創(chuàng)建、讀取、更新、刪除的。
(2)信息架構(gòu)治理原則
華為首先確定了“數(shù)據(jù)同源一致”的治理目標(biāo),圍繞目標(biāo)的實(shí)現(xiàn),制定了五條架構(gòu)原則。
原則一:數(shù)據(jù)按對(duì)象管理,明確數(shù)據(jù)Owner
數(shù)據(jù)要發(fā)揮作用,必然會(huì)在多個(gè)IT系統(tǒng)和流程中流轉(zhuǎn),并且越是重要的數(shù)據(jù)資產(chǎn),所流經(jīng)的業(yè)務(wù)環(huán)節(jié)就越多,比如產(chǎn)品、人員、客戶的數(shù)據(jù)幾乎在所有流程中都會(huì)涉及,因此不應(yīng)以IT系統(tǒng)、業(yè)務(wù)流程邊界來(lái)管理數(shù)據(jù),而應(yīng)該從數(shù)據(jù)本身出發(fā),按對(duì)象進(jìn)行數(shù)據(jù)全生命周期管理。
原則二:從企業(yè)視角定義信息架構(gòu)
任何一個(gè)數(shù)據(jù)Owner都不只代表自己所轄業(yè)務(wù)范圍的數(shù)據(jù)管理訴求,而是代表公司對(duì)數(shù)據(jù)進(jìn)行管理,比如任何業(yè)務(wù)部門對(duì)合同編號(hào)的訴求,都可以提交數(shù)據(jù)Owner解決。
原則三:遵從公司的數(shù)據(jù)分類管理框架
原則四:業(yè)務(wù)對(duì)象結(jié)構(gòu)化、數(shù)字化
原則五:數(shù)據(jù)服務(wù)化,同源共享
(3)信息架構(gòu)建設(shè)核心要素
按業(yè)務(wù)對(duì)象進(jìn)行架構(gòu)設(shè)計(jì):業(yè)務(wù)對(duì)象是指業(yè)務(wù)領(lǐng)域中重要的人、事、物對(duì)象。業(yè)務(wù)對(duì)象承載了業(yè)務(wù)運(yùn)作和管理涉及的重要信息,是信息架構(gòu)中最重要的管理要素,在進(jìn)行信息架構(gòu)設(shè)計(jì)時(shí),架構(gòu)師、業(yè)務(wù)代表、數(shù)據(jù)Owner通常會(huì)對(duì)業(yè)務(wù)對(duì)象的判定存在理解偏差,數(shù)據(jù)治理部門需要制定一套確定性規(guī)則,通過(guò)確定性規(guī)則促進(jìn)形成穩(wěn)定的架構(gòu),主要包括四個(gè)原則,分別是不可或缺、唯一身份標(biāo)識(shí)、相對(duì)獨(dú)立及可實(shí)例化。
按業(yè)務(wù)對(duì)象進(jìn)行架構(gòu)落地:信息架構(gòu)向IT側(cè)落地的主要交付件是數(shù)據(jù)模型,華為公司過(guò)去長(zhǎng)期存在信息架構(gòu)與IT開(kāi)發(fā)實(shí)施“兩張皮”的現(xiàn)象,數(shù)據(jù)人員和IT開(kāi)發(fā)實(shí)施人員缺乏協(xié)同,數(shù)據(jù)架構(gòu)遵從無(wú)法進(jìn)行實(shí)質(zhì)、有效管理,信息架構(gòu)資產(chǎn)和產(chǎn)品實(shí)現(xiàn)的物理表割裂、不匹配、同時(shí)各種數(shù)據(jù)模型資產(chǎn)缺失。
為了解決這個(gè)問(wèn)題,華為推行了一體化模型設(shè)計(jì),不僅在工具上實(shí)現(xiàn)了一體化設(shè)計(jì)和開(kāi)發(fā),而且確保了元數(shù)據(jù)驗(yàn)證、發(fā)布和注冊(cè)的一致性,使得產(chǎn)品數(shù)據(jù)模型管理和資產(chǎn)可視,比如構(gòu)建數(shù)據(jù)標(biāo)準(zhǔn)池、實(shí)體屬性只能從標(biāo)準(zhǔn)池選擇、產(chǎn)品元數(shù)據(jù)和數(shù)據(jù)庫(kù)自動(dòng)比對(duì)驗(yàn)證、產(chǎn)品元數(shù)據(jù)發(fā)布認(rèn)證和信息資產(chǎn)打通、基于交易側(cè)產(chǎn)品元數(shù)據(jù)自助如何等等,具體見(jiàn)下圖:
筆者在《業(yè)務(wù)系統(tǒng)的數(shù)據(jù)資產(chǎn)管理為什么這么難?》一文中對(duì)于“兩張皮”問(wèn)題有過(guò)詳細(xì)的論述,大家有時(shí)間可以看下。
4、不同數(shù)據(jù)類別宜采用不同的治理手段
華為對(duì)數(shù)據(jù)進(jìn)行分類的目的,是為了針對(duì)不同特性的數(shù)據(jù)采取不同的治理方法,以期實(shí)現(xiàn)最大的投入產(chǎn)出比。
華為根據(jù)數(shù)據(jù)特性及治理方法的不同對(duì)數(shù)據(jù)進(jìn)行了分類定義:內(nèi)部數(shù)據(jù)和外部數(shù)據(jù)、結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)、元數(shù)據(jù)。其中,結(jié)構(gòu)化數(shù)據(jù)又進(jìn)一步劃分為基礎(chǔ)數(shù)據(jù)(也叫參考數(shù)據(jù),維度數(shù)據(jù))、主數(shù)據(jù)、事務(wù)數(shù)據(jù)、報(bào)告數(shù)據(jù)、觀測(cè)數(shù)據(jù)和規(guī)則數(shù)據(jù),數(shù)據(jù)分類框架如圖所示:
這里以基礎(chǔ)數(shù)據(jù)為例介紹華為的治理方法。
基礎(chǔ)數(shù)據(jù)用于對(duì)其他數(shù)據(jù)進(jìn)行分類,也叫參考數(shù)據(jù)。當(dāng)基礎(chǔ)數(shù)據(jù)的取值發(fā)生變化的時(shí)候,通常需要對(duì)流程和IT系統(tǒng)進(jìn)行分析和修改,以滿足業(yè)務(wù)需求。因此,基礎(chǔ)數(shù)據(jù)的管理重點(diǎn)在于變更管理和統(tǒng)一標(biāo)準(zhǔn)管控。
華為建立了一個(gè)完整的基礎(chǔ)數(shù)據(jù)管理框架,通過(guò)明確各方的管理責(zé)任,發(fā)布相關(guān)的流程和規(guī)范以及建立基礎(chǔ)數(shù)據(jù)管理平臺(tái)等來(lái)確?;A(chǔ)數(shù)據(jù)的有效管理,如下圖所示:
《華為數(shù)據(jù)之道》數(shù)據(jù)治理相關(guān)章節(jié)給了我很大啟發(fā),強(qiáng)烈建議大家閱讀。
三、數(shù)據(jù)湖
1、華為數(shù)據(jù)湖的3個(gè)特點(diǎn)
華為數(shù)據(jù)湖是邏輯上對(duì)內(nèi)外部的結(jié)構(gòu)化、非結(jié)構(gòu)化的原始數(shù)據(jù)的邏輯匯聚,有三個(gè)特點(diǎn):
(1)邏輯統(tǒng)一
華為數(shù)據(jù)湖不是單一的物理存儲(chǔ),而是根據(jù)數(shù)據(jù)類型、業(yè)務(wù)區(qū)域等由多個(gè)不同的物理存儲(chǔ)構(gòu)成,并通過(guò)統(tǒng)一的元數(shù)據(jù)語(yǔ)義層進(jìn)行定義、拉通和管理。
(2)類型多樣
數(shù)據(jù)湖存放所有不同類型的數(shù)據(jù),包括企業(yè)內(nèi)部IT系統(tǒng)產(chǎn)生的結(jié)構(gòu)化數(shù)據(jù)、業(yè)務(wù)交易和內(nèi)部管理的非結(jié)構(gòu)的文本數(shù)據(jù)、公司內(nèi)部園區(qū)各種傳感器檢測(cè)到的設(shè)備運(yùn)行數(shù)據(jù),以及外部的媒體數(shù)據(jù)等。
(3)原始記錄
華為數(shù)據(jù)湖是對(duì)原始數(shù)據(jù)的匯聚,不對(duì)數(shù)據(jù)做任何的轉(zhuǎn)換、清晰、加工等處理,保留數(shù)據(jù)最原始特征,為數(shù)據(jù)的加工和消費(fèi)提供豐富的可能。
2、數(shù)據(jù)入湖的6個(gè)標(biāo)準(zhǔn)
數(shù)據(jù)入湖是數(shù)據(jù)消費(fèi)的基礎(chǔ),需要嚴(yán)格滿足入湖的6項(xiàng)標(biāo)準(zhǔn),包括明確數(shù)據(jù)Owner、發(fā)布數(shù)據(jù)標(biāo)準(zhǔn)、定義數(shù)據(jù)密級(jí)、明確數(shù)據(jù)源、數(shù)據(jù)質(zhì)量評(píng)估、元數(shù)據(jù)注冊(cè)。通過(guò)這6項(xiàng)標(biāo)準(zhǔn)保證入湖的數(shù)據(jù)都有明確的業(yè)務(wù)負(fù)責(zé)人,各項(xiàng)數(shù)據(jù)都可理解,同時(shí)都能在相應(yīng)的信息安全保障下進(jìn)行消費(fèi)。
3、數(shù)據(jù)入湖方式
數(shù)據(jù)入湖有5種技術(shù)手段,包括批量集成、數(shù)據(jù)復(fù)制同步、消息集成、流集成、數(shù)據(jù)虛擬化,5種數(shù)據(jù)入湖方式比對(duì)參考如下:
下圖示例了結(jié)構(gòu)化數(shù)據(jù)入湖的流程:
不過(guò)筆者認(rèn)為,華為定義的數(shù)據(jù)湖和傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)沒(méi)有本質(zhì)區(qū)別,雖然數(shù)據(jù)存儲(chǔ)的多樣化和原始化是數(shù)據(jù)湖的一個(gè)特征,但還不足以構(gòu)成一個(gè)數(shù)據(jù)湖,筆者在《數(shù)據(jù)湖與數(shù)據(jù)倉(cāng)庫(kù)的根本區(qū)別,在于前者是“市場(chǎng)經(jīng)濟(jì)”,而后者是“計(jì)劃經(jīng)濟(jì)”》對(duì)數(shù)據(jù)湖談過(guò)自己的理解,大家有興趣可以看一下。
四、數(shù)據(jù)主題聯(lián)結(jié)
華為在數(shù)據(jù)湖的基礎(chǔ)上通過(guò)建立數(shù)據(jù)聯(lián)結(jié)層,基于不同的分析場(chǎng)景,通過(guò)5類聯(lián)結(jié)方式將跨域的數(shù)據(jù)聯(lián)結(jié)起來(lái),將數(shù)據(jù)由“原材料”加工成“半成品”和“成品”,支撐不同場(chǎng)景的數(shù)據(jù)消費(fèi)需求,數(shù)據(jù)聯(lián)結(jié)其實(shí)就是數(shù)據(jù)倉(cāng)庫(kù)建模,當(dāng)然華為對(duì)于聯(lián)結(jié)的定義更為廣泛,包括多維模型、圖模型、標(biāo)簽、指標(biāo)和算法模型,如下圖所示。
多維模型是面向業(yè)務(wù)的多視角、多維度的分析,通過(guò)明確的業(yè)務(wù)關(guān)系,建立基于事實(shí)表、維度表以及相互間聯(lián)接關(guān)系,實(shí)現(xiàn)多維數(shù)據(jù)查詢和分析。例如對(duì)訂貨數(shù)據(jù)從時(shí)間、區(qū)域、產(chǎn)品等維度進(jìn)行多視角、不同粒度的查詢和分析。
圖模型面向數(shù)據(jù)間的關(guān)聯(lián)影響分析,通過(guò)建立數(shù)據(jù)對(duì)象以及數(shù)據(jù)實(shí)例之間的關(guān)系,幫助業(yè)務(wù)快速定位關(guān)聯(lián)影響。例如查看某國(guó)家原產(chǎn)地的項(xiàng)目的數(shù)據(jù)具體關(guān)聯(lián)到哪個(gè)客戶以及合同、訂單、產(chǎn)品的詳細(xì)信息時(shí),可以通過(guò)圖模型快速分析關(guān)聯(lián)影響,支撐業(yè)務(wù)決策。
標(biāo)簽是對(duì)特定業(yè)務(wù)范圍的圈定。在業(yè)務(wù)場(chǎng)景的上下文背景中,運(yùn)用抽象、歸納、推理等算法計(jì)算并生成目標(biāo)對(duì)象特征的表示符號(hào),是用戶主觀觀察、認(rèn)識(shí)和描述對(duì)象的一個(gè)角度。例如對(duì)用戶進(jìn)行畫像,識(shí)別不同的用戶群,為產(chǎn)品設(shè)計(jì)和營(yíng)銷提供策略支持。
指標(biāo)是對(duì)業(yè)務(wù)結(jié)果、效率和質(zhì)量的度量。依據(jù)明確的業(yè)務(wù)規(guī)則,通過(guò)數(shù)據(jù)計(jì)算得到衡量目標(biāo)總體特征的統(tǒng)計(jì)數(shù)值,能客觀表征企業(yè)某一業(yè)務(wù)活動(dòng)中業(yè)務(wù)狀況。例如促銷員覆蓋率指標(biāo)就是衡量一線銷售門店促銷員的覆蓋程度。
算法模型是面向智能分析的場(chǎng)景,通過(guò)數(shù)據(jù)建模對(duì)現(xiàn)實(shí)世界進(jìn)行抽象、模擬和仿真,提供支撐業(yè)務(wù)判斷和決策的高級(jí)分析方法。例如預(yù)測(cè)未來(lái)18個(gè)月的銷售量。
五、數(shù)據(jù)消費(fèi)
在數(shù)據(jù)供應(yīng)側(cè)和消費(fèi)側(cè)的雙重推動(dòng)下,華為公司進(jìn)行了基于數(shù)據(jù)服務(wù)提供“自助消費(fèi)”的實(shí)踐,打造了從數(shù)據(jù)供應(yīng)到消費(fèi)的完整鏈條。
1、數(shù)據(jù)服務(wù):實(shí)現(xiàn)數(shù)據(jù)自助、高效、復(fù)用
過(guò)去數(shù)據(jù)獲取大部分依賴于傳統(tǒng)集成方式,即將數(shù)據(jù)從一個(gè)系統(tǒng)復(fù)制到另一個(gè)系統(tǒng)。隨著企業(yè)規(guī)模的擴(kuò)大,需要在幾十個(gè)甚至上百個(gè)IT系統(tǒng)中進(jìn)行數(shù)據(jù)集成,這樣一來(lái),隨著系統(tǒng)集成的復(fù)雜度提升,會(huì)帶來(lái)一系列數(shù)據(jù)質(zhì)量問(wèn)題,比如數(shù)據(jù)經(jīng)過(guò)多次不同系統(tǒng)間搬家后,源頭數(shù)據(jù)和下游各系統(tǒng)之間的數(shù)據(jù)差異巨大,在這樣的背景下,華為進(jìn)行了大規(guī)模的數(shù)據(jù)服務(wù)建設(shè),通過(guò)數(shù)據(jù)服務(wù)替代原有數(shù)據(jù)集成方式,取得了數(shù)據(jù)獲取效率和數(shù)據(jù)安全之間的平衡,下圖示例了數(shù)據(jù)服務(wù)和傳統(tǒng)集成方法的對(duì)比:
數(shù)據(jù)服務(wù)給企業(yè)帶來(lái)五個(gè)價(jià)值:(1)保障“數(shù)出一孔”,提升數(shù)據(jù)一致性 (2)數(shù)據(jù)消費(fèi)者不用關(guān)注技術(shù)細(xì)節(jié) (3)提升數(shù)據(jù)敏捷響應(yīng)能力 (4)滿足用戶靈活多樣的消費(fèi)訴求 (5)兼顧數(shù)據(jù)安全,具體見(jiàn)下圖:
華為公司為確保整個(gè)數(shù)據(jù)供應(yīng)鏈條的高效協(xié)同,制訂了“三個(gè)1”作為拉通各個(gè)供應(yīng)環(huán)節(jié)的整體目標(biāo),確保每個(gè)環(huán)節(jié)能夠形成合力并對(duì)準(zhǔn)最終用戶,如下圖所示:
1天:對(duì)已發(fā)布數(shù)據(jù)服務(wù)的場(chǎng)景,從需求提出到消費(fèi)者通過(guò)服務(wù)獲取數(shù)據(jù),在一天內(nèi)完成。
1周:對(duì)于已進(jìn)底座但無(wú)數(shù)據(jù)服務(wù)的場(chǎng)景,從需求提出到數(shù)據(jù)服務(wù)設(shè)計(jì)落地、消費(fèi)者通過(guò)服務(wù)獲取數(shù)據(jù),在一周內(nèi)完成。
1月:對(duì)于已結(jié)構(gòu)化但未進(jìn)底座的場(chǎng)景,從需求提出到匯聚入湖、數(shù)據(jù)主題聯(lián)接、數(shù)據(jù)服務(wù)設(shè)計(jì)落地、消費(fèi)者通過(guò)服務(wù)獲取數(shù)據(jù),在1個(gè)月內(nèi)完成。
數(shù)據(jù)供應(yīng)“三個(gè)1”并不是單純的度量指標(biāo),而是一整套瞄準(zhǔn)最終數(shù)據(jù)消費(fèi)體驗(yàn)的能力體系以及確保數(shù)據(jù)供應(yīng)能力的管理機(jī)制,還包括組織職責(zé)的明確、流程規(guī)范的制定與落實(shí)、IT平臺(tái)的建設(shè)和管理,如下圖所示:
2、構(gòu)建以用戶體驗(yàn)為核心的數(shù)據(jù)地圖
在解決數(shù)據(jù)的“可供應(yīng)性”之后,企業(yè)應(yīng)該幫助業(yè)務(wù)更便捷、更準(zhǔn)確地找到它們所需要的數(shù)據(jù),這就需要打造一個(gè)能夠滿足用戶體驗(yàn)的“數(shù)據(jù)地圖”。
數(shù)據(jù)地圖(DMAP)是華為面向數(shù)據(jù)的最終消費(fèi)用戶針對(duì)數(shù)據(jù)“找得到” “讀得懂”的需求而設(shè)計(jì)的,基于元數(shù)據(jù)應(yīng)用,以數(shù)據(jù)搜索為核心,通過(guò)可視化方式,綜合反映有關(guān)數(shù)據(jù)的來(lái)源、數(shù)量、質(zhì)量、分布、標(biāo)準(zhǔn)、流向、關(guān)聯(lián)關(guān)系,讓用戶高效率找到數(shù)據(jù),讀懂?dāng)?shù)據(jù),支撐數(shù)據(jù)消費(fèi)。
數(shù)據(jù)地圖作為數(shù)據(jù)治理成果的集散地,需要提供多種數(shù)據(jù),滿足多類用戶、多樣場(chǎng)景的數(shù)據(jù)消費(fèi)需求,所以華為公司結(jié)合實(shí)際業(yè)務(wù)制定了如下圖的數(shù)據(jù)地圖框架。
3、人人都是分析師
數(shù)據(jù)服務(wù)解決了“可供應(yīng)性”,數(shù)據(jù)地圖解決了“可搜索/可獲取性”,當(dāng)消費(fèi)方獲取數(shù)據(jù)后,提供“可分析”能力,幫助數(shù)據(jù)消費(fèi)者結(jié)合自身需要獲取想要的分析結(jié)果。過(guò)去各業(yè)務(wù)部門的分析訴求往往通過(guò)“保姆式”開(kāi)發(fā)模式來(lái)滿足,從獲取數(shù)據(jù)、建模到設(shè)計(jì)報(bào)告,均需要IT人員的支撐,在這種背景下,提出了“服務(wù)+自助”模式,即IT只提供統(tǒng)一的數(shù)據(jù)服務(wù)和分析能力組件服務(wù),各業(yè)務(wù)部門可以根據(jù)業(yè)務(wù)需要進(jìn)行靈活的數(shù)據(jù)分析消費(fèi),數(shù)據(jù)分析的方案和結(jié)果由業(yè)務(wù)自己完成。
華為公司將自助分析作為一種公共能力,在企業(yè)層面進(jìn)行了統(tǒng)一構(gòu)建,一方面面向不同的消費(fèi)用戶提供差異化的能力和工具支撐;另一方面引入了“租戶”概念,不同類型的用戶可以在一定范圍內(nèi)分析數(shù)據(jù),共享數(shù)據(jù)結(jié)果。
(1)針對(duì)三類角色提供的差異化服務(wù)
面向業(yè)務(wù)分析師,提供自助分析能力,業(yè)務(wù)人員通過(guò)“拖、拉、拽”即可快速產(chǎn)生分析報(bào)告。
面向數(shù)據(jù)科學(xué)家,提供高效的數(shù)據(jù)接入能力和常用的數(shù)據(jù)分析組件,快速搭建數(shù)據(jù)探索和分析環(huán)境。
面向IT開(kāi)發(fā)人員,提供云端數(shù)據(jù)開(kāi)發(fā)、計(jì)算、分析、應(yīng)用套件,支撐海量數(shù)據(jù)的分析與可視化,實(shí)現(xiàn)組件重用。
(2)以租戶為核心的自助分析關(guān)鍵能力
租戶是指把數(shù)據(jù)、分析工具、計(jì)算資源有機(jī)組合的工作環(huán)境,用戶可以在租戶內(nèi)自助完成數(shù)據(jù)搜索、數(shù)據(jù)加工、在線分析、報(bào)表共享等工作。
為了合理分配軟硬件資源,滿足各領(lǐng)域在線、自助、個(gè)性化的數(shù)據(jù)分析訴求,明確了租戶申請(qǐng)、租戶命名、數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)同步、數(shù)據(jù)加工、數(shù)據(jù)申請(qǐng)、權(quán)限管理、安全與隱私、運(yùn)維與運(yùn)營(yíng)等方面的要求,旨在通過(guò)正確的引導(dǎo),確保數(shù)據(jù)消費(fèi)的便捷、高效與安全合規(guī)。
租戶自助分析能力架構(gòu)如下圖所示:
以上就是《華為數(shù)據(jù)之道》一書最核心的內(nèi)容概覽,建議大家選擇這些核心章節(jié)重點(diǎn)閱讀,其它的章節(jié)還包括數(shù)據(jù)感知、數(shù)據(jù)質(zhì)量及數(shù)據(jù)安全等,有時(shí)間也可以了解下。
這本書是DAMA等數(shù)據(jù)管理指南書的一個(gè)實(shí)例,筆者發(fā)現(xiàn)其中的很多理念在華為獲得了實(shí)踐,很多模糊不清的概念得到了澄清,這對(duì)于我的幫助很大。當(dāng)然由于覆蓋的內(nèi)容太多,很多地方?jīng)]有講透,但已經(jīng)足夠好了。
如何解決企業(yè)各個(gè)部門間的“數(shù)據(jù)孤島”問(wèn)題?
企業(yè)數(shù)據(jù)治理的十個(gè)最佳實(shí)踐
美團(tuán)配送數(shù)據(jù)治理實(shí)踐
聯(lián)系客服