數(shù)據(jù)中臺(tái)建設(shè)方針:橫向規(guī)劃,各個(gè)擊破。
橫向規(guī)劃即在數(shù)據(jù)中臺(tái)規(guī)劃初期,需要打通企業(yè)各個(gè)業(yè)務(wù)系,打破數(shù)據(jù)孤島現(xiàn)象。其實(shí)就是我們建設(shè)數(shù)據(jù)倉庫的階段。比如電信業(yè)務(wù),我們要把客戶、賬務(wù)、客服、營銷等業(yè)務(wù)板塊打通數(shù)據(jù),全盤考慮,融通數(shù)據(jù)形成數(shù)據(jù)資產(chǎn)。
數(shù)據(jù)中臺(tái)建設(shè)過程中涉及到大數(shù)據(jù)平臺(tái)建設(shè)、數(shù)據(jù)倉庫建設(shè)、模型算法、數(shù)據(jù)治理、數(shù)據(jù)服務(wù)等一系列工程,不可能一蹴而就,我們需要梳理業(yè)務(wù)場景,看他們需要什么樣的服務(wù)先找一個(gè)業(yè)務(wù)場景,搭建起數(shù)據(jù)中臺(tái)的服務(wù)能力,然后依次迭代,各個(gè)擊破。
首先我們需要確認(rèn)平臺(tái)接入哪些數(shù)據(jù),確認(rèn)數(shù)據(jù)接入的方式是實(shí)時(shí)接入還是離線抽取。離線抽取的話是全量抽取還是增量抽取。抽取頻次數(shù)每天抽取還是每小時(shí)抽取。
實(shí)時(shí)接入可以使用kafka實(shí)時(shí)寫入數(shù)據(jù)到HDFS集群上。
離線數(shù)據(jù)可以使用Sqoop抽取關(guān)系型數(shù)據(jù)庫到HDFS。
模型建設(shè)是數(shù)據(jù)中臺(tái)的重要部分,可以說數(shù)據(jù)中臺(tái)的成敗在于模型建設(shè)的好壞。模型分為我們常指的數(shù)據(jù)倉庫的分析模型和我們的一些通用算法模型。
數(shù)據(jù)接入到數(shù)據(jù)倉庫中,我們需要對(duì)數(shù)據(jù)進(jìn)行加工,按照我們規(guī)劃的業(yè)務(wù)域,對(duì)各個(gè)業(yè)務(wù)的數(shù)據(jù)匯總聚合,形成我們的數(shù)據(jù)模型。
這其中涉及到數(shù)據(jù)倉庫建設(shè),在這簡單說下。
這是一個(gè)簡單的數(shù)據(jù)分層結(jié)構(gòu)。原始數(shù)據(jù)ODS,經(jīng)過清洗成為數(shù)倉中的明細(xì)數(shù)據(jù)DWS和維度數(shù)據(jù)DIM,各個(gè)業(yè)務(wù)的明細(xì)數(shù)據(jù)按照業(yè)務(wù)域和維度數(shù)據(jù)關(guān)聯(lián)形成我們的數(shù)據(jù)模型DW,不同的DW經(jīng)過聚合形成各個(gè)業(yè)務(wù)指標(biāo)數(shù)據(jù)APP層。
在數(shù)倉的建設(shè)中我們聲明業(yè)務(wù)粒度,粒度能夠精確的表明業(yè)務(wù)含義。同時(shí)還要確定維度,是用戶維度還是商品維度等,最終形成我們的主數(shù)據(jù),也就是模型數(shù)據(jù)的基礎(chǔ)。
我們?cè)跇I(yè)務(wù)開發(fā)過程中會(huì)形成一些通用的算法,可以是封裝好的隨機(jī)森林、回歸等通用算法,也可以是我們業(yè)務(wù)算法,比如用戶商品推薦算法等。通過把這些算法總結(jié),形成我們的算法模型,供各個(gè)業(yè)務(wù)直接調(diào)用。
在開發(fā)數(shù)據(jù)模型時(shí),我們必須有一個(gè)統(tǒng)一的平臺(tái),能夠像流水線一樣,把數(shù)據(jù)一步步加工成數(shù)據(jù)模型。這其中涉及到數(shù)據(jù)萃取、數(shù)據(jù)聚合、作業(yè)調(diào)度等。
與業(yè)務(wù)研發(fā)不同,數(shù)據(jù)研發(fā)一般很少寫詳細(xì)的需求涉及文檔,通常就是和業(yè)務(wù)人員簡單的溝通,但是慢慢的你會(huì)發(fā)現(xiàn)開發(fā)完的任務(wù)會(huì)一改再改。為了避免此種現(xiàn)象,我們可以根據(jù)自己的實(shí)際業(yè)務(wù)整理一份需求模板。其中包括數(shù)據(jù)來源字段,數(shù)據(jù)口徑,任務(wù)調(diào)度周期,字段mapping。
通俗的來說,我們?cè)跀?shù)倉中開發(fā)的模型就是數(shù)據(jù)資產(chǎn),數(shù)據(jù)資產(chǎn)需要規(guī)范的管控和治理。
資產(chǎn)管理最基礎(chǔ)的工作是做好元數(shù)據(jù)的管理,元數(shù)據(jù)包含了數(shù)據(jù)的口徑,數(shù)據(jù)模型的釋義,模型之間的血緣等等,詳細(xì)的可以看之前的元數(shù)據(jù)文章《數(shù)據(jù)倉庫元數(shù)據(jù)》。將元數(shù)據(jù)和數(shù)據(jù)模型統(tǒng)一有序的管理起來形成企業(yè)的數(shù)據(jù)資產(chǎn)。
數(shù)據(jù)資產(chǎn)治理不是在事后管控的,在我們建設(shè)模型的過程中需要形成一套自己的數(shù)倉開發(fā)規(guī)范進(jìn)行管理。
俗話說,酒香也怕巷子深。我們做好數(shù)據(jù)資產(chǎn)后,要推銷我們的資產(chǎn),為更多部門使用,這也是數(shù)據(jù)中臺(tái)建設(shè)的初衷。因此提供一套數(shù)據(jù)服務(wù)能力,對(duì)外統(tǒng)一對(duì)接是一件很重要的工作。
數(shù)據(jù)服務(wù)標(biāo)準(zhǔn):數(shù)據(jù)結(jié)構(gòu)標(biāo)準(zhǔn)化、在線查詢實(shí)時(shí)化、數(shù)據(jù)開發(fā)可視化。
對(duì)各個(gè)業(yè)務(wù)板塊的數(shù)據(jù)交互,我們需要提供統(tǒng)一的接口視圖,可進(jìn)行數(shù)據(jù)的查詢、權(quán)限管控。
對(duì)于各業(yè)務(wù)的調(diào)用,我們需要提供指標(biāo)級(jí)數(shù)據(jù)口徑統(tǒng)一的實(shí)時(shí)數(shù)據(jù)結(jié)果。對(duì)于復(fù)雜的查詢,需要我們優(yōu)化后端的數(shù)據(jù)服務(wù),屏蔽繁重的數(shù)據(jù)存儲(chǔ)和計(jì)算引擎,對(duì)外提供輕量的在線服務(wù)接口。
提供數(shù)據(jù)接口的可視化統(tǒng)一管理頁面,開發(fā)人員通過通過可視化管理API,降低接口理解的難度,易于維護(hù)。
討論
關(guān)于數(shù)據(jù)中臺(tái)的建設(shè),最初是阿里提出來的,但是這之前,很多企業(yè)其實(shí)已經(jīng)有了類似的想法,也實(shí)施了部分。對(duì)于大型集團(tuán)企業(yè),中臺(tái)方法論很實(shí)用。打破了集團(tuán)各版塊的數(shù)據(jù)孤島,形成了統(tǒng)一的數(shù)據(jù)服務(wù)能力。但是慢慢的很多人提出了,對(duì)于中小企業(yè),中臺(tái)方法論是不是太繁瑣了,對(duì)于他們來說是負(fù)擔(dān),中小企業(yè)需要的也許是更快捷的迭代形式的數(shù)據(jù)服務(wù)。
那么關(guān)于中臺(tái)建設(shè),你怎么看呢?你的企業(yè)會(huì)選擇中臺(tái)嗎?
聯(lián)系客服