元數(shù)據(jù)是 對(duì)某個(gè)潛在信息性對(duì)象做出的陳述 。在瀏覽其他網(wǎng)頁的時(shí)候會(huì)看到元數(shù)據(jù)被稱之為 “數(shù)據(jù)的數(shù)據(jù)”。為了更好的描述元數(shù)據(jù)到底是什么東西,我以一本《Metadata》書作為例子進(jìn)行說明?!禡etadata》第二頁記錄著該書的 CIP 信息、作者、出版社、書號(hào)、定價(jià)、印次、字?jǐn)?shù)等信息,而這些信息都是用于描述《Metadata》這本書的元數(shù)據(jù)。
一條元數(shù)據(jù)記錄就是關(guān)于一個(gè)資源的主謂賓陳述集合。例如:達(dá)芬奇(賓語)是蒙娜麗莎(主語)的創(chuàng)作者(謂語)。
主數(shù)據(jù)、元數(shù)據(jù)與參考數(shù)據(jù)元數(shù)據(jù)(meta-data)是描述企業(yè)數(shù)據(jù)的相關(guān)數(shù)據(jù),指在IT系統(tǒng)建設(shè)過程中所產(chǎn)生的有關(guān)數(shù)據(jù)定義,目標(biāo)定義,轉(zhuǎn)換規(guī)則等相關(guān)的關(guān)鍵數(shù)據(jù),包括 對(duì)數(shù)據(jù)的業(yè)務(wù)、結(jié)構(gòu)、定義、存儲(chǔ)、安全等各方面對(duì)數(shù)據(jù)的描述 。地市表這個(gè)實(shí)體的數(shù)據(jù)模型如何進(jìn)行定義正是元數(shù)據(jù)所關(guān)心的范疇。
元數(shù)據(jù)可以說是企業(yè)的數(shù)據(jù)地圖,它直接反映了企業(yè)中有什么樣的數(shù)據(jù),數(shù)據(jù)是如何存放的,例如,數(shù)據(jù)結(jié)構(gòu)是什么樣子,數(shù)據(jù)與業(yè)務(wù)之間的關(guān)系是怎么樣,數(shù)據(jù)與數(shù)據(jù)之間的關(guān)系是怎么樣,數(shù)據(jù)有什么樣的安全需求,數(shù)據(jù)有什么樣的存儲(chǔ)需求。
主數(shù)據(jù)主數(shù)據(jù)(main data)主要是指經(jīng)實(shí)例化的企業(yè) 關(guān)鍵數(shù)據(jù) 。
我們在上面設(shè)計(jì)完成數(shù)據(jù)模型設(shè)計(jì)的“城市表”中填寫了相應(yīng)的城市數(shù)據(jù),例如,北京、上海、廣州、南寧等等。這些在城市表中 填充的數(shù)據(jù) ,正是組織中國地理協(xié)會(huì)的主數(shù)據(jù),因?yàn)檫@些數(shù)據(jù)是中國地理協(xié)會(huì)這個(gè)組織的關(guān)鍵業(yè)務(wù)實(shí)體, 它為組織的業(yè)務(wù)開展提供關(guān)聯(lián)環(huán)境 ,而且它可能在企業(yè)業(yè)務(wù)開展過程中 被反復(fù)引用 。針對(duì)這些核心關(guān)鍵數(shù)據(jù),組織和企業(yè)無論從數(shù)據(jù)的質(zhì)量、一致性、可用性、管理規(guī)范等方面都應(yīng)該有著最嚴(yán)格的數(shù)據(jù)要求。
主數(shù)據(jù)就是企業(yè)被不同運(yùn)營場合反復(fù)引用關(guān)鍵的狀態(tài)數(shù)據(jù),它需要在企業(yè)范圍內(nèi)保持高度一致。它可以隨著企業(yè)的經(jīng)營活動(dòng)而改變,例如,客戶的增加,組織架構(gòu)的調(diào)整,產(chǎn)品下線等;但是, 主數(shù)據(jù)的變化頻率應(yīng)該是較低的 。所以,企業(yè)運(yùn)營 過程產(chǎn)生過程數(shù)據(jù),如生產(chǎn)過程產(chǎn)生各種如訂購記錄、消費(fèi)記錄等,一般不會(huì)納入主數(shù)據(jù)的范圍 。當(dāng)然,在不同行業(yè),不同企業(yè)對(duì)主數(shù)據(jù)有不同的看法和做法,正如我們與國內(nèi)大型航空企業(yè)的實(shí)施相關(guān)數(shù)據(jù)項(xiàng)目時(shí),也在為航班動(dòng)態(tài)是不是主數(shù)據(jù)而糾結(jié)不已。
個(gè)人覺得 主數(shù)據(jù)具有跨行業(yè)也能存在能力,同時(shí)實(shí)例數(shù)據(jù)變更是低頻的。 例如商品價(jià)格信息、會(huì)員信息是主數(shù)據(jù),而訂單信息不是主數(shù)據(jù),它具有高頻更新存在。因而怎么算高頻就是一個(gè)仁者見仁智者見智的情況了,需要結(jié)合自己所在的行業(yè)進(jìn)行判斷。
參考數(shù)據(jù)——數(shù)據(jù)的字典在本文引用的假設(shè)案例中,我們將會(huì)注意到剛才填寫的地市這類數(shù)據(jù)有些列,如省份、城市類型等。 如果沒有缺少上下文的環(huán)境,我們是無法理解其具體含義 ,這時(shí)候我們往往引入?yún)⒖紨?shù)據(jù)(reference data)加以解釋和理解。
參考數(shù)據(jù)是增加數(shù)據(jù)可讀性、可維護(hù)性以及后續(xù)應(yīng)用的重要數(shù)據(jù)。例如,你看到“性別”的這個(gè)字段,很可能是1代表男性、2代表女性。在許多企業(yè)中有這樣的約定俗成,而更多的參考數(shù)據(jù)可能記錄在開發(fā)人員和運(yùn)營人員的大腦當(dāng)中。但問題是一旦這些人離開,您系統(tǒng)里面的數(shù)據(jù)就成了一堆沒有注釋的天書。
大家可能覺得,這所謂參考數(shù)據(jù)不就是數(shù)據(jù)字典嗎?對(duì),我們在很多系統(tǒng)里面都會(huì)有這樣和那樣的數(shù)據(jù)字典。但是正是由于這些數(shù)據(jù)字典僅局限于個(gè)別系統(tǒng)而沒有統(tǒng)一標(biāo)準(zhǔn),從一個(gè)側(cè)面間接造就了大量的數(shù)據(jù)孤島。企業(yè)為了進(jìn)行更有效率的數(shù)據(jù)整合、數(shù)據(jù)共享和數(shù)據(jù)分析應(yīng)用,開始嘗試對(duì)參考數(shù)據(jù)進(jìn)行企業(yè)或者部門層面的整合和管理,利用參考數(shù)據(jù)集記錄系統(tǒng)嘗試為范圍內(nèi)的IT系統(tǒng)中的數(shù)據(jù)庫提供統(tǒng)一的參考數(shù)據(jù)。
小結(jié)主數(shù)據(jù)則是真實(shí)的企業(yè)業(yè)務(wù)數(shù)據(jù),是企業(yè)的關(guān)鍵業(yè)務(wù)數(shù)據(jù)。
參考數(shù)據(jù)則是對(duì)數(shù)據(jù)的解釋,針對(duì)一些數(shù)據(jù)范圍和取值的數(shù)據(jù)解釋,讓人們?nèi)菀鬃x取相關(guān)的數(shù)據(jù)。
元數(shù)據(jù)是對(duì)數(shù)據(jù)的描述,用于描述企業(yè)數(shù)據(jù)的所有信息和數(shù)據(jù),如結(jié)構(gòu)、關(guān)系、安全需求等,除增加數(shù)據(jù)可讀性外,也是后續(xù)數(shù)據(jù)管理的基礎(chǔ)。
一般而言,企業(yè)中這三類數(shù)據(jù)與其它數(shù)據(jù)的數(shù)據(jù)量、質(zhì)量需求,更新頻率、數(shù)據(jù)生命周期的關(guān)系大致如下圖:
中臺(tái)強(qiáng)調(diào)的是復(fù)用性,利用提高服務(wù)的重復(fù)使用,降低開發(fā)時(shí)間和提高工作效率。但現(xiàn)實(shí)生活中,大量的數(shù)據(jù)孤島和重復(fù)建設(shè)存在,從而存在大量的數(shù)據(jù)指標(biāo)定義不同帶來的歧義問題。由于不同的項(xiàng)目 PM 管理風(fēng)格迥異,存在有些必要信息沒有進(jìn)行存檔,而是通過口口相傳的不靠譜形式,信息準(zhǔn)確性大打折扣。
數(shù)據(jù)中臺(tái)建設(shè)中需要尋找共性數(shù)據(jù),通過數(shù)據(jù)建模,將其進(jìn)行抽取形成一張公共的數(shù)據(jù)大寬表。如何快速了解掌握數(shù)據(jù)關(guān)系,定位表與表之間的共性部分,往往需要對(duì)業(yè)務(wù)有一定的了解,但現(xiàn)實(shí)情況大量的開發(fā)人員只了解自己負(fù)責(zé)的那一個(gè)模塊內(nèi)容,對(duì)于其他人或者項(xiàng)目的內(nèi)容一無所知。
而元數(shù)據(jù)就是為了消除二義性,同時(shí),對(duì)元數(shù)據(jù)的管理,形成結(jié)構(gòu)化的權(quán)威數(shù)據(jù),降低數(shù)據(jù)傳遞成本和提高準(zhǔn)確性。
常見元數(shù)據(jù)分類在沒有元數(shù)據(jù)管理的情況下,從使用問題、管理問題、數(shù)據(jù)問題等三個(gè)方面進(jìn)行說明:
使用問題
管理問題
數(shù)據(jù)問題
定義數(shù)據(jù)倉庫的名稱和業(yè)務(wù)空間,以企業(yè)內(nèi)一個(gè) 相對(duì)獨(dú)立的業(yè)務(wù) 為分配單元。例如,如果業(yè)務(wù)涉及零售、文娛,且系統(tǒng)間 相對(duì)獨(dú)立 ,則需要構(gòu)建兩個(gè)業(yè)務(wù)板塊,即零售、文娛。如果業(yè)務(wù)僅涉及零售,且業(yè)務(wù)內(nèi)的系統(tǒng)間隔離較少,則只需要構(gòu)建一個(gè)業(yè)務(wù)板塊,即零售。
公共定義定義企業(yè)構(gòu)建數(shù)據(jù)所需的全局概念對(duì)象或參數(shù),以 保證全局概念統(tǒng)一 。當(dāng)定義完成后,系統(tǒng)內(nèi)其他指標(biāo)(例如派生指標(biāo))可以按需統(tǒng)一、通用化引用這些對(duì)象,例如統(tǒng)計(jì)周期,年、月、日、每周、每日。
項(xiàng)目管理項(xiàng)目是一種 物理空間上 的劃分。項(xiàng)目管理,即用戶在數(shù)據(jù)中臺(tái)建設(shè)過程中,對(duì)物理資源及開發(fā)人員進(jìn)行隔離化管理。 一個(gè)業(yè)務(wù)板塊可以包含多個(gè)項(xiàng)目 ,每個(gè)系統(tǒng)成員可以加入多個(gè)不同的項(xiàng)目。
維度維度即 進(jìn)行統(tǒng)計(jì)的對(duì)象 。通常情況下,維度是 實(shí)際存在 、不因事件發(fā)生就存在的實(shí)體。創(chuàng)建維度,即從頂層規(guī)范業(yè)務(wù)中的實(shí)體(主數(shù)據(jù)),并保證實(shí)體的唯一性。例如訂單、商品。
業(yè)務(wù)過程業(yè)務(wù)過程即業(yè)務(wù)活動(dòng)中的 所有事件 (它是一個(gè)事件集合)。創(chuàng)建業(yè)務(wù)過程,即從頂層規(guī)范業(yè)務(wù)中事務(wù)內(nèi)容的類型及唯一性。因此業(yè)務(wù)過程是一個(gè)不可拆分的行為事件。例如下單、支付、退款都是業(yè)務(wù)過程。
指標(biāo)指標(biāo)分為原子指標(biāo)和派生指標(biāo)。
原子指標(biāo):對(duì)指標(biāo)統(tǒng)計(jì)口徑(即計(jì)算邏輯)、具體算法的一個(gè)抽象,是業(yè)務(wù)定義中不可再拆分的指標(biāo),例如支付金額。一般都為數(shù)值(統(tǒng)計(jì))。 原子指標(biāo)=業(yè)務(wù)過程(動(dòng)作) 度量, 如支付(事件)金額(度量)。
派生指標(biāo):業(yè)務(wù)中常用的統(tǒng)計(jì)指標(biāo)。派生指標(biāo)=原子指標(biāo) 業(yè)務(wù)限定 統(tǒng)計(jì)周期 統(tǒng)計(jì)粒度。例如,自然周、會(huì)員、采用優(yōu)惠券支付的訂單。
統(tǒng)計(jì)粒度統(tǒng)計(jì)的最小顆粒度,數(shù)據(jù)唯一性的保證,統(tǒng)計(jì)分析的對(duì)象或視角,定義數(shù)據(jù)需要匯總的程度,可以理解為聚合運(yùn)算時(shí)的分組條件(類似于SQL中g(shù)roup by的對(duì)象)。 粒度是維度的一個(gè)組合,指明您的統(tǒng)計(jì)范圍 。例如,某個(gè)指標(biāo)是某個(gè)賣家在某個(gè)省份的成交額,則粒度就是賣家、省份這兩個(gè)維度的組合。
這里需要注意粒度與維度的關(guān)系,通過一個(gè)或多個(gè)維度構(gòu)建粒度。
流程示例
聯(lián)系客服