一、楔子
大數(shù)據(jù)傳統(tǒng)企業(yè)實(shí)施,其路漫漫,絕不會如曇花一現(xiàn),探索大數(shù)據(jù)在傳統(tǒng)行業(yè)的實(shí)施之路,尋找一條適合傳統(tǒng)行業(yè)的企業(yè)大數(shù)據(jù)實(shí)施方法體系,是我執(zhí)著堅(jiān)守的信念,大數(shù)據(jù)是一種信仰,吾將上下而求索。記下項(xiàng)目中的點(diǎn)滴,算是日志,自勉。
二、項(xiàng)目背景
最近在處理一個商業(yè)銀行的大數(shù)據(jù)項(xiàng)目,旨在構(gòu)建大數(shù)據(jù)資源池,項(xiàng)目邊界確認(rèn)過程中,針對項(xiàng)目的定位出現(xiàn)了兩種不同的觀點(diǎn),對大數(shù)據(jù)的在傳統(tǒng)行業(yè)的應(yīng)用有了新的啟發(fā)。觀點(diǎn)一、大數(shù)據(jù)作為操作數(shù)據(jù)歷史庫,存儲操作數(shù)據(jù)庫數(shù)據(jù),提供歷史數(shù)據(jù)長周期,快速檢索的歷史數(shù)據(jù)存儲和快速查詢服務(wù)。觀點(diǎn)二、大數(shù)據(jù)作為數(shù)據(jù)倉庫的的歷史庫,解決數(shù)據(jù)倉庫歷史數(shù)據(jù)存儲的問題,構(gòu)建一個大容量,高可用的數(shù)據(jù)存儲平臺,為全量數(shù)據(jù)分析和知識挖掘提供服務(wù)。作為操作數(shù)據(jù)庫的歷史庫,已經(jīng)完成了項(xiàng)目的實(shí)施,但是作為數(shù)據(jù)倉庫的歷史庫之前的定位一直是取代,基于大數(shù)據(jù)做數(shù)據(jù)分析和知識挖掘,現(xiàn)在卻找到了一個新的切入點(diǎn),才發(fā)現(xiàn),原來二者并不矛盾。
三、數(shù)據(jù)倉庫與操作數(shù)據(jù)庫
數(shù)據(jù)倉庫的定義并無統(tǒng)一的說法,通常的到人們認(rèn)可的概念是:一個面向主題的、集成的、時變的、非易失的數(shù)據(jù)集合,支持管理者的決策過程。簡單點(diǎn)說數(shù)據(jù)倉庫就是一種語義上的數(shù)據(jù)存儲,它充當(dāng)決策支持?jǐn)?shù)據(jù)模型的物理實(shí)現(xiàn),并存放于企業(yè)戰(zhàn)略決策相關(guān)的重要信息。
數(shù)據(jù)倉庫不同于操作數(shù)據(jù)庫,操作數(shù)據(jù)庫的主要任務(wù)是執(zhí)行聯(lián)機(jī)事務(wù)處理和查詢處理,稱作聯(lián)機(jī)事務(wù)處理(OLTP)系統(tǒng)。數(shù)據(jù)倉庫系統(tǒng)在數(shù)據(jù)分析和決策支持方面為用戶或者機(jī)器學(xué)習(xí)提供服務(wù),即聯(lián)機(jī)分析處理(OLAP)。二者的主要區(qū)別在于五個大的方面:
1)用戶系統(tǒng)的面向性:客戶與市場;
2)數(shù)據(jù)內(nèi)容:當(dāng)前與歷史;
3)數(shù)據(jù)庫設(shè)計(jì):ER與面向主題
4)視圖:當(dāng)前與全景
5)訪問模式:原子事務(wù)與只讀操作
傳統(tǒng)模式下數(shù)據(jù)倉庫服務(wù)器通常采用關(guān)系型數(shù)據(jù)庫,也就是說從軟件實(shí)現(xiàn)的角度,數(shù)據(jù)倉庫和操作型數(shù)據(jù)采用的模式是一樣的。這就決定了,數(shù)據(jù)倉庫和操作數(shù)據(jù)庫面臨同樣的問題:行業(yè)壟斷帶來的成本依賴、數(shù)據(jù)模型帶來的存儲瓶頸和運(yùn)算瓶頸。
數(shù)據(jù)倉庫的三層架構(gòu)如下圖所示:
四、大數(shù)據(jù)的位置
數(shù)據(jù)倉庫系統(tǒng)應(yīng)用大數(shù)據(jù)技術(shù)的模式還在探索,但是目前總結(jié)了幾個方面的應(yīng)用。
1)大數(shù)據(jù)作為數(shù)據(jù)倉庫的歷史數(shù)據(jù)存儲系統(tǒng):解決數(shù)據(jù)倉庫只能存儲短時段數(shù)據(jù)的問題
2)構(gòu)建基于大數(shù)據(jù)平臺的數(shù)據(jù)模型,致力于低成本的數(shù)據(jù)挖掘體系:傳統(tǒng)BI的瓶頸在于軟硬件綁定、商業(yè)壟斷和處理性能,基于但數(shù)據(jù)開源體系的算法模型和并行計(jì)算能力,構(gòu)建全量的數(shù)據(jù)分析和挖掘,最終目標(biāo)在于取代原有高成本的BI體系,為企業(yè)降低負(fù)擔(dān)。
3) 實(shí)時+離線模式的確立,可以充分利用企業(yè)已有的IT資源設(shè)施,充分利用成熟的BI技術(shù),從而為企業(yè)提供更好的服務(wù)。
五、遺留問題
大數(shù)據(jù)定位為離線的數(shù)據(jù)倉庫,將會出現(xiàn)三級數(shù)據(jù)存儲模型,實(shí)時操作庫-數(shù)據(jù)倉庫-大數(shù)據(jù)資源池,目標(biāo)有定位已經(jīng)明確,但是具體實(shí)施仍要探索,未完待續(xù)...