国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
大數(shù)據(jù)之?dāng)?shù)據(jù)倉(cāng)庫(kù)分層

大數(shù)據(jù)之?dāng)?shù)據(jù)倉(cāng)庫(kù)分層

1. 什么是數(shù)據(jù)分層?
2. 數(shù)據(jù)分層的好處
一種通用的數(shù)據(jù)分層設(shè)計(jì)
3. 舉例
4. 各層會(huì)用到的計(jì)算引擎和存儲(chǔ)系統(tǒng)
5. 分層實(shí)現(xiàn)
6.數(shù)據(jù)分層的一些概念說明 7.大數(shù)據(jù)相關(guān)基礎(chǔ)概念


1. 什么是數(shù)據(jù)分層?

數(shù)據(jù)分層是一套行之有效的數(shù)據(jù)組織和管理方法,使得數(shù)據(jù)體系更有序。

2. 數(shù)據(jù)分層的好處

(1)清晰數(shù)據(jù)結(jié)構(gòu)
每一個(gè)數(shù)據(jù)分層都有它的作用域和職責(zé),在使用表的時(shí)候能更方便的定位和理解。
(2)減少重復(fù)開發(fā)
規(guī)范數(shù)據(jù)分層,開發(fā)一些通用的中間層數(shù)據(jù),能夠減少極大的重復(fù)計(jì)算。
(3)統(tǒng)一數(shù)據(jù)口徑
通過數(shù)據(jù)分層,提供統(tǒng)一的數(shù)據(jù)出口,統(tǒng)一對(duì)外輸出的數(shù)據(jù)口徑。
(4)復(fù)雜問題簡(jiǎn)單化
將一個(gè)復(fù)雜的任務(wù)分解成多個(gè)步驟完成,每一層解決特定的問題。

一種通用的數(shù)據(jù)分層設(shè)計(jì)
ODS:存放原始數(shù)據(jù)
DW:存放數(shù)倉(cāng)中間層數(shù)據(jù)
APP:面向業(yè)務(wù)定制的應(yīng)用數(shù)據(jù)


3. 舉例

以下是一個(gè)電商網(wǎng)站的數(shù)據(jù)體系設(shè)計(jì),只關(guān)注用戶訪問日志這部分?jǐn)?shù)據(jù)。


4. 各層會(huì)用到的計(jì)算引擎和存儲(chǔ)系統(tǒng)

5.分層實(shí)現(xiàn)

在確定建模思路和模型類型之后,下一步的工作是數(shù)據(jù)分層。數(shù)據(jù)分層可以使得數(shù)據(jù)構(gòu)建體系更加清晰,便于數(shù)據(jù)使用者快速對(duì)數(shù)據(jù)進(jìn)行定位;同時(shí)數(shù)據(jù)分層也可以簡(jiǎn)化數(shù)據(jù)加工處理流程,降低計(jì)算復(fù)雜度。

我們常用的數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)分層通常分為集市層、中間層、基礎(chǔ)數(shù)據(jù)層上下三層結(jié)構(gòu)。由傳統(tǒng)的多層結(jié)構(gòu)減少到上下三層結(jié)構(gòu)的目的是為了壓縮整體數(shù)據(jù)處理流程的長(zhǎng)度,同時(shí)扁平化的數(shù)據(jù)處理流程有助于數(shù)據(jù)質(zhì)量控制和數(shù)據(jù)運(yùn)維。

在上下三層的結(jié)構(gòu)的右側(cè),我們?cè)黾恿肆魇綌?shù)據(jù),將其添加成數(shù)據(jù)體系的一部分。這是因?yàn)楫?dāng)前的數(shù)據(jù)應(yīng)用方向會(huì)越來越關(guān)注數(shù)據(jù)的時(shí)效性,越實(shí)時(shí)的數(shù)據(jù)價(jià)值度越高。

但是,由于流式數(shù)據(jù)集的采集、加工和管理的成本較高,一般都會(huì)按照需求驅(qū)動(dòng)的方式建設(shè);此外,考慮到成本因素,流式數(shù)據(jù)體系的結(jié)構(gòu)更加扁平化,通常不會(huì)設(shè)計(jì)中間層。

下面來具體看下每一層的具體作用。

數(shù)據(jù)基礎(chǔ)層

數(shù)據(jù)基礎(chǔ)層主要完成的工作包括以下幾點(diǎn):

  • 數(shù)據(jù)采集:把不同數(shù)據(jù)源的數(shù)據(jù)統(tǒng)一采集到一個(gè)平臺(tái)上;
  • 數(shù)據(jù)清洗,清洗不符合質(zhì)量要求的數(shù)據(jù),避免臟數(shù)據(jù)參與后續(xù)數(shù)據(jù)計(jì)算;
  • 數(shù)據(jù)歸類,建立數(shù)據(jù)目錄,在基礎(chǔ)層一般按照來源系統(tǒng)和業(yè)務(wù)域進(jìn)行分類;
  • 數(shù)據(jù)結(jié)構(gòu)化,對(duì)于半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù),進(jìn)行結(jié)構(gòu)化;
  • 數(shù)據(jù)規(guī)范化,包括規(guī)范維度標(biāo)識(shí)、統(tǒng)一計(jì)量單位等規(guī)范化操作。

數(shù)據(jù)中間層

數(shù)據(jù)中間層最為重要的目標(biāo)就是把同一實(shí)體不同來源的數(shù)據(jù)打通起來,這是因?yàn)楫?dāng)前業(yè)務(wù)形態(tài)下,同一實(shí)體的數(shù)據(jù)可能分散在不同的系統(tǒng)和來源,且這些數(shù)據(jù)對(duì)同一實(shí)體的標(biāo)識(shí)符可能不同。此外,數(shù)據(jù)中間層還可以從行為中抽象關(guān)系。從行為中抽象出來的基礎(chǔ)關(guān)系,會(huì)是未來上層應(yīng)用一個(gè)很重要的數(shù)據(jù)依賴。例如抽象出的興趣、偏好、習(xí)慣等關(guān)系數(shù)據(jù)是推薦、個(gè)性化的基礎(chǔ)生產(chǎn)資料。

在中間層,為了保證主題的完整性或提高數(shù)據(jù)的易用性,經(jīng)常會(huì)進(jìn)行適當(dāng)?shù)臄?shù)據(jù)冗余。比如某一實(shí)事數(shù)據(jù)和兩個(gè)主題相關(guān)但自身又沒有成為獨(dú)立主題,則會(huì)放在兩個(gè)主題庫(kù)中;為了提高單數(shù)據(jù)表的復(fù)用性和減少計(jì)算關(guān)聯(lián),通常會(huì)在事實(shí)表中冗余部分維度信息。

數(shù)據(jù)集市層

數(shù)據(jù)集市層是上下三層架構(gòu)的最上層,通常是由需求場(chǎng)景驅(qū)動(dòng)建設(shè)的,并且各集市間垂直構(gòu)造。在數(shù)據(jù)集市層,我們可以深度挖掘數(shù)據(jù)價(jià)值。值得注意的是,數(shù)據(jù)集市層需要能夠快速試錯(cuò)。

數(shù)據(jù)架構(gòu)

數(shù)據(jù)架構(gòu)包括數(shù)據(jù)整合、數(shù)據(jù)體系、數(shù)據(jù)服務(wù)三部分。其中,數(shù)據(jù)整合又可以分為結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化三類。

數(shù)據(jù)整合

結(jié)構(gòu)化數(shù)據(jù)采集又可細(xì)分為全量采集、增量采集、實(shí)時(shí)采集三類。三種采集方式的各自特點(diǎn)和適應(yīng)場(chǎng)合如上圖所示,其中全量采集的方式最為簡(jiǎn)單;實(shí)時(shí)采集的采集質(zhì)量最難控制。

在傳統(tǒng)的架構(gòu)中,日志的結(jié)構(gòu)化處理是放在數(shù)倉(cāng)體系之外的。在大數(shù)據(jù)平臺(tái)倉(cāng)庫(kù)架構(gòu)中,日志在采集到平臺(tái)之前不做結(jié)構(gòu)化處理;在大數(shù)據(jù)平臺(tái)上按行符分割每條日志,整條日志存儲(chǔ)在一個(gè)數(shù)據(jù)表字段;后續(xù),通過UDF或MR計(jì)算框架實(shí)現(xiàn)日志結(jié)構(gòu)化。

在我們看來,日志結(jié)構(gòu)越規(guī)范,解析成本越低。在日志結(jié)構(gòu)化的過程中,并不一定需要完全平鋪數(shù)據(jù)內(nèi)容,只需結(jié)構(gòu)化出重要常用字段;同時(shí),為了保障擴(kuò)展性,我們可以利用數(shù)據(jù)冗余保存原始符合字段(如useragent字段)。

非結(jié)構(gòu)化的數(shù)據(jù)需要結(jié)構(gòu)化才能使用。非結(jié)構(gòu)化數(shù)據(jù)特征提取包括語(yǔ)音轉(zhuǎn)文本、圖片識(shí)別、自然語(yǔ)言處理、圖片達(dá)標(biāo)、視頻識(shí)別等方式。盡管目前數(shù)倉(cāng)架構(gòu)體系中并不包含非結(jié)構(gòu)化數(shù)據(jù)特征提取操作,但在未來,這將成為可能。

數(shù)據(jù)服務(wù)化

數(shù)據(jù)服務(wù)化包括統(tǒng)計(jì)服務(wù)、分析服務(wù)和標(biāo)簽服務(wù):

  • 統(tǒng)計(jì)服務(wù)主要是偏傳統(tǒng)的報(bào)表服務(wù),利用大數(shù)據(jù)平臺(tái)將數(shù)據(jù)加工后的結(jié)果放入關(guān)系型數(shù)據(jù)庫(kù)中,供前端的報(bào)表系統(tǒng)或業(yè)務(wù)系統(tǒng)查詢;
  • 分析服務(wù)用來提供明細(xì)的事實(shí)數(shù)據(jù),利用大數(shù)據(jù)平臺(tái)的實(shí)時(shí)計(jì)算能力,允許操作人員自主靈活的進(jìn)行各種維度的交叉組合查詢。分析服務(wù)的能力類似于傳統(tǒng)cube提供的內(nèi)容,但是在大數(shù)據(jù)平臺(tái)下不需要預(yù)先建好cube,更靈活、更節(jié)省成本;
  • 標(biāo)簽服務(wù),大數(shù)據(jù)的應(yīng)用場(chǎng)景下,經(jīng)常會(huì)對(duì)主體進(jìn)行特征刻畫,比如客戶的消費(fèi)能力、興趣習(xí)慣、物理特征等等,這些數(shù)據(jù)通過打標(biāo)簽轉(zhuǎn)換成KV的數(shù)據(jù)服務(wù),用于前端應(yīng)用查詢。

6.數(shù)據(jù)分層的一些概念說明

大數(shù)據(jù)數(shù)據(jù)倉(cāng)庫(kù)是基于HIVE構(gòu)建的數(shù)據(jù)倉(cāng)庫(kù),分布文件系統(tǒng)為HDFS,資源管理為Yarn,計(jì)算引擎主要包括MapReduce/Tez/Spark等,分層架構(gòu)說明如下:

1、數(shù)據(jù)來源層:日志或者關(guān)系型數(shù)據(jù)庫(kù),并通過Flume、Sqoop、Kettle等etl工具導(dǎo)入到HDFS,并映射到HIVE的數(shù)據(jù)倉(cāng)庫(kù)表中。

2、事實(shí)表是數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)中的中央表,它包含聯(lián)系事實(shí)與維度表的數(shù)字度量值和鍵。事實(shí)數(shù)據(jù)表包含描述業(yè)務(wù)(例如產(chǎn)品銷售)內(nèi)特定事件的數(shù)據(jù)。

3、維度表是維度屬性的集合。是分析問題的一個(gè)窗口。是人們觀察數(shù)據(jù)的特定角度,是考慮問題時(shí)的一類屬性,屬性的集合構(gòu)成一個(gè)維。數(shù)據(jù)庫(kù)結(jié)構(gòu)中的星型結(jié)構(gòu),該結(jié)構(gòu)在位于結(jié)構(gòu)中心的單個(gè)事實(shí)數(shù)據(jù)表中維護(hù)數(shù)據(jù),其它維度數(shù)據(jù)存儲(chǔ)在維度表中。每個(gè)維度表與事實(shí)數(shù)據(jù)表直接相關(guān),且通常通過一個(gè)鍵聯(lián)接到事實(shí)數(shù)據(jù)表中。星型架構(gòu)是數(shù)據(jù)倉(cāng)庫(kù)比較流向的一種架構(gòu)。

星型模式的基本思想就是保持立方體的多維功能,同時(shí)也增加了小規(guī)模數(shù)據(jù)存儲(chǔ)的靈活性。

說明:

1)、事實(shí)表就是你要關(guān)注的內(nèi)容;

2)、維度表就是你觀察該事務(wù)的角度,是從哪個(gè)角度去觀察這個(gè)內(nèi)容的。

例如,某地區(qū)商品的銷量,是從地區(qū)這個(gè)角度觀察商品銷量的。事實(shí)表就是銷量表,維度表就是地區(qū)表

4、主題表:主題(Subject)是在較高層次上將企業(yè)信息系統(tǒng)中的數(shù)據(jù)進(jìn)行綜合、歸類和分析利用的一個(gè)抽象概念,每一個(gè)主題基本對(duì)應(yīng)一個(gè)宏觀的分析領(lǐng)域。在邏輯意義上,它是對(duì)應(yīng)企業(yè)中某一宏觀分析領(lǐng)域所涉及的分析對(duì)象。例如“銷售分析”就是一個(gè)分析領(lǐng)域,因此這個(gè)數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用的主題就是“銷售分析”。

面向主題的數(shù)據(jù)組織方式,就是在較高層次上對(duì)分析對(duì)象數(shù)據(jù)的一個(gè)完整并且一致的描述,能刻畫各個(gè)分析對(duì)象所涉及的企業(yè)各項(xiàng)數(shù)據(jù),以及數(shù)據(jù)之間的聯(lián)系。所謂較高層次是相對(duì)面向應(yīng)用的數(shù)據(jù)組織方式而言的,是指按照主題進(jìn)行數(shù)據(jù)組織的方式具有更高的數(shù)據(jù)抽象級(jí)別。與傳統(tǒng)數(shù)據(jù)庫(kù)面向應(yīng)用進(jìn)行數(shù)據(jù)組織的特點(diǎn)相對(duì)應(yīng),數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是面向主題進(jìn)行組織的。例如,一個(gè)生產(chǎn)企業(yè)的數(shù)據(jù)倉(cāng)庫(kù)所組織的主題可能有產(chǎn)品訂貨分析和貨物發(fā)運(yùn)分析等。而按應(yīng)用來組織則可能為財(cái)務(wù)子系統(tǒng)、銷售子系統(tǒng)、供應(yīng)子系統(tǒng)、人力資源子系統(tǒng)和生產(chǎn)調(diào)度子系統(tǒng)。

5、匯總數(shù)據(jù)層:聚合原子粒度事實(shí)表及維度表,為滿足固定分析需求,以提高查詢性能為目的,形成的高粒度表,如周報(bào)、月報(bào)、季報(bào)、年報(bào)等。

6、應(yīng)用層:

為應(yīng)用層,這層數(shù)據(jù)是完全為了滿足具體的分析需求而構(gòu)建的數(shù)據(jù),也是星形結(jié)構(gòu)的數(shù)據(jù)。應(yīng)用層為前端應(yīng)用的展現(xiàn)提現(xiàn)數(shù)據(jù),可以為關(guān)系型數(shù)據(jù)庫(kù)組成。

7、【補(bǔ)充】

數(shù)據(jù)緩存層:

用于存放接口方提供的原始數(shù)據(jù)的數(shù)據(jù)庫(kù)層,此層的表結(jié)構(gòu)與源數(shù)據(jù)保持基本一致,數(shù)據(jù)存放時(shí)間根據(jù)數(shù)據(jù)量大小和項(xiàng)目情況而定,如果數(shù)據(jù)量較大,可以只存近期數(shù)據(jù),將歷史數(shù)據(jù)進(jìn)行備份。此層的目的在于數(shù)據(jù)的中轉(zhuǎn)和備份。

臨時(shí)數(shù)據(jù)表層:

存放臨時(shí)測(cè)試數(shù)據(jù)表(Temp表),或者中間結(jié)果集的表。

7. 大數(shù)據(jù)相關(guān)基礎(chǔ)概念

數(shù)據(jù)源:業(yè)務(wù)系統(tǒng)、埋點(diǎn)、爬蟲
PG:PostgreSQL,一種關(guān)系型數(shù)據(jù)庫(kù)
Sqoop:是一個(gè)在結(jié)構(gòu)化數(shù)據(jù)(mysql/oracle)和Hadoop(Hive)之間進(jìn)行批量數(shù)據(jù)遷移的工具
Flume:是一個(gè)分布式、可靠、高可用的海量日志采集、聚合和傳輸?shù)南到y(tǒng)。支持在日志系統(tǒng)中定制各類數(shù)據(jù)發(fā)送方,用于收集數(shù)據(jù);提供對(duì)數(shù)據(jù)進(jìn)行簡(jiǎn)單處理,并寫到各種數(shù)據(jù)接受方(HDFS\Hbase)的能力。
Kafka:是一個(gè)分布式、支持分區(qū)的、多副本的,基于zookeeper協(xié)調(diào)的分布式消息系統(tǒng)。
Flink:一個(gè)流式的數(shù)據(jù)流執(zhí)行引擎。針對(duì)數(shù)據(jù)流的分布式計(jì)算提供了數(shù)據(jù)分布、數(shù)據(jù)通信以及容錯(cuò)機(jī)制等功能。
Kylin:是一個(gè)開源的分布式分析引擎,提供Hadoop/Spark之上的SQL查詢接口及多維分析(OLAP)能力一直吃超大規(guī)模數(shù)據(jù)。能在亞秒內(nèi)查詢巨大的Hive表。
ES:elasticsSearch,是一個(gè)高擴(kuò)展、開源的全文檢索和分析引擎,可準(zhǔn)實(shí)時(shí)地快速存儲(chǔ)、搜索、分析海量的數(shù)據(jù)。
Hadoop:是一個(gè)分布式系統(tǒng)基礎(chǔ)架構(gòu),可使用戶在不了解分布式底層細(xì)節(jié)的情況下開發(fā)分布式程序,充分利用集群的威力進(jìn)行高速運(yùn)算和存儲(chǔ)。兩大核心:HDFS\MapReduce
HDFS:是可擴(kuò)展、容錯(cuò)、高性能的分布式文件系統(tǒng),異步復(fù)制,一次寫入多次讀取,主要負(fù)責(zé)存儲(chǔ)。
MapReduce:分布式計(jì)算框架。
Spark:是一個(gè)專為大規(guī)模數(shù)據(jù)處理而設(shè)計(jì)的快速通用的計(jì)算引擎。

本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
企業(yè)大數(shù)據(jù)平臺(tái)倉(cāng)庫(kù)架構(gòu)建設(shè)思路
大數(shù)據(jù)平臺(tái)架構(gòu)
傳統(tǒng)數(shù)倉(cāng)如何轉(zhuǎn)型大數(shù)據(jù)
一張圖,詳解大數(shù)據(jù)技術(shù)架構(gòu)
Hadoop/Hive簡(jiǎn)介
如何從0到1搭建大數(shù)據(jù)平臺(tái)
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長(zhǎng)圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服