国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
數(shù)據(jù)湖詳解

什么是數(shù)據(jù)湖?

維基上對它的解釋:數(shù)據(jù)湖(Data Lake)是一個以原始格式存儲數(shù)據(jù)的存儲庫或系統(tǒng)。它按原樣存儲數(shù)據(jù),而無需事先對數(shù)據(jù)進行結(jié)構(gòu)化處理。一個數(shù)據(jù)湖可以存儲結(jié)構(gòu)化數(shù)據(jù)(如關系型數(shù)據(jù)庫中的表),半結(jié)構(gòu)化數(shù)據(jù)(如CSV、日志、XML、JSON),非結(jié)構(gòu)化數(shù)據(jù)(如電子郵件、文檔、PDF)和二進制數(shù)據(jù)(如圖形、音頻、視頻)。

數(shù)據(jù)湖的由來?

數(shù)據(jù)湖最早是由Pentaho的創(chuàng)始人兼CTO, James Dixon,在2010年10月紐約Hadoop World大會上提出來的。當時Pentaho剛剛發(fā)布了Hadoop的第一個版本。在這樣的一個大背景下,可以合理的猜測,當時James Dixon提出數(shù)據(jù)湖的概念,是為了推廣自家的Pentaho產(chǎn)品以及Hadoop的。

Pentaho是個BI分析組件。當時的BI分析主要是基于數(shù)據(jù)市場(Data Mart)的。數(shù)據(jù)市場的建立需要事先識別出感興趣的字段、屬性,并對數(shù)據(jù)進行聚合處理。這樣BI分析面臨兩個問題:

  1. 只使用一部分屬性,這些數(shù)據(jù)只能回答預先定義好(pre-determined)的問題。

  2. 數(shù)據(jù)被聚合了,最低層級的細節(jié)丟失了,能回答的問題被限制了。

而基于Hadoop的BI分析,可以解決這個問題——把所有數(shù)據(jù)都原樣存在Hadoop中,后面需要的時候再來取用。如果說數(shù)據(jù)集市、數(shù)據(jù)倉庫里面是瓶裝的水——它是清潔的、打包好的、擺放整齊方便取用的;那么數(shù)據(jù)湖里面就是原生態(tài)的水——它是未經(jīng)處理的,原汁原味的。數(shù)據(jù)湖中的水從源頭流入湖中,各種用戶都可以來湖里獲取、蒸餾提純這些水(數(shù)據(jù))。

由此,數(shù)據(jù)湖的概念被提出來了,并引起了大家的普遍關注。

后來,不知怎么,又有一個新的特性加進來了:就是數(shù)據(jù)湖可以解決數(shù)據(jù)孤島問題?!@個想法似乎也挺符合數(shù)據(jù)湖的理念的。各種數(shù)據(jù)源都匯聚到一個湖里,自然就解決了數(shù)據(jù)孤島問題?!@應該并不是James的本意。從他后來的blog中可以看出,他所認為的數(shù)據(jù)湖是這樣的:

  1. 數(shù)據(jù)湖應該是來源于單一的數(shù)據(jù)源;

  2. 你可以有多個數(shù)據(jù)湖;

  3. 如果存儲來自多個系統(tǒng)的數(shù)據(jù)并對他們進行關聯(lián),那么這不是數(shù)據(jù)湖,而是由多個數(shù)據(jù)湖填充而成的水上花園(Water Garden)

不過,創(chuàng)始人怎么想已經(jīng)不重要了……目前大家普遍認為,解決數(shù)據(jù)孤島是數(shù)據(jù)湖的一大特點,畢竟這是一個看上去很美好的事。但是,把解決數(shù)據(jù)孤島作為數(shù)據(jù)湖的使命,也確實引入了不少問題。

數(shù)據(jù)湖有哪些優(yōu)勢?

  • 輕松地收集數(shù)據(jù):數(shù)據(jù)湖與數(shù)據(jù)倉庫的一大區(qū)別就是,Schema On Read,即在使用數(shù)據(jù)時才需要Schema信息;而數(shù)據(jù)倉庫是Schema On Write,即在存儲數(shù)據(jù)時就需要設計好Schema。這樣,由于對數(shù)據(jù)寫入沒有限制,數(shù)據(jù)湖可以更容易的收集數(shù)據(jù)。

  • 從數(shù)據(jù)中發(fā)掘更多價值:數(shù)據(jù)倉庫和數(shù)據(jù)市場由于只使用數(shù)據(jù)中的部分屬性,所以只能回答一些事先定義好的問題;而數(shù)據(jù)湖存儲所有最原始、最細節(jié)的數(shù)據(jù),所以可以回答更多的問題。并且數(shù)據(jù)湖允許組織中的各種角色通過自助分析工具,對數(shù)據(jù)進行分析,以及利用AI、機器學習的技術,從數(shù)據(jù)中發(fā)掘更多的價值。

  • 消除數(shù)據(jù)孤島:數(shù)據(jù)湖中匯集了來自各個系統(tǒng)中的數(shù)據(jù),這就消除了數(shù)據(jù)孤島問題。

  • 具有更好的擴展性和敏捷性:數(shù)據(jù)湖可以利用分布式文件系統(tǒng)來存儲數(shù)據(jù),因此具有很高的擴展能力。開源技術的使用還降低了存儲成本。數(shù)據(jù)湖的結(jié)構(gòu)沒那么嚴格,因此天生具有更高的靈活性,從而提高了敏捷性。

數(shù)據(jù)湖的實現(xiàn)遇到了哪些問題?

數(shù)據(jù)湖剛提出來時,只是一個樸素的理念。而從理念變成一個可以落地的系統(tǒng),就面臨著許多不得不考慮的現(xiàn)實問題:

首先,把所有原始數(shù)據(jù)都存儲下來的想法,要基于一個前提,就是存儲成本很低。而今數(shù)據(jù)產(chǎn)生的速度越來越快、產(chǎn)生的量越來越大的情況下,把所有原始數(shù)據(jù),不分價值大小,都存儲下來,這個成本在經(jīng)濟上能不能接受,可能需要打一個問號。

其次,數(shù)據(jù)湖中存放這各類最原始的明細數(shù)據(jù),包括交易數(shù)據(jù)、用戶數(shù)據(jù)等敏感數(shù)據(jù),這些數(shù)據(jù)的安全怎么保證?用戶訪問的權限如何控制?

再次,湖中的數(shù)據(jù)怎么治理?誰對數(shù)據(jù)的質(zhì)量、數(shù)據(jù)的定義、數(shù)據(jù)的變更負責?如何確保數(shù)據(jù)的定義、業(yè)務規(guī)則的一致性?

數(shù)據(jù)湖的理念很好,但是它現(xiàn)在還缺乏像數(shù)據(jù)倉庫那樣,有一整套方法論為基礎,有一系列具有可操作性的工具和生態(tài)為支撐。正因如此,目前把Hadoop用來對特定的、高價值的數(shù)據(jù)進行處理,構(gòu)建數(shù)據(jù)倉庫的模式,取得了較多的成功;而用來落實數(shù)據(jù)湖理念的模式,遭遇了一系列的失敗。這里,總結(jié)一些典型的數(shù)據(jù)湖失敗的原因:

  1. 數(shù)據(jù)沼澤:當越來越多的數(shù)據(jù)接入到數(shù)據(jù)湖中,但是卻沒有有效的方法跟蹤這些數(shù)據(jù),數(shù)據(jù)沼澤就發(fā)生了。在這種失敗中,人們把所有東西都放在HDFS中,期望以后可以發(fā)掘些什么,可沒多久他們就忘那里有什么。

  2. 數(shù)據(jù)泥團:各種各樣的新數(shù)據(jù)接入進數(shù)據(jù)湖中,它們的組織形式、質(zhì)量都不一樣。 由于缺乏用于檢查,清理和重組數(shù)據(jù)的自助服務工具,使得這些數(shù)據(jù)很難創(chuàng)造價值。

  3. 缺乏自助分析工具:由于缺乏好用的自助分析工具,直接對數(shù)據(jù)湖中的數(shù)據(jù)分析很困難。一般都是數(shù)據(jù)工程師或開發(fā)人員創(chuàng)建一個整理后的小部分數(shù)據(jù)集,把這些數(shù)據(jù)集交付給更廣泛的用戶,以便他們使用熟悉的工具進行數(shù)據(jù)分析。這限制了更廣泛的人參與到探索大數(shù)據(jù)中,降低了數(shù)據(jù)湖的價值。

  4. 缺乏建模的方法論和工具:在數(shù)據(jù)湖中,似乎每一項工作都得從頭開始,因為以前的項目產(chǎn)生的數(shù)據(jù)幾乎沒有辦法重用。 其實,我們罵數(shù)據(jù)倉庫很難變化以適應新需求,這其中有個原因就是它花很多時間來對數(shù)據(jù)進行建模,而正是有了這些建模,使得數(shù)據(jù)可以共享和重用。數(shù)據(jù)湖也需要為數(shù)據(jù)建模,不然每次分析師都得從頭開始。

  5. 缺少數(shù)據(jù)安全管理:通常的想法是每個人都可以訪問所有數(shù)據(jù),但這是行不通的。企業(yè)對自己的數(shù)據(jù)是有保護本能的,最終一定是需要數(shù)據(jù)安全管理的。

  6. 一個數(shù)據(jù)湖搞定一切:大家都對能在一個庫中存儲所有數(shù)據(jù)的想法很興奮。然而,數(shù)據(jù)湖之外總會有新的存儲庫,很難把他們?nèi)枷麥绲簟?其實,大多數(shù)公司所需的,是可以對多種存儲庫聯(lián)合訪問功能。是不是在一個地方存儲,并不是那么重要。

數(shù)據(jù)湖應該具備哪些能力?

  1. 數(shù)據(jù)集成能力
    需要具備把各種數(shù)據(jù)源接入集成到數(shù)據(jù)湖中的能力。數(shù)據(jù)湖的存儲也應該是多樣的,比如HDFS、HIVE、HBASE等等。

  2. 數(shù)據(jù)治理能力
    治理能力的核心是維護好數(shù)據(jù)的元數(shù)據(jù)(metadata)。強制要求所有進入數(shù)據(jù)湖的數(shù)據(jù)必須提供相關元數(shù)據(jù),應該作為最低限度的治理管控。沒有元數(shù)據(jù),數(shù)據(jù)湖就面臨成為數(shù)據(jù)沼澤的風險。更豐富的功能還包括:

    • 自動提取元元數(shù)據(jù),并根據(jù)元數(shù)據(jù)對數(shù)據(jù)進行分類,形成數(shù)據(jù)目錄。

    • 自動對數(shù)據(jù)目錄進行分析,可以基于AI和機器學習的方法,發(fā)現(xiàn)數(shù)據(jù)之間的關系。

    • 自動建立數(shù)據(jù)之間血緣關系圖。

    • 跟蹤數(shù)據(jù)的使用情況,以便將數(shù)據(jù)作為產(chǎn)品,形成數(shù)據(jù)資產(chǎn)。

  3. 數(shù)據(jù)搜索和發(fā)現(xiàn)能力
    如果把整個互聯(lián)網(wǎng)想象成一個巨大的數(shù)據(jù)湖。那么,之所以人們可以這么有效的利用這個湖中的數(shù)據(jù),就是因為有了Google這樣的搜索引擎。人們可以通過搜索,方便地找到他們想要的數(shù)據(jù),進而進行分析。搜索能力是數(shù)據(jù)湖的十分重要的能力。

  4. 數(shù)據(jù)安全管控能力
    對數(shù)據(jù)的使用權限進行管控,對敏感數(shù)據(jù)進行脫敏或加密處理,也是數(shù)據(jù)湖能商用所必須具備的能力。

  5. 數(shù)據(jù)質(zhì)量檢驗能力
    數(shù)據(jù)質(zhì)量是分析正確的關鍵。因此必須對進入數(shù)據(jù)湖中的數(shù)據(jù)的質(zhì)量情況進行檢驗。及時發(fā)現(xiàn)數(shù)據(jù)湖中數(shù)據(jù)質(zhì)量的問題。為有效的數(shù)據(jù)探索提供保障。

  6. 自助數(shù)據(jù)探索能力
    應該具備一系列好用的數(shù)據(jù)分析工具,以便各類用戶可以對數(shù)據(jù)湖中的數(shù)據(jù)進行自助探索。包括:

    • 支持對流、NoSQL、圖等多種存儲庫的聯(lián)合分析能力

    • 支持交互式的大數(shù)據(jù)SQL分析

    • 支持AI、機器學習分析

    • 支持類似OLAP的BI分析

    • 支持報表的生成

本站僅提供存儲服務,所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權內(nèi)容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
數(shù)據(jù)湖很美好,但并不被需要 by 大魚先生
宜信技術實踐:漫談“數(shù)據(jù)湖”,價值與架構(gòu)
大數(shù)據(jù)云原生時代,為什么說湖倉一體代表了未來?
?孫家廣院士:大數(shù)據(jù)軟件的機遇與挑戰(zhàn)
2019年大數(shù)據(jù)的10大發(fā)展趨勢
CIO:2015年5個大數(shù)據(jù)技術預測
更多類似文章 >>
生活服務
分享 收藏 導長圖 關注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服