国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
數(shù)據(jù)湖,比“數(shù)據(jù)中臺”更需要重視的概念
2020-09-08 10:01

數(shù)據(jù)湖,比“數(shù)據(jù)中臺”更需要重視的概念

本文來自微信公眾號:騰訊研究院(ID:cyberlawrc),作者:火雪挺(騰研識者、騰訊CSIG資深架構(gòu)師)

一件事物若能經(jīng)得起時(shí)間的推敲,經(jīng)得起歷史的選擇,回過頭去看仍能矗立在長河之中,那我們通常會稱它為“經(jīng)典”。

10年前,Pentaho公司(一家開源BI公司)的CTO詹姆斯·迪克森在他的博客中第一次提出“數(shù)據(jù)湖”(Data Lake)的概念;10年后的今天,在業(yè)界“數(shù)據(jù)中臺”大火的時(shí)代背景下,再來討論“數(shù)據(jù)湖”,應(yīng)該別有一番韻味。

本文將會以“數(shù)據(jù)湖”為中心,展開討論數(shù)據(jù)倉庫、數(shù)據(jù)湖和數(shù)據(jù)中臺這幾個(gè)概念之間的藕斷絲連。

從“數(shù)據(jù)倉庫”到“數(shù)據(jù)湖”:歷史的演變

事物總是在不斷演化的,唯一不變的就是變化,因此為了討論這些概念,我們首先要了解其歷史流變。

“數(shù)據(jù)倉庫”,由比爾·恩門(Bill Inmon)于1990年提出,其被廣泛接受的定義是,一個(gè)面向主題的、集成的、相對穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合,用于支持管理決策,通常也被認(rèn)為是決策支持型應(yīng)用的必要條件。

此處的定義大多都是針對事務(wù)型數(shù)據(jù)系統(tǒng)而制定的。所謂事務(wù)型數(shù)據(jù)系統(tǒng),是指記錄業(yè)務(wù)交易的系統(tǒng),這個(gè)名詞先是在金融業(yè),特別是銀行實(shí)施信息化IT系統(tǒng)時(shí)使用的。例如銀行的交易流水?dāng)?shù)據(jù)庫,每分每秒都有大量的交易被數(shù)據(jù)庫所記錄并持久化的保存下來,其最小的顆粒度就是一筆“交易”。后來信息化系統(tǒng)在各行各業(yè)開花結(jié)果,“業(yè)務(wù)”漸漸演變?yōu)楝F(xiàn)在的“事務(wù)”概念,例如員工刷卡進(jìn)入辦公室,后臺就會記錄員工的這一“事務(wù)行為”。

事務(wù)性數(shù)據(jù)系統(tǒng)存在諸多劣勢:試想,如果一個(gè)銀行的分行長想知道今天到目前為止共有多少現(xiàn)鈔存款入賬,那么系統(tǒng)就需要遍歷今天截止到目前的所有交易行為,并篩選其中的存款行為進(jìn)行匯總。查詢交易的行為需要遍歷當(dāng)前系統(tǒng)的所有記錄,因此當(dāng)這一行為頻率變高時(shí),會對數(shù)據(jù)系統(tǒng)造成巨大的讀取壓力。

其次,當(dāng)分析業(yè)務(wù)時(shí)需要的信息變多,也就是查詢行為的數(shù)據(jù)對象范圍變廣時(shí),例如分行長想知道今天一共有多少人民幣現(xiàn)匯(包括外幣購匯)入賬時(shí),系統(tǒng)需要將每筆外匯交易換算成人民幣,再進(jìn)行全部交易的匯總。假設(shè)有一百種外幣進(jìn)行了一萬次的交易,數(shù)據(jù)系統(tǒng)內(nèi)的計(jì)算空間會呈“笛卡爾積”般的增長,造成資源上的重大消耗。

“笛卡爾乘積是指在數(shù)學(xué)中,兩個(gè)集合X和Y的笛卡爾積(Cartesianproduct),又稱直積,表示為X × Y,第一個(gè)對象是X的成員而第二個(gè)對象是Y的所有可能有序?qū)Φ钠渲幸粋€(gè)成員?!?/p>

除開查詢或分析任務(wù)對事務(wù)型數(shù)據(jù)系統(tǒng)造成的資源壓力外,系統(tǒng)執(zhí)行任務(wù)時(shí),返回的結(jié)果只代表著任務(wù)開始運(yùn)行那一刻的數(shù)據(jù)狀態(tài),假設(shè)執(zhí)行查詢?nèi)蝿?wù)消耗了1分鐘,這1分鐘內(nèi)很有可能發(fā)生多次的交易撤銷、額度修改,增加交易等行為。有些數(shù)據(jù)系統(tǒng)允許在讀取數(shù)據(jù)的同時(shí)寫入數(shù)據(jù),那么查詢?nèi)蝿?wù)返回的結(jié)果并不能代表最新的狀態(tài);有些數(shù)據(jù)系統(tǒng)則有“讀鎖”,即在讀取數(shù)據(jù)的時(shí)候不允許寫入數(shù)據(jù),那么這個(gè)長達(dá)1分鐘的查詢?nèi)蝿?wù)會使得業(yè)務(wù)交易失敗或者暫緩進(jìn)入數(shù)據(jù)系統(tǒng),如果其中發(fā)生業(yè)務(wù)中斷,這些交易數(shù)據(jù)可能面臨丟失的風(fēng)險(xiǎn)。

當(dāng)然,我們可以通過技術(shù)手段來避免或緩解事務(wù)型數(shù)據(jù)系統(tǒng)的不足,因此事務(wù)型的數(shù)據(jù)庫并不是不能做業(yè)務(wù)分析,只是當(dāng)決策者需要進(jìn)行經(jīng)營性的分析和決策時(shí),大多數(shù)時(shí)候它并非最優(yōu)方案。此時(shí),數(shù)據(jù)倉庫面向主題且便于分析的優(yōu)勢就體現(xiàn)出來了:

1. 面向主題的:

相對于事務(wù)型系統(tǒng)將交易類型(存款)、交易幣種(人民幣或外幣)、交易數(shù)值(存款額)以一條事務(wù)(Transcation)的方式存儲,數(shù)據(jù)倉庫通常會將一條事務(wù)中的不同信息拆分到不同的主題域中分別存儲,例如交易類型表、交易幣種表和交易額度表等。

2. 集成的:

不同主題域中的信息之間以統(tǒng)一的ID,如交易流水號為標(biāo)識進(jìn)行鏈接。

這樣的好處是當(dāng)分行長想知道今天到目前為止一共有多少人民幣存款入賬時(shí),只需要先篩選出交易類型為存款,交易幣種為人民幣的交易流水號,再基于這些流水號去匯總交易額度,比起原先需要遍歷全部交易記錄后才能匯總的方式大大節(jié)約了系統(tǒng)資源的開銷。

3. 相對穩(wěn)定的:

通常數(shù)據(jù)倉庫和事務(wù)型數(shù)據(jù)系統(tǒng)會被物理隔離在不同的硬件資源上,前者注重?cái)?shù)據(jù)的查詢(讀?。笳咦⒅?cái)?shù)據(jù)的錄入(寫入),避免了單一數(shù)據(jù)系統(tǒng)讀寫沖突的問題。

事務(wù)型數(shù)據(jù)系統(tǒng)由于直接應(yīng)對業(yè)務(wù)的多樣性,交易的增加、更改和刪除非常頻繁,這些變化有時(shí)候采用對沖的方式做記錄,有時(shí)候在原有的記錄上直接做更改,導(dǎo)致系統(tǒng)處于一直變化的狀態(tài);

而數(shù)據(jù)倉庫通常以時(shí)間窗口作為數(shù)據(jù)批量導(dǎo)入的分區(qū),例如每一小時(shí)或一天從事務(wù)型系統(tǒng)導(dǎo)入一次數(shù)據(jù),在下一次數(shù)據(jù)導(dǎo)入任務(wù)開始之前,系統(tǒng)處于一個(gè)相對穩(wěn)定的狀態(tài),有利于進(jìn)行經(jīng)營性的業(yè)務(wù)分析。

4. 反映歷史變化的:

正是由于通常數(shù)據(jù)倉庫中的數(shù)據(jù)是基于預(yù)先設(shè)定好的時(shí)間窗口從事務(wù)型系統(tǒng)中獲取數(shù)據(jù),無論是一分鐘、一小時(shí)還是一天、一周,它都是可以反映數(shù)據(jù)整體歷史變化的,分行長可以清楚地知道今天銀行的人民幣存款入賬環(huán)比昨天增長或減少了多少,同比上個(gè)月的今天又發(fā)生了什么變化。

因此,比起事務(wù)型的數(shù)據(jù)系統(tǒng),數(shù)據(jù)倉庫能更有效地對業(yè)務(wù)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,無論是在提高效率、穩(wěn)定性還是降低資源成本上都有其優(yōu)勢,所以被廣為接受而大行其道。我們可以清楚地看到,數(shù)據(jù)倉庫是數(shù)據(jù)處理中一種特定的實(shí)施方法。

后來,數(shù)據(jù)倉庫領(lǐng)域的大師Ralph Kimball又演化出“維度建?!钡母拍?,認(rèn)為數(shù)據(jù)倉庫是一系列數(shù)據(jù)集市的集合。如果說數(shù)據(jù)倉庫中包含著許多不同的主題域,那么數(shù)據(jù)集市可以理解為主要面向業(yè)務(wù)應(yīng)用的單一主題域。比如,分行長可以建設(shè)面向存儲部門的、專門提供存款數(shù)據(jù)的“存款數(shù)據(jù)集市”,面向商業(yè)貸款部門的“貸款數(shù)據(jù)集市”,面向信用卡部門的“信用卡數(shù)據(jù)集市”等,其數(shù)據(jù)都源自數(shù)據(jù)倉庫,但數(shù)據(jù)集市的匯總程度更高、更注重業(yè)務(wù)表示。例如“環(huán)比存款增長率”這個(gè)指標(biāo)在數(shù)據(jù)倉庫中可能表示為“上月存款額”和“本月存款額”兩個(gè)不同的數(shù)值,而在數(shù)據(jù)集市或者數(shù)據(jù)倉庫的“集市層”中,就表示為計(jì)算后的一個(gè)數(shù)值,可以直接被業(yè)務(wù)所用而無需再做多余的計(jì)算。

圖片來源unsplash

而“數(shù)據(jù)湖”這個(gè)概念,由Pentaho公司的CTO詹姆斯·迪克森于2010年提出,這里漸漸開始有了商業(yè)的味道。他認(rèn)為:

“如果你認(rèn)為一個(gè)數(shù)據(jù)集市可以看作是桶裝水店——提供了清洗、包裝和組織等服務(wù)以方便用戶消費(fèi),那‘?dāng)?shù)據(jù)湖’就是一個(gè)擁有更自然狀態(tài)的大的水體。來自源頭的內(nèi)容流補(bǔ)充到湖中,各類客戶可以來湖中檢測、探索以及獲取樣本?!?nbsp;

因?yàn)楫?dāng)時(shí)業(yè)界正興起“XaaS”的風(fēng)潮,例如軟件即服務(wù)(SaaS,Software as a Service),平臺即服務(wù)(PaaS,Platform as a Service),基礎(chǔ)設(shè)施即服務(wù)(Iaas,Infrastructure as a Service),甚至還有解決方案即服務(wù)(SolaaS,Solution as a Service)以及數(shù)據(jù)中心即服務(wù)(DCaaS,Data Center as a Service)。在這一背景下,已發(fā)展成熟的公有云能力為數(shù)據(jù)湖體系架構(gòu)的發(fā)展奠定基礎(chǔ),催生“數(shù)據(jù)湖”的概念。

接著在2011年,福布斯在文章《Big Data Requires a Big, New Architecture》中報(bào)道了“data lake”這個(gè)詞,并給出了數(shù)據(jù)倉庫與數(shù)據(jù)湖的對比:數(shù)據(jù)倉庫的數(shù)據(jù)在被集成時(shí)就會被預(yù)先分類,并以最優(yōu)的方式進(jìn)行存儲,以支撐特定的分析;但在大數(shù)據(jù)時(shí)代,我們從源系統(tǒng)抽取數(shù)據(jù)時(shí)可能無法明確知道這些數(shù)據(jù)的價(jià)值,因此無法給出一個(gè)最優(yōu)的存儲方式。

例如,分行長從交易系統(tǒng)中將所有的數(shù)據(jù)都抽取過來,但并不知道業(yè)務(wù)部門想做什么類型反映業(yè)務(wù)歷史的變化。因此建議將這些數(shù)據(jù)先保存在一個(gè)海量的數(shù)據(jù)庫中。由于數(shù)據(jù)來源的格式五花八門而且會越存越多,因此這個(gè)數(shù)據(jù)庫需要具備容易訪問且存儲成本低(允許硬件資源擴(kuò)容的成本而盡可能降低其他成本,例如軟件使用費(fèi)用、人工維護(hù)費(fèi)用等)的特性,需要進(jìn)行分析時(shí),再來組織和篩選所需數(shù)據(jù),這個(gè)數(shù)據(jù)庫就是數(shù)據(jù)湖(Data Lake)。

彼時(shí)的數(shù)據(jù)湖概念更多地是關(guān)于當(dāng)企業(yè)在處理海量異構(gòu)的數(shù)據(jù)時(shí),如何在數(shù)據(jù)產(chǎn)生實(shí)際的應(yīng)用價(jià)值之前,為海量數(shù)據(jù)構(gòu)建一個(gè)易訪問且成本低的存儲方式,和數(shù)據(jù)資產(chǎn)化、資產(chǎn)服務(wù)化等當(dāng)下熱點(diǎn)名詞并沒有太大關(guān)系。但事物都是在不斷演化的,2014年福布斯雜志上刊登了一篇名為《The Data Lake Dream》的文章,文章作者EddDumbill描述了數(shù)據(jù)湖的愿景:

  • 融合所有數(shù)據(jù),解決系統(tǒng)間數(shù)據(jù)孤島、各類應(yīng)用統(tǒng)一訪問問題;

  • 數(shù)據(jù)可獲取性提高,應(yīng)用部署時(shí)間縮短;

  • 具有彈性的分布數(shù)據(jù)處理的平臺,能同時(shí)支撐批量和實(shí)時(shí)數(shù)據(jù)操作處理和分析;

  • 數(shù)據(jù)湖增加安全和管控層面的功能;

  • 重視集中、自動的元數(shù)據(jù)管理和入湖標(biāo)準(zhǔn),避免成為沒有價(jià)值的數(shù)據(jù)。

從這個(gè)時(shí)候開始,單純的數(shù)據(jù)湖就朝向一個(gè)“平臺級的方案”而演進(jìn)。為什么說是方案呢,因?yàn)闀r(shí)至今日,數(shù)據(jù)湖仍是個(gè)架構(gòu)概念,是一種架構(gòu)設(shè)計(jì)的理念,而不是一種特定的實(shí)施方法,更不是一款特定的產(chǎn)品。其所要達(dá)成的目標(biāo)囊括了不止一種數(shù)據(jù)技術(shù),已經(jīng)從當(dāng)初的一種“大數(shù)據(jù)存算方案”進(jìn)階到了“大數(shù)據(jù)存算+處理分析+資產(chǎn)治理+安全隱私+數(shù)據(jù)變現(xiàn)”的一攬子方案。

10年前,迪克森曾認(rèn)為“數(shù)據(jù)湖”是面向企業(yè)的最佳大數(shù)據(jù)解決方案。從技術(shù)上來看,其論點(diǎn)是有根據(jù)的,但是從商業(yè)價(jià)值上來看,這個(gè)愿景似乎并沒有被實(shí)現(xiàn)。實(shí)際情況是過去數(shù)據(jù)倉庫的落地實(shí)踐要遠(yuǎn)比數(shù)據(jù)湖來的多和廣。而就在現(xiàn)今所有人都在強(qiáng)調(diào)數(shù)據(jù)資產(chǎn)化、資產(chǎn)業(yè)務(wù)化,強(qiáng)調(diào)數(shù)據(jù)變現(xiàn)和數(shù)據(jù)商業(yè)價(jià)值的年代,數(shù)據(jù)中臺的概念似乎又代替了數(shù)據(jù)湖的概念。

數(shù)據(jù)中臺,由于受到從業(yè)者的追捧并在這兩年瘋狂流行,隔著屏幕應(yīng)該都可以嗅到濃重的商業(yè)氣息,但目前對其仍然沒有清晰明朗的定義。當(dāng)大多數(shù)人努力想要為數(shù)據(jù)中臺做名詞解釋時(shí),我倒認(rèn)為這個(gè)局面十分恰當(dāng)且正常。首先,數(shù)據(jù)中臺的概念如同數(shù)據(jù)湖一樣,是一種架構(gòu)概念;其次,它不僅是工程設(shè)計(jì)上的技術(shù)架構(gòu),還包括了組織架構(gòu)的變革,因?yàn)橹信_通常會強(qiáng)調(diào)其作為一個(gè)企業(yè)組織運(yùn)作的“獨(dú)立性”、“中央性”和“統(tǒng)一性”。

中臺作為抽離原來各個(gè)數(shù)據(jù)部門共性業(yè)務(wù)、由技術(shù)和人員并提供統(tǒng)一數(shù)據(jù)、產(chǎn)品及服務(wù)的“共享業(yè)務(wù)事業(yè)部”,無論在業(yè)務(wù)功能上還是工程技術(shù)上都會有其獨(dú)立運(yùn)作,數(shù)據(jù)權(quán)威和統(tǒng)一分發(fā)的訴求,因此其組織承載的考核目標(biāo)及衡量標(biāo)準(zhǔn)較原先的數(shù)據(jù)倉庫、數(shù)據(jù)湖等技術(shù)概念而有所不同,特別是在“數(shù)據(jù)驅(qū)動業(yè)務(wù)”、“數(shù)字化轉(zhuǎn)型”的時(shí)代大背景下,它們是和企業(yè)的總體業(yè)務(wù)目標(biāo)緊密相關(guān)的,不再只是一個(gè)“旁路IT系統(tǒng)”,不再只是一個(gè)業(yè)務(wù)信息化的支撐系統(tǒng),而是產(chǎn)生并驅(qū)動業(yè)務(wù)的關(guān)鍵環(huán)節(jié)。數(shù)據(jù)中臺應(yīng)當(dāng)是企業(yè)組織和技術(shù)架構(gòu)的有機(jī)結(jié)合體。

技術(shù)商業(yè)化應(yīng)用之動力:業(yè)務(wù)的訴求

科學(xué)技術(shù)的發(fā)展有其自有的原發(fā)性,而商業(yè)世界里對一項(xiàng)技術(shù)的認(rèn)可并將其廣泛商業(yè)化應(yīng)用的動力,仍來自于商業(yè)目的的要求。數(shù)據(jù)技術(shù)也是如此,業(yè)務(wù)訴求的發(fā)展推進(jìn)了技術(shù)的革新。

大數(shù)據(jù)平臺,數(shù)據(jù)湖,數(shù)據(jù)倉庫和數(shù)據(jù)中臺這些概念有什么不同,到底是誰代替了誰?我相信非專業(yè)領(lǐng)域的從業(yè)人員每當(dāng)看到這些詞匯的時(shí)候或多或少有這樣的困惑。我認(rèn)為,這里并沒有誰代替了誰,所謂孰優(yōu)孰劣只是從不同的業(yè)務(wù)需求出發(fā)得出的不同結(jié)論而已。

當(dāng)企業(yè)的信息化發(fā)展到一定程度,企業(yè)流程得以用數(shù)據(jù)的形式持久化的留存下來,決策者們的判斷依據(jù)慢慢從經(jīng)驗(yàn)主義過渡到數(shù)據(jù)主義,因此90年代初為了更好的支持經(jīng)營的決策分析,數(shù)據(jù)倉庫的技術(shù)就油然而生并被廣泛應(yīng)用。

當(dāng)企業(yè)開始邁向全面數(shù)字化的階段,需要處理的數(shù)據(jù)越來越多、形式越來越雜,原先使用的數(shù)據(jù)存算方式其成本越來越高,業(yè)務(wù)對數(shù)據(jù)處理的效率要求也越來越快。在這種背景下,企業(yè)亟需一種成本更低且效率較高的方式來存算數(shù)據(jù)、訪問數(shù)據(jù),因此大數(shù)據(jù)技術(shù)孕育而生。我們通常說的大數(shù)據(jù)平臺就是利用大數(shù)據(jù)技術(shù)而搭建的平臺型能力,為企業(yè)提供大數(shù)據(jù)技術(shù)服務(wù)。

而當(dāng)企業(yè)邁入大數(shù)據(jù)時(shí)代后,紛紛利用大數(shù)據(jù)技術(shù)搭建各自的大數(shù)據(jù)平臺。為了進(jìn)一步降低數(shù)據(jù)存儲和處理的成本,提升大數(shù)據(jù)平臺的可用性、可靠性和可運(yùn)營性,解決大數(shù)據(jù)時(shí)代數(shù)據(jù)分析鏈路越來越長、數(shù)據(jù)探索復(fù)雜度越來越高、數(shù)據(jù)資產(chǎn)管理越來越難以及數(shù)據(jù)變現(xiàn)的路徑尚不清晰等問題,基于數(shù)據(jù)湖的架構(gòu)概念,我們又開始在大數(shù)據(jù)平臺上嘗試搭建各自的數(shù)據(jù)湖架構(gòu)。由此可見,數(shù)據(jù)湖也是由業(yè)務(wù)訴求催生出的平臺架構(gòu)概念和能力。

圖片來源unsplash

所謂分久必合,當(dāng)企業(yè)的數(shù)字化、數(shù)據(jù)化成為一種常態(tài)時(shí),有些企業(yè)發(fā)現(xiàn)內(nèi)部存在紛繁復(fù)雜的數(shù)據(jù)源,存在多個(gè)所謂大數(shù)據(jù)平臺甚至是數(shù)據(jù)湖,導(dǎo)致了很多不必要的重復(fù)性建設(shè),包括服務(wù)、軟件和硬件層面的冗余,或是由于部門壁壘而導(dǎo)致數(shù)據(jù)無法有效統(tǒng)一來支持前端業(yè)務(wù),不統(tǒng)一的數(shù)據(jù)出處又帶來數(shù)據(jù)不一致的問題,亦或是不同部門各起爐灶導(dǎo)致數(shù)據(jù)技術(shù)人員各自分散的問題。在這種背景下,由高層拍板構(gòu)建企業(yè)級的數(shù)據(jù)中臺,把原有資源剝離和再分配,將共性抽象集成并形成資產(chǎn),統(tǒng)一面向全組織提供服務(wù)。這里的服務(wù)包括了數(shù)據(jù)資產(chǎn)、產(chǎn)品軟件、算法算力甚至是技術(shù)人力。

因此,我認(rèn)為這三者沒有誰對誰錯(cuò)或是誰替代了誰,只是企業(yè)不同的發(fā)展背景形成了不同的建設(shè)目標(biāo),各自有不一樣的業(yè)務(wù)訴求罷了。

技術(shù)的革新

業(yè)務(wù)訴求會推動技術(shù)的發(fā)展,有時(shí)技術(shù)本身的革新也會帶給業(yè)務(wù)發(fā)展更多的想象空間。

如同前文所述,隨著時(shí)代的發(fā)展,技術(shù)也在不斷演化,但其演化歷程通常是具有連續(xù)性而非跳躍性的。當(dāng)然,跳躍性的原始創(chuàng)新會被歷史所銘記并開創(chuàng)一個(gè)新的時(shí)代,成為時(shí)代的主角,例如蒸汽機(jī),發(fā)電機(jī),計(jì)算機(jī)和互聯(lián)網(wǎng)。但循序漸進(jìn)的集成創(chuàng)新才是平凡日子里的重要配角,小步蓄力以期待下一次的飛躍。因此大多數(shù)時(shí)候新概念的產(chǎn)生通常會帶有前任的影子而導(dǎo)致傻傻分不清楚,或被誤認(rèn)為是“老瓶裝新酒”的現(xiàn)象。

在當(dāng)下時(shí)代對“企業(yè)是否一定要建設(shè)中臺”的爭論仍在持續(xù)著,我認(rèn)為里面除技術(shù)之外,更多地牽涉到企業(yè)本身的發(fā)展階段、組織架構(gòu)和企業(yè)文化等問題。有些管理者能很好的從自身業(yè)務(wù)和技術(shù)角度去辨別組織真正需要的是什么,因此我們回頭看數(shù)據(jù)湖的建設(shè),這個(gè)議題仍是舞臺上活躍的一份子。而技術(shù)的革新,已經(jīng)使得數(shù)據(jù)湖的建設(shè)目標(biāo)不止于10年前剛提出時(shí)的愿景。

目前在建設(shè)數(shù)據(jù)湖的時(shí)候,企業(yè)通常會展望以下幾個(gè)技術(shù)目標(biāo):

1. 提供高可靠性、高性能、可伸縮的分布式存儲系統(tǒng),在一定程度上降低單位存算成本的同時(shí)統(tǒng)一承載海量結(jié)構(gòu)化、半結(jié)構(gòu)化以及非結(jié)構(gòu)化數(shù)據(jù)。

2. 提供豐富的數(shù)據(jù)計(jì)算分析引擎,具備對結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行多層次融合分析的能力。

3. 關(guān)鍵能力包括:

混合處理:支持所有類型數(shù)據(jù)入湖無需預(yù)先設(shè)計(jì)模型,同時(shí)支持事務(wù)型和分析型的數(shù)據(jù)處理,數(shù)據(jù)入湖就能即席分析、持續(xù)迭代。

聯(lián)邦分析:支持多類型數(shù)據(jù)格式融合分析,無需額外數(shù)據(jù)搬遷,可通過標(biāo)準(zhǔn)查詢語句實(shí)現(xiàn)跨源數(shù)據(jù)探索計(jì)算分析。

彈性伸縮:計(jì)算層和存儲層可獨(dú)立彈性擴(kuò)展,具備大容量存儲池和“理論上”無限彈性計(jì)算資源能力,快速應(yīng)對數(shù)據(jù)和業(yè)務(wù)變化。

分級存儲:支持冷熱數(shù)據(jù)分級存儲,數(shù)據(jù)自動管理,合理利用存儲,降低成本。

數(shù)據(jù)探索:具備集成的算法開發(fā)能力,能快速地構(gòu)建算法模型及數(shù)據(jù)探索任務(wù),甚至與標(biāo)準(zhǔn)數(shù)據(jù)庫查詢語句融合,支持采用標(biāo)準(zhǔn)接口完成算法及AI業(yè)務(wù)的開發(fā)。

展望:更大想象力空間

在萬物互聯(lián)的時(shí)代構(gòu)想數(shù)據(jù)湖的未來,不乏有許多引人想象的可發(fā)展空間,舉例來說:

1.  更智能的數(shù)據(jù)接入:

物聯(lián)網(wǎng)時(shí)代信息進(jìn)一步爆炸,無論是數(shù)據(jù)量還是數(shù)據(jù)種類和復(fù)雜度都呈指數(shù)級發(fā)展,數(shù)據(jù)湖可以成為整個(gè)物聯(lián)網(wǎng)基建的融合匯聚中心,通過數(shù)據(jù)感知技術(shù),根據(jù)接入的數(shù)據(jù)類型、更新頻率、數(shù)據(jù)量大小以及預(yù)設(shè)好的使用場景等信息,智能判別數(shù)據(jù)接入方式、自動化地進(jìn)行底層協(xié)議及技術(shù)的匹配,降低接入數(shù)據(jù)湖的門檻和整體運(yùn)維的成本。

2.  更精細(xì)的資產(chǎn)管理:

可以從冷熱數(shù)據(jù)(被使用頻率低和高的數(shù)據(jù))、業(yè)務(wù)標(biāo)簽等不同角度對數(shù)據(jù)進(jìn)行分級分層存儲,在預(yù)先定義好的數(shù)據(jù)治理規(guī)則和基于日志的機(jī)器學(xué)習(xí)運(yùn)維任務(wù)下,做到半自動甚至全自動的數(shù)據(jù)管理,合理利用系統(tǒng)資源,實(shí)現(xiàn)“數(shù)據(jù)自治”。

3. 更靈活的數(shù)據(jù)分析:

納入“數(shù)據(jù)不動計(jì)算動”的聯(lián)邦學(xué)習(xí)能力,解決數(shù)據(jù)遷移、數(shù)據(jù)安全和數(shù)據(jù)權(quán)責(zé)的問題;

納入“既能保證數(shù)據(jù)事務(wù)性又能保證數(shù)據(jù)分析性”的混合事物/分析處理架構(gòu)(Hybrid Transaction and Analytical Process),解決從事務(wù)性數(shù)據(jù)庫導(dǎo)入到數(shù)據(jù)倉庫產(chǎn)生的時(shí)效性和一致性問題;

納入針對“大寬表”的即席多維度分析能力,解決傳統(tǒng)上做多維度分析時(shí)需要將數(shù)據(jù)預(yù)先按主題拆分和轉(zhuǎn)換處理過程而導(dǎo)致的分析長鏈路以及低時(shí)效問題等。

4. 更直觀的數(shù)據(jù)價(jià)值:

在數(shù)據(jù)應(yīng)用實(shí)現(xiàn)商業(yè)變現(xiàn)之前,就數(shù)據(jù)本身而言,納入靈活但可控的數(shù)據(jù)共享工具及平臺,加速湖內(nèi)和湖外、組織內(nèi)和組織外數(shù)據(jù)的碰撞,共融互通而形成更完整的數(shù)據(jù)全景從而為業(yè)務(wù)服務(wù);

納入數(shù)據(jù)商業(yè)化/社會化運(yùn)營工具,例如數(shù)據(jù)沙箱、智能脫敏、自主訂閱、用量統(tǒng)計(jì)等,撬動數(shù)據(jù)資產(chǎn)本身的價(jià)值。

雖然無論在功能目標(biāo)還是項(xiàng)目建設(shè)方面,數(shù)據(jù)湖總體仍處于不斷發(fā)展的階段。

我們不知道數(shù)據(jù)湖的概念還能在商業(yè)科技的世界里存在多久,亦不知道若干年后我們回頭看待它時(shí),能否將之稱為“經(jīng)典”。但這并不妨礙在當(dāng)下企業(yè)參照數(shù)據(jù)湖的架構(gòu)概念和功能目標(biāo),去搭建大數(shù)據(jù)處理平臺所帶來的積極效果,即使在所謂的“數(shù)據(jù)中臺時(shí)代”來反觀數(shù)據(jù)湖的概念,每一個(gè)從業(yè)者仍有必要保持不斷學(xué)習(xí)的謙遜態(tài)度,每一個(gè)參與方仍要以包容和發(fā)展的目光來審視過去、展望未來。

本文來自微信公眾號:騰訊研究院(ID:cyberlawrc),作者:火雪挺(騰研識者、騰訊CSIG資深架構(gòu)師)

本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點(diǎn)擊舉報(bào)。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
關(guān)于數(shù)據(jù)倉庫、數(shù)據(jù)湖、數(shù)據(jù)平臺和數(shù)據(jù)中臺的概念和區(qū)別
一文詳解,數(shù)據(jù)倉庫、數(shù)據(jù)庫、數(shù)據(jù)中臺、數(shù)據(jù)湖的區(qū)別
談?wù)剶?shù)據(jù)湖和數(shù)據(jù)倉庫
數(shù)據(jù)倉庫、數(shù)據(jù)湖、數(shù)據(jù)平臺和數(shù)據(jù)中臺的概念和區(qū)別
數(shù)據(jù)庫和數(shù)據(jù)倉庫的區(qū)別
什么是企業(yè)數(shù)據(jù)倉庫?
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服