從hadoop框架與MapReduce模式中談海量數據處理
幾周前,當我最初聽到,以致后來初次接觸Hadoop與MapReduce這兩個東西,我便稍顯興奮,覺得它們很是神秘,而神秘的東西常能勾起我的興趣,在看過介紹它們的文章或論文之后,覺得Hadoop是一項富有趣味和挑戰(zhàn)性的技術,且它還牽扯到了一個我更加感興趣的話題:海量數據處理。
由此,最近凡是空閑時,便在看“Hadoop”,“MapReduce”“海量數據處理”這方面的論文。但在看論文的過程中,總覺得那些論文都是淺嘗輒止,常??吹暮懿贿^癮,總是一個東西剛要講到緊要處,它便結束了,讓我好生“憤懣”。
盡管我對這個Hadoop與MapReduce知之甚淺,但我還是想記錄自己的學習過程,說不定,關于這個東西的學習能督促我最終寫成和“經典算法研究系列”一般的一系列文章。
Ok,閑話少說。本文從最基本的mapreduce模式,Hadoop框架開始談起,然后由各自的架構引申開來,談到海量數據處理,最后談談淘寶的海量數據產品技術架構,以為了兼?zhèn)錅\出與深入之效,最終,希望得到讀者的喜歡與支持。謝謝。
由于本人是初次接觸這兩個東西,文章有任何問題,歡迎不吝指正。Ok,咱們開始吧。
第一部分、mapreduce模式與hadoop框架深入淺出
想讀懂此文,讀者必須先要明確以下幾點,以作為閱讀后續(xù)內容的基礎知識儲備:
所以,你現在,知道了什么是mapreduce,什么是hadoop,以及這兩者之間最簡單的聯系,而本文的主旨即是,一句話概括:在hadoop的框架上采取mapreduce的模式處理海量數據。下面,咱們可以依次深入學習和了解mapreduce和hadoop這兩個東西了。
前面說了,mapreduce是一種模式,一種什么模式呢?一種云計算的核心計算模式,一種分布式運算技術,也是簡化的分布式編程模式,它主要用于解決問題的程序開發(fā)模型,也是開發(fā)人員拆解問題的方法。
Ok,光說不上圖,沒用。如下圖所示,mapreduce模式的主要思想是將自動分割要執(zhí)行的問題(例如程序)拆解成map(映射)和reduce(化簡)的方式,流程圖如下圖1所示:
在數據被分割后通過Map 函數的程序將數據映射成不同的區(qū)塊,分配給計算機機群處理達到分布式運算的效果,在通過Reduce 函數的程序將結果匯整,從而輸出開發(fā)者需要的結果。
MapReduce 借鑒了函數式程序設計語言的設計思想,其軟件實現是指定一個Map 函數,把鍵值對(key/value)映射成新的鍵值對(key/value),形成一系列中間結果形式的key/value 對,然后把它們傳給Reduce(規(guī)約)函數,把具有相同中間形式key 的value 合并在一起。Map 和Reduce 函數具有一定的關聯性。函數描述如表1 所示:
MapReduce致力于解決大規(guī)模數據處理的問題,因此在設計之初就考慮了數據的局部性原理,利用局部性原理將整個問題分而治之。MapReduce集群由普通PC機構成,為無共享式架構。在處理之前,將數據集分布至各個節(jié)點。處理時,每個節(jié)點就近讀取本地存儲的數據處理(map),將處理后的數據進行合并(combine)、排序(shuffle and sort)后再分發(fā)(至reduce節(jié)點),避免了大量數據的傳輸,提高了處理效率。無共享式架構的另一個好處是配合復制(replication)策略,集群可以具有良好的容錯性,一部分節(jié)點的down機對集群的正常工作不會造成影響。
ok,你可以再簡單看看下副圖,整幅圖是有關hadoop的作業(yè)調優(yōu)參數及原理,圖的左邊是MapTask運行示意圖,右邊是ReduceTask運行示意圖:
如上圖所示,其中map階段,當map task開始運算,并產生中間數據后并非直接而簡單的寫入磁盤,它首先利用內存buffer來對已經產生的buffer進行緩存,并在內存buffer中進行一些預排序來優(yōu)化整個map的性能。而上圖右邊的reduce階段則經歷了三個階段,分別Copy->Sort->reduce。我們能明顯的看出,其中的Sort是采用的歸并排序,即merge sort。
了解了什么是mapreduce,接下來,咱們可以來了解實現了mapreduce模式的開源框架—hadoop。
前面說了,hadoop是一個框架,一個什么樣的框架呢?Hadoop 是一個實現了MapReduce 計算模型的開源分布式并行編程框架,程序員可以借助Hadoop 編寫程序,將所編寫的程序運行于計算機機群上,從而實現對海量數據的處理。
此外,Hadoop 還提供一個分布式文件系統(tǒng)(HDFS)及分布式數據庫(HBase)用來將數據存儲或部署到各個計算節(jié)點上。所以,你可以大致認為:Hadoop=HDFS(文件系統(tǒng),數據存儲技術相關)+HBase(數據庫)+MapReduce(數據處理)。Hadoop 框架如圖2 所示:
借助Hadoop 框架及云計算核心技術MapReduce 來實現數據的計算和存儲,并且將HDFS 分布式文件系統(tǒng)和HBase 分布式數據庫很好的融入到云計算框架中,從而實現云計算的分布式、并行計算和存儲,并且得以實現很好的處理大規(guī)模數據的能力。
我們已經知道,Hadoop是Google的MapReduce一個Java實現。MapReduce是一種簡化的分布式編程模式,讓程序自動分布到一個由普通機器組成的超大集群上并發(fā)執(zhí)行。Hadoop主要由HDFS、MapReduce和HBase等組成。具體的hadoop的組成如下圖:
由上圖,我們可以看到:
1、 Hadoop HDFS是Google GFS存儲系統(tǒng)的開源實現,主要應用場景是作為并行計算環(huán)境(MapReduce)的基礎組件,同時也是BigTable(如HBase、HyperTable)的底層分布式文件系統(tǒng)。HDFS采用master/slave架構。一個HDFS集群是有由一個Namenode和一定數目的Datanode組成。Namenode是一個中心服務器,負責管理文件系統(tǒng)的namespace和客戶端對文件的訪問。Datanode在集群中一般是一個節(jié)點一個,負責管理節(jié)點上它們附帶的存儲。在內部,一個文件其實分成一個或多個block,這些block存儲在Datanode集合里。如下圖所示(HDFS體系結構圖):
2、 Hadoop MapReduce是一個使用簡易的軟件框架,基于它寫出來的應用程序能夠運行在由上千個商用機器組成的大型集群上,并以一種可靠容錯的方式并行處理上TB級別的數據集。
一個MapReduce作業(yè)(job)通常會把輸入的數據集切分為若干獨立的數據塊,由 Map任務(task)以完全并行的方式處理它們??蚣軙ap的輸出先進行排序,然后把結果輸入給Reduce任務。通常作業(yè)的輸入和輸出都會被存儲在文件系統(tǒng)中。整個框架負責任務的調度和監(jiān)控,以及重新執(zhí)行已經失敗的任務。如下圖所示(Hadoop MapReduce處理流程圖):
3、 Hive是基于Hadoop的一個數據倉庫工具,處理能力強而且成本低廉。
主要特點:
存儲方式是將結構化的數據文件映射為一張數據庫表。提供類SQL語言,實現完整的SQL查詢功能??梢詫QL語句轉換為MapReduce任務運行,十分適合數據倉庫的統(tǒng)計分析。
不足之處:
采用行存儲的方式(SequenceFile)來存儲和讀取數據。效率低:當要讀取數據表某一列數據時需要先取出所有數據然后再提取出某一列的數據,效率很低。同時,它還占用較多的磁盤空間。
由于以上的不足,有人(查禮博士)介紹了一種將分布式數據處理系統(tǒng)中以記錄為單位的存儲結構變?yōu)橐粤袨閱挝坏拇鎯Y構,進而減少磁盤訪問數量,提高查詢處理性能。這樣,由于相同屬性值具有相同數據類型和相近的數據特性,以屬性值為單位進行壓縮存儲的壓縮比更高,能節(jié)省更多的存儲空間。如下圖所示(行列存儲的比較圖):
4、 HBase
HBase是一個分布式的、面向列的開源數據庫,它不同于一般的關系數據庫,是一個適合于非結構化數據存儲的數據庫。另一個不同的是HBase基于列的而不是基于行的模式。HBase使用和 BigTable非常相同的數據模型。用戶存儲數據行在一個表里。一個數據行擁有一個可選擇的鍵和任意數量的列,一個或多個列組成一個ColumnFamily,一個Fmaily下的列位于一個HFile中,易于緩存數據。表是疏松的存儲的,因此用戶可以給行定義各種不同的列。在HBase中數據按主鍵排序,同時表按主鍵劃分為多個HRegion,如下圖所示(HBase數據表結構圖):
Ok,行文至此,看似洋洋灑灑近千里,但若給讀者造成閱讀上的負擔,則不是我本意。接下來的內容,我不會再引用諸多繁雜的專業(yè)術語,以給讀者心里上造成不良影響。
我再給出一副圖,算是對上文所說的hadoop框架及其組成部分做個總結,如下圖所示,便是hadoop的內部結構,我們可以看到,海量的數據交給hadoop處理后,在hadoop的內部中,正如上文所述:hadoop提供一個分布式文件系統(tǒng)(HDFS)及分布式數據庫(Hbase)用來存儲或部署到各個計算點上,最終在內部采取mapreduce的模式對其數據進行處理,然后輸出處理結果:
第二部分、淘寶海量數據產品技術架構解讀—學習海量數據處理經驗
在上面的本文的第一部分中,我們已經對mapreduce模式及hadoop框架有了一個深入而全面的了解。不過,如果一個東西,或者一個概念不放到實際應用中去,那么你對這個理念永遠只是停留在理論之內,無法向實踐邁進。
Ok,接下來,本文的第二部分,咱們以淘寶的數據魔方技術架構為依托,通過介紹淘寶的海量數據產品技術架構,來進一步學習和了解海量數據處理的經驗。
如下圖2-1所示,即是淘寶的海量數據產品技術架構,咱們下面要針對這個架構來一一剖析與解讀。
相信,看過本博客內其它文章的細心讀者,定會發(fā)現,圖2-1最初見于本博客內的此篇文章:從幾幅架構圖中偷得半點海量數據處理經驗之上,同時,此圖2-1最初發(fā)表于《程序員》8月刊,作者:朋春。
在此之前,有一點必須說明的是:本文下面的內容大都是參考自朋春先生的這篇文章:淘寶數據魔方技術架構解析所寫,我個人所作的工作是對這篇文章的一種解讀與關鍵技術和內容的抽取,以為讀者更好的理解淘寶的海量數據產品技術架構。與此同時,還能展示我自己讀此篇的思路與感悟,順帶學習,何樂而不為呢?。
Ok,不過,與本博客內之前的那篇文章(幾幅架構圖中偷得半點海量數據處理經驗)不同,本文接下來,要詳細闡述這個架構。我也做了不少準備工作(如把這圖2-1打印了下來,經常琢磨):
圖2-1 淘寶海量數據產品技術架構
好的,如上圖所示,我們可以看到,淘寶的海量數據產品技術架構,分為以下五個層次,從上至下來看,它們分別是:數據源,計算層,存儲層,查詢層和產品層。我們來一一了解這五層:
接下來,咱們重點來了解第三層-存儲層中的MyFox與Prom,然后會稍帶分析下glide的技術架構,最后,再了解下緩存。文章即宣告結束。
我們知道,關系型數據庫在我們現在的工業(yè)生產中有著廣泛的引用,它包括Oracle,MySQL、DB2、Sybase和SQL Server等等。
MyFOX
淘寶選擇了MySQL的MyISAM引擎作為底層的數據存儲引擎。且為了應對海量數據,他們設計了分布式MySQL集群的查詢代理層-MyFOX。
如下圖所示,是MySQL的數據查詢過程:
圖2-2 MyFOX的數據查詢過程
在MyFOX的每一個節(jié)點中,存放著熱節(jié)點和冷節(jié)點兩種節(jié)點數據。顧名思義,熱節(jié)點存放著最新的,被訪問頻率較高的數據;冷節(jié)點,存放著相對而來比較舊的,訪問頻率比較低的數據。而為了存儲這兩種節(jié)點數據,出于硬件條件和存儲成本的考慮,你當然會考慮選擇兩種不同的硬盤,來存儲這兩種訪問頻率不同的節(jié)點數據。如下圖所示:
圖2-3 MyFOX節(jié)點結構
“熱節(jié)點”,選擇每分鐘15000轉的SAS硬盤,按照一個節(jié)點兩臺機器來計算,單位數據的存儲成本約為4.5W/TB。相對應地,“冷數據”我們選擇了每分鐘7500轉的SATA硬盤,單碟上能夠存放更多的數據,存儲成本約為1.6W/TB。
Prom
出于文章篇幅的考慮,本文接下來不再過多闡述這個Prom了。如下面兩幅圖所示,他們分別表示的是Prom的存儲結構以及Prom查詢過程:
圖2-4 Prom的存儲結構
圖2-5 Prom查詢過程
glide的技術架構
圖2-6 glider的技術架構
在這一層-查詢層中,淘寶主要是基于用中間層隔離前后端的理念而考慮。Glider這個中間層負責各個異構表之間的數據JOIN和UNION等計算,并且負責隔離前端產品和后端存儲,提供統(tǒng)一的數據查詢服務。
緩存
除了起到隔離前后端以及異構“表”之間的數據整合的作用之外,glider的另外一個不容忽視的作用便是緩存管理。我們有一點須了解,在特定的時間段內,我們認為數據產品中的數據是只讀的,這是利用緩存來提高性能的理論基礎。
在上文圖2-6中我們看到,glider中存在兩層緩存,分別是基于各個異構“表”(datasource)的二級緩存和整合之后基于獨立請求的一級緩存。除此之外,各個異構“表”內部可能還存在自己的緩存機制。
圖2-7 緩存控制體系
圖2-7向我們展示了數據魔方在緩存控制方面的設計思路。用戶的請求中一定是帶了緩存控制的“命令”的,這包括URL中的query string,和HTTP頭中的“If-None-Match”信息。并且,這個緩存控制“命令”一定會經過層層傳遞,最終傳遞到底層存儲的異構“表”模塊。
緩存系統(tǒng)往往有兩個問題需要面對和考慮:緩存穿透與失效時的雪崩效應。
而在數據魔方里,淘寶采用了一個更為簡單粗暴的方法,如果一個查詢返回的數據為空(不管是數據不存在,還是系統(tǒng)故障),我們仍然把這個空結果進行緩存,但它的過期時間會很短,最長不超過五分鐘。
2、緩存失效時的雪崩效應盡管對底層系統(tǒng)的沖擊非??膳隆5z憾的是,這個問題目前并沒有很完美的解決方案。大多數系統(tǒng)設計者考慮用加鎖或者隊列的方式保證緩存的單線程(進程)寫,從而避免失效時大量的并發(fā)請求落到底層存儲系統(tǒng)上。
在數據魔方中,淘寶設計的緩存過期機制理論上能夠將各個客戶端的數據失效時間均勻地分布在時間軸上,一定程度上能夠避免緩存同時失效帶來的雪崩效應。
本文參考:
讀者點評@xdylxdyl:
結語:寫文章是一種學習的過程。尊重他人勞動成果,轉載請注明出處。謝謝。July、2011/8/20。完。