分布式文件系統(tǒng)

分布式文件系統(tǒng)（Distributed File System）是指文件系統(tǒng)管理的物理存儲(chǔ)資源不一定直接連接再本地節(jié)點(diǎn)上，
而是通過(guò)計(jì)算機(jī)網(wǎng)絡(luò)與節(jié)點(diǎn)相連
分布式文件系統(tǒng)的設(shè)計(jì)基于客戶(hù)機(jī)/服務(wù)器（C/S）模式
常用分布式文件系統(tǒng)
 Lustre，Hadoop，F(xiàn)astDFS，Ceph，GlusterFS

Ceph簡(jiǎn)介

 有官方(付費(fèi))的和開(kāi)源的
 Ceph 是一個(gè)分布式文件系統(tǒng)
 具有高擴(kuò)展、高可用、高性能的特點(diǎn)
 Ceph 可以提供對(duì)象存儲(chǔ)、塊存儲(chǔ)、文件系統(tǒng)存儲(chǔ)
 Ceph 可以提供PB級(jí)別的存儲(chǔ)空間（PB-->TB-->-->GB）
 軟件定義存儲(chǔ)（Software Defined Storage）作為存儲(chǔ)，行業(yè)的一大發(fā)展趨勢(shì)
 官網(wǎng)：http://docs.ceph.org/start/intro

Ceph過(guò)往

Ceph最早起源于Sage就讀博士期間的工作、成果于2004年發(fā)表，并隨后貢獻(xiàn)給開(kāi)源社區(qū)。經(jīng)過(guò)多年的發(fā)展之后，已得到眾多云計(jì)算和存儲(chǔ)廠商的支持，成為應(yīng)用最廣泛的開(kāi)源分布式存儲(chǔ)平臺(tái)。

Ceph根據(jù)場(chǎng)景可分為對(duì)象存儲(chǔ)、塊設(shè)備存儲(chǔ)和文件存儲(chǔ)。Ceph相比其它分布式存儲(chǔ)技術(shù)，其優(yōu)勢(shì)點(diǎn)在于：它不單是存儲(chǔ)，同時(shí)還充分利用了存儲(chǔ)節(jié)點(diǎn)上的計(jì)算能力，在存儲(chǔ)每一個(gè)數(shù)據(jù)時(shí)，都會(huì)通過(guò)計(jì)算得出該數(shù)據(jù)存儲(chǔ)的位置，盡量將數(shù)據(jù)分布均衡。同時(shí)，由于采用了CRUSH、HASH等算法，使得它不存在傳統(tǒng)的單點(diǎn)故障，且隨著規(guī)模的擴(kuò)大，性能并不會(huì)受到影響。

1.Ceph的主要架構(gòu)

Ceph的最底層是RADOS（分布式對(duì)象存儲(chǔ)系統(tǒng)），它具有可靠、智能、分布式等特性，實(shí)現(xiàn)高可靠、高可拓展、高性能、高自動(dòng)化等功能，并最終存儲(chǔ)用戶(hù)數(shù)據(jù)。RADOS系統(tǒng)主要由兩部分組成，分別是OSD和Monitor。

RADOS之上是LIBRADOS，LIBRADOS是一個(gè)庫(kù)，它允許應(yīng)用程序通過(guò)訪(fǎng)問(wèn)該庫(kù)來(lái)與RADOS系統(tǒng)進(jìn)行交互，支持多種編程語(yǔ)言，比如C、C++、Python等。

基于LIBRADOS層開(kāi)發(fā)的有三種接口，分別是RADOSGW、librbd和MDS。

RADOSGW是一套基于當(dāng)前流行的RESTFUL協(xié)議的網(wǎng)關(guān)，支持對(duì)象存儲(chǔ)，兼容S3和Swift。

librbd提供分布式的塊存儲(chǔ)設(shè)備接口，支持塊存儲(chǔ)。

MDS提供兼容POSIX的文件系統(tǒng)，支持文件存儲(chǔ)。

Ceph的功能模塊

Ceph的核心組件包括Client客戶(hù)端、MON監(jiān)控服務(wù)、MDS元數(shù)據(jù)服務(wù)、OSD存儲(chǔ)服務(wù)，各組件功能如下：

? Client客戶(hù)端：負(fù)責(zé)存儲(chǔ)協(xié)議的接入，節(jié)點(diǎn)負(fù)載均衡

? MON監(jiān)控服務(wù)：負(fù)責(zé)監(jiān)控整個(gè)集群，維護(hù)集群的健康狀態(tài)，維護(hù)展示集群狀態(tài)的各種圖表，如OSD Map、Monitor Map、PG Map和CRUSH Map

? MDS元數(shù)據(jù)服務(wù)：負(fù)責(zé)保存文件系統(tǒng)的元數(shù)據(jù)，管理目錄結(jié)構(gòu)

? OSD存儲(chǔ)服務(wù)：主要功能是存儲(chǔ)數(shù)據(jù)、復(fù)制數(shù)據(jù)、平衡數(shù)據(jù)、恢復(fù)數(shù)據(jù)，以及與其它OSD間進(jìn)行心跳檢查等。一般情況下一塊硬盤(pán)對(duì)應(yīng)一個(gè)OSD。

3.Ceph的資源劃分

Ceph采用crush算法，在大規(guī)模集群下，實(shí)現(xiàn)數(shù)據(jù)的快速、準(zhǔn)確存放，同時(shí)能夠在硬件故障或擴(kuò)展硬件設(shè)備時(shí)，做到盡可能小的數(shù)據(jù)遷移，其原理如下：

當(dāng)用戶(hù)要將數(shù)據(jù)存儲(chǔ)到Ceph集群時(shí)，數(shù)據(jù)先被分割成多個(gè)object，(每個(gè)object一個(gè)object id，大小可設(shè)置，默認(rèn)是4MB），object是Ceph存儲(chǔ)的最小存儲(chǔ)單元。

由于object的數(shù)量很多，為了有效減少了Object到OSD的索引表、降低元數(shù)據(jù)的復(fù)雜度，使得寫(xiě)入和讀取更加靈活，引入了pg(Placement Group )：PG用來(lái)管理object，每個(gè)object通過(guò)Hash，映射到某個(gè)pg中，一個(gè)pg可以包含多個(gè)object。

Pg再通過(guò)CRUSH計(jì)算，映射到osd中。如果是三副本的，則每個(gè)pg都會(huì)映射到三個(gè)osd，保證了數(shù)據(jù)的冗余。

4.Ceph的數(shù)據(jù)寫(xiě)入

Ceph數(shù)據(jù)的寫(xiě)入流程

數(shù)據(jù)通過(guò)負(fù)載均衡獲得節(jié)點(diǎn)動(dòng)態(tài)IP地址；
通過(guò)塊、文件、對(duì)象協(xié)議將文件傳輸?shù)焦?jié)點(diǎn)上；
數(shù)據(jù)被分割成4M對(duì)象并取得對(duì)象ID；
對(duì)象ID通過(guò)HASH算法被分配到不同的PG；
不同的PG通過(guò)CRUSH算法被分配到不同的OSD

5.Ceph的特點(diǎn)

? Ceph支持對(duì)象存儲(chǔ)、塊存儲(chǔ)和文件存儲(chǔ)服務(wù)，故稱(chēng)為統(tǒng)一存儲(chǔ)。
? 采用CRUSH算法，數(shù)據(jù)分布均衡，并行度高，不需要維護(hù)固定的元數(shù)據(jù)結(jié)構(gòu)；
? 數(shù)據(jù)具有強(qiáng)一致，確保所有副本寫(xiě)入完成才返回確認(rèn)，適合讀多寫(xiě)少場(chǎng)景；
? 去中心化，MDS之間地位相同，無(wú)固定的中心節(jié)點(diǎn)
Ceph存在一些缺點(diǎn)：
? 去中心化的分布式解決方案，需要提前做好規(guī)劃設(shè)計(jì)，對(duì)技術(shù)團(tuán)隊(duì)的要求能力比較高。
? Ceph擴(kuò)容時(shí)，由于其數(shù)據(jù)分布均衡的特性，會(huì)導(dǎo)致整個(gè)存儲(chǔ)系統(tǒng)性能的下降。

GFS

GFS是google的分布式文件存儲(chǔ)系統(tǒng)，是專(zhuān)為存儲(chǔ)海量搜索數(shù)據(jù)而設(shè)計(jì)的，2003年提出，是閉源的分布式文件系統(tǒng)。適用于大量的順序讀取和順序追加，如大文件的讀寫(xiě)。注重大文件的持續(xù)穩(wěn)定帶寬，而不是單次讀寫(xiě)的延遲。

1.GFS的主要架構(gòu)

GFS 架構(gòu)比較簡(jiǎn)單，一個(gè) GFS 集群一般由一個(gè) master 、多個(gè) chunkserver 和多個(gè) clients 組成。

在 GFS 中，所有文件被切分成若干個(gè) chunk，每個(gè) chunk 擁有唯一不變的標(biāo)識(shí)（在 chunk 創(chuàng)建時(shí)，由 master 負(fù)責(zé)分配），所有 chunk 都實(shí)際存儲(chǔ)在 chunkserver 的磁盤(pán)上。

為了容災(zāi)，每個(gè) chunk 都會(huì)被復(fù)制到多個(gè) chunkserve

2.GFS的功能模塊

? GFS client客戶(hù)端：為應(yīng)用提供API，與POSIX API類(lèi)似。同時(shí)緩存從GFS master讀取的元數(shù)據(jù)chunk信息；

? GFS master元數(shù)據(jù)服務(wù)器：管理所有文件系統(tǒng)的元數(shù)據(jù)，包括命令空間（目錄層級(jí)）、訪(fǎng)問(wèn)控制信息、文件到chunk的映射關(guān)系，chunk的位置等。同時(shí) master 還管理系統(tǒng)范圍內(nèi)的各種活動(dòng)，包括chunk 創(chuàng)建、復(fù)制、數(shù)據(jù)遷移、垃圾回收等；

? GFS chunksever存儲(chǔ)節(jié)點(diǎn)：用于所有 chunk的存儲(chǔ)。一個(gè)文件被分割為多個(gè)大小固定的chunk（默認(rèn)64M），每個(gè)chunk有全局唯一的chunk ID。

3.GFS的寫(xiě)入流程

Client 向 master 詢(xún)問(wèn)要修改的 chunk在哪個(gè) chunkserver上，以及該chunk 其他副本的位置信息。
Master 將Primary、secondary的相關(guān)信息返回給 client。
Client 將數(shù)據(jù)推送給 primary 和 secondary；。
當(dāng)所有副本都確認(rèn)收到數(shù)據(jù)后，client 發(fā)送寫(xiě)請(qǐng)求給 primary，primary 給不同 client 的操作分配序號(hào)，保證操作順序執(zhí)行。
Primary 把寫(xiě)請(qǐng)求發(fā)送到 secondary，secondary 按照 primary 分配的序號(hào)順序執(zhí)行所有操作
當(dāng) Secondary 執(zhí)行完后回復(fù) primary 執(zhí)行結(jié)果。
Primary 回復(fù) client 執(zhí)行結(jié)果。

由上述可見(jiàn)，GFS在進(jìn)行寫(xiě)數(shù)據(jù)時(shí)，有如下特點(diǎn)：

GFS在數(shù)據(jù)讀寫(xiě)時(shí)，數(shù)據(jù)流與控制流是分開(kāi)的，并通過(guò)租約機(jī)制，在跨多個(gè)副本的數(shù)據(jù)寫(xiě)入中, 保障順序一致性;
Master將chunk租約發(fā)放給其中一個(gè)副本，這個(gè)副本稱(chēng)為主副本，由主副本確定chunk的寫(xiě)入順序，次副本則遵守這個(gè)順序，這樣就保障了全局順序一致性
Master返回客戶(hù)端主副本和次副本的位置信息，客戶(hù)端緩存這些信息以備將來(lái)使用，只有當(dāng)主副本所在chunkserver不可用或返回租約過(guò)期了，客戶(hù)端才需要再次聯(lián)系Master；
GFS采用鏈?zhǔn)酵扑?，以最大化利用每個(gè)機(jī)器的網(wǎng)絡(luò)帶寬，避免網(wǎng)絡(luò)瓶頸和高延遲連接，最小化推送延遲；
GFS使用TCP流式傳輸數(shù)據(jù)，以最小化延遲。

4.GFS特點(diǎn)

? 適合大文件場(chǎng)景的應(yīng)用，特別是針對(duì)GB級(jí)別的大文件，適用于數(shù)據(jù)訪(fǎng)問(wèn)延時(shí)不敏感的搜索類(lèi)業(yè)務(wù)

? 中心化架構(gòu)，只有1個(gè)master處于active狀態(tài)

? 緩存和預(yù)取，通過(guò)在client端緩存元數(shù)據(jù)，盡量減少與master的交互，通過(guò)文件的預(yù)讀取來(lái)提升并發(fā)性能

? 高可靠性，master需要持久化的數(shù)據(jù)會(huì)通過(guò)操作日志與checkpoint的方式存放多份，故障后master會(huì)自動(dòng)切換重啟。

HDFS

HDFS（Hadoop Distributed File System），是一個(gè)適合運(yùn)行在通用硬件(commodity hardware)上的分布式文件系統(tǒng)，是Hadoop的核心子項(xiàng)目，是基于流數(shù)據(jù)模式訪(fǎng)問(wèn)和處理超大文件的需求而開(kāi)發(fā)的。該系統(tǒng)仿效了谷歌文件系統(tǒng)(GFS)，是GFS的一個(gè)簡(jiǎn)化和開(kāi)源版本。

1.HDFS的主要架構(gòu)

? HDFS Client（客戶(hù)端）：從NameNode獲取文件的位置信息，再?gòu)腄ataNode讀取或者寫(xiě)入數(shù)據(jù)。此外，client在數(shù)據(jù)存儲(chǔ)時(shí)，負(fù)責(zé)文件的分割；

? NameNode（元數(shù)據(jù)節(jié)點(diǎn)）：管理名稱(chēng)空間、數(shù)據(jù)塊（Block）映射信息、配置副本策略、處理客戶(hù)端讀寫(xiě)請(qǐng)求；

? DataNode（存儲(chǔ)節(jié)點(diǎn)）：負(fù)責(zé)執(zhí)行實(shí)際的讀寫(xiě)操作，存儲(chǔ)實(shí)際的數(shù)據(jù)塊,同一個(gè)數(shù)據(jù)塊會(huì)被存儲(chǔ)在多個(gè)DataNode上

? Secondary NameNode：定期合并元數(shù)據(jù)，推送給NameNode，在緊急情況下，可輔助NameNode的HA恢復(fù)。

2.HDFS的特點(diǎn)（Vs GFS）

? 分塊更大，每個(gè)數(shù)據(jù)塊默認(rèn)128MB；

? 不支持并發(fā)，同一時(shí)刻只允許一個(gè)寫(xiě)入者或追加者;

? 過(guò)程一致性,寫(xiě)入數(shù)據(jù)的傳輸順序與最終寫(xiě)入順序一致;

? Master HA，2.X版本支持兩個(gè)NameNode，（分別處于Active和Standby狀態(tài)），故障切換時(shí)間一般幾十秒到數(shù)分鐘

3.HDFS適合的應(yīng)用場(chǎng)景：

? 適用于大文件、大數(shù)據(jù)處理，處理數(shù)據(jù)達(dá)到 GB、TB、甚至PB級(jí)別的數(shù)據(jù)。

? 適合流式文件訪(fǎng)問(wèn)，一次寫(xiě)入，多次讀取。

? 文件一旦寫(xiě)入不能修改，只能追加。

4.HDFS不適合的場(chǎng)景：

? 低延時(shí)數(shù)據(jù)訪(fǎng)問(wèn)。

? 小文件存儲(chǔ)

? 并發(fā)寫(xiě)入、文件隨機(jī)修改

Swift

Swift 最初是由Rackspace公司開(kāi)發(fā)的分布式對(duì)象存儲(chǔ)服務(wù)， 2010 年貢獻(xiàn)給 OpenStack 開(kāi)源社區(qū)。作為其最初的核心子項(xiàng)目之一，為其 Nova 子項(xiàng)目提供虛機(jī)鏡像存儲(chǔ)服務(wù)。

1.Swift的主要架構(gòu)

Swift 采用完全對(duì)稱(chēng)、面向資源的分布式系統(tǒng)架構(gòu)設(shè)計(jì)，所有組件都可擴(kuò)展，避免因單點(diǎn)失效而影響整個(gè)系統(tǒng)的可用性。

Swift 組件包括：

? 代理服務(wù)（Proxy Server）：對(duì)外提供對(duì)象服務(wù) API，轉(zhuǎn)發(fā)請(qǐng)求至相應(yīng)的賬戶(hù)、容器或?qū)ο蠓?wù)

? 認(rèn)證服務(wù)（Authentication Server）：驗(yàn)證用戶(hù)的身份信息，并獲得一個(gè)訪(fǎng)問(wèn)令牌（Token）

? 緩存服務(wù)（Cache Server）：緩存令牌，賬戶(hù)和容器信息，但不會(huì)緩存對(duì)象本身的數(shù)據(jù)

? 賬戶(hù)服務(wù)（Account Server）：提供賬戶(hù)元數(shù)據(jù)和統(tǒng)計(jì)信息，并維護(hù)所含容器列表的服務(wù)

? 容器服務(wù)（Container Server）：提供容器元數(shù)據(jù)和統(tǒng)計(jì)信息，并維護(hù)所含對(duì)象列表的服務(wù)

? 對(duì)象服務(wù)（Object Server）：提供對(duì)象元數(shù)據(jù)和內(nèi)容服務(wù)，每個(gè)對(duì)象會(huì)以文件存儲(chǔ)在文件系統(tǒng)中

? 復(fù)制服務(wù)（Replicator）：檢測(cè)本地副本和遠(yuǎn)程副本是否一致，采用推式（Push）更新遠(yuǎn)程副本

? 更新服務(wù)（Updater）：對(duì)象內(nèi)容的更新

? 審計(jì)服務(wù)（Auditor）：檢查對(duì)象、容器和賬戶(hù)的完整性，如果發(fā)現(xiàn)錯(cuò)誤，文件將被隔離

? 賬戶(hù)清理服務(wù)（Account Reaper）：移除被標(biāo)記為刪除的賬戶(hù)，刪除其所包含的所有容器和對(duì)象

2.Swift的數(shù)據(jù)模型

**Swift的數(shù)據(jù)模型采用層次結(jié)構(gòu)，共設(shè)三層：**Account/Container/Object（即賬戶(hù)/容器/對(duì)象)，每層節(jié)點(diǎn)數(shù)均沒(méi)有限制，可以任意擴(kuò)展。數(shù)據(jù)模型如下：

3.一致性散列函數(shù)

Swift是基于一致性散列技術(shù)，通過(guò)計(jì)算將對(duì)象均勻分布到虛擬空間的虛擬節(jié)點(diǎn)上，在增加或刪除節(jié)點(diǎn)時(shí)可大大減少需移動(dòng)的數(shù)據(jù)量；

為便于高效的移位操作，虛擬空間大小通常采用 2 n；通過(guò)獨(dú)特的數(shù)據(jù)結(jié)構(gòu) Ring（環(huán)），再將虛擬節(jié)點(diǎn)映射到實(shí)際的物理存儲(chǔ)設(shè)備上，完成尋址過(guò)程。如下圖所示：

散列空間4 個(gè)字節(jié)（32為），虛擬節(jié)點(diǎn)數(shù)最大為232，如將散列結(jié)果右移 m 位，可產(chǎn)生 2(32-m)個(gè)虛擬節(jié)點(diǎn)，（如上圖中所示，當(dāng)m=29 時(shí)，可產(chǎn)生 8 個(gè)虛擬節(jié)點(diǎn)）。

4.環(huán)的數(shù)據(jù)結(jié)構(gòu)

Swift為賬戶(hù)、容器和對(duì)象分別定義了的環(huán)。

環(huán)是為了將虛擬節(jié)點(diǎn)（分區(qū)）映射到一組物理存儲(chǔ)設(shè)備上，并提供一定的冗余度而設(shè)計(jì)的，環(huán)的數(shù)據(jù)信息包括存儲(chǔ)設(shè)備列表和設(shè)備信息、分區(qū)到設(shè)備的映射關(guān)系、計(jì)算分區(qū)號(hào)的位移（即上圖中的m）。

賬戶(hù)、容器和對(duì)象的尋址過(guò)程。（以對(duì)象的尋址過(guò)程為例）：

以對(duì)象的層次結(jié)構(gòu) account/container/object 作為鍵，采用 MD5 散列算法得到一個(gè)散列值；
對(duì)該散列值的前 4 個(gè)字節(jié)進(jìn)行右移操作（右移m位），得到分區(qū)索引號(hào)；
在分區(qū)到設(shè)備映射表里，按照分區(qū)索引號(hào)，查找該對(duì)象所在分區(qū)對(duì)應(yīng)的所有物理設(shè)備編號(hào)。如下圖：

5.Swift的一致性設(shè)計(jì)

Swift 采用 Quorum 仲裁協(xié)議
定義：N：數(shù)據(jù)的副本總數(shù)；W：寫(xiě)操作被確認(rèn)接受的副本數(shù)量；R：讀操作的副本數(shù)量
強(qiáng)一致性：R+W>N，就能保證對(duì)副本的讀寫(xiě)操作會(huì)產(chǎn)生交集，從而保證可以讀取到最新版本；
弱一致性：R+W<=N，讀寫(xiě)操作的副本集合可能不產(chǎn)生交集，此時(shí)就可能會(huì)讀到臟數(shù)據(jù)；
Swift 默認(rèn)配置是N=3，W=2，R=2，即每個(gè)對(duì)象會(huì)存在 3 個(gè)副本，至少需要更新 2 個(gè)副本才算寫(xiě)成功；如果讀到的2個(gè)數(shù)據(jù)存在不一致，則通過(guò)檢測(cè)和復(fù)制協(xié)議來(lái)完成數(shù)據(jù)同步。
如R=1，就可能會(huì)讀到臟數(shù)據(jù)，此時(shí)，通過(guò)犧牲一定的一致性，可提高讀取速度，（而一致性可以通過(guò)后臺(tái)的方式完成同步，從而保證數(shù)據(jù)的最終一致性）
Quorum 協(xié)議示例如下所示：

6.Swift特點(diǎn)

原生的對(duì)象存儲(chǔ)，不支持實(shí)時(shí)的文件讀寫(xiě)、編輯功能
完全對(duì)稱(chēng)架構(gòu)，無(wú)主節(jié)點(diǎn)，無(wú)單點(diǎn)故障，易于大規(guī)模擴(kuò)展，性能容量線(xiàn)性增長(zhǎng)
數(shù)據(jù)實(shí)現(xiàn)最終一致性，不需要所有副本寫(xiě)入即可返回，讀取數(shù)據(jù)時(shí)需要進(jìn)行數(shù)據(jù)副本的校驗(yàn)
是OpenStack的子項(xiàng)目之一，適合云環(huán)境的部署
Swift的對(duì)象存儲(chǔ)與Ceph提供的對(duì)象存儲(chǔ)區(qū)別：客戶(hù)端在訪(fǎng)問(wèn)對(duì)象存儲(chǔ)系統(tǒng)服務(wù)時(shí)，Swift要求客戶(hù)端必須訪(fǎng)問(wèn)Swift網(wǎng)關(guān)才能獲得數(shù)據(jù)。而Ceph可以在每個(gè)存儲(chǔ)節(jié)點(diǎn)上的OSD（對(duì)象存儲(chǔ)設(shè)備）獲取數(shù)據(jù)信息；在數(shù)據(jù)一致性方面，Swift的數(shù)據(jù)是最終一致，而Ceph是始終跨集群強(qiáng)一致性）

五、 Lustre分布式存儲(chǔ)

Lustre是基于Linux平臺(tái)的開(kāi)源集群（并行）文件系統(tǒng)，最早在1999年由皮特·布拉姆創(chuàng)建的集群文件系統(tǒng)公司（Cluster File Systems Inc.）開(kāi)始研發(fā)，后由HP、Intel、Cluster File System和美國(guó)能源部聯(lián)合開(kāi)發(fā)，2003年正式開(kāi)源，主要用于HPC超算領(lǐng)域。

1、Lustre的主要架構(gòu)

Lustre組件包括：

? 管理服務(wù)器(MGS)：存放集群中所有Lustre文件系統(tǒng)的配置信息，Lustre客戶(hù)通過(guò)聯(lián)系MGS獲取信息，可以與MDS共享存儲(chǔ)空間

? 元數(shù)據(jù)服務(wù)器(MDS): 管理存儲(chǔ)在MDT中的元數(shù)據(jù)，使存儲(chǔ)在一個(gè)或多個(gè)MDT中的元數(shù)據(jù)可供Lustre客戶(hù)端使用，每個(gè)MDS可管理一個(gè)或多個(gè)MDT。

? 元數(shù)據(jù)目標(biāo)(MDT): MDS用于存儲(chǔ)元數(shù)據(jù)(例如文件名，目錄，權(quán)限和文件布局)，一個(gè)MDT可用于多個(gè)MDS，但一次只能有一個(gè)MDS訪(fǎng)問(wèn)

? 對(duì)象存儲(chǔ)服務(wù)器(OSS)：為一個(gè)或多個(gè)本地OST提供文件I / O服務(wù)和網(wǎng)絡(luò)請(qǐng)求處理, 通常，OSS服務(wù)于兩個(gè)到八個(gè)OST

? 對(duì)象存儲(chǔ)目標(biāo)(OST)：用戶(hù)文件數(shù)據(jù)存儲(chǔ)在一個(gè)或多個(gè)對(duì)象中，每個(gè)對(duì)象位于單獨(dú)OST中

? Lustre客戶(hù)端：運(yùn)行Lustre客戶(hù)端軟件的計(jì)算節(jié)點(diǎn)，可掛載Lustre文件系統(tǒng)?？蛻?hù)端軟件包括一個(gè)管理客戶(hù)端(MGC)，一個(gè)元數(shù)據(jù)客戶(hù)端(MDC)和多個(gè)對(duì)象存儲(chǔ)客戶(hù)端(OSC)。每個(gè)OSC對(duì)應(yīng)于文件系統(tǒng)中的一個(gè)OST。

? 邏輯對(duì)象卷(LOV)通過(guò)聚合OSC以提供對(duì)所有OST的透明訪(fǎng)問(wèn)，邏輯元數(shù)據(jù)卷(LMV)通過(guò)聚合MDC提供一種對(duì)所有MDT透明的訪(fǎng)問(wèn)。

2、Lustre特點(diǎn)

? 支持?jǐn)?shù)萬(wàn)個(gè)客戶(hù)端系統(tǒng)，支持PB級(jí)存儲(chǔ)容量，單個(gè)文件最大支持320TB容量

? 支持RDMA網(wǎng)絡(luò)，大文件讀寫(xiě)分片優(yōu)化，多個(gè)OSS能獲得更高的聚合帶寬

? 缺少副本機(jī)制，存在單點(diǎn)故障。如果一個(gè)客戶(hù)端或節(jié)點(diǎn)發(fā)生故障，存儲(chǔ)在該節(jié)點(diǎn)上的數(shù)據(jù)在重新啟動(dòng)前將不可訪(fǎng)問(wèn)

? 適用高性能計(jì)算HPC領(lǐng)域，適用于大文件連續(xù)讀寫(xiě)。

六、主流分布式存儲(chǔ)技術(shù)的比較

幾種主流分布式存儲(chǔ)技術(shù)的特點(diǎn)比較如下：

此外，根據(jù)分布式存儲(chǔ)系統(tǒng)的設(shè)計(jì)理念，其軟件和硬件解耦，分布式存儲(chǔ)的許多功能，包括可靠性和性能增強(qiáng)都由軟件提供，因此大家往往會(huì)認(rèn)為底層硬件已不再重要。但事實(shí)往往并非如此，我們?cè)谶M(jìn)行分布式存儲(chǔ)系統(tǒng)集成時(shí)，除考慮選用合適的分布式存儲(chǔ)技術(shù)以外，還需考慮底層硬件的兼容性。一般而言，分布式存儲(chǔ)系統(tǒng)的產(chǎn)品有三種形態(tài)：軟硬件一體機(jī)、硬件OEM和軟件+標(biāo)準(zhǔn)硬件，大家在選擇時(shí)，需根據(jù)產(chǎn)品的成熟度、風(fēng)險(xiǎn)規(guī)避、運(yùn)維要求等，結(jié)合自身的技術(shù)力量等，選擇合適的產(chǎn)品形態(tài)。

OpenStack簡(jiǎn)介

OpenStack 是一個(gè)開(kāi)源的 IaaS 實(shí)現(xiàn)，它由一些相互關(guān)聯(lián)的子項(xiàng)目組成，主要包括計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)。

由于以 Apache 協(xié)議發(fā)布，自 2010 年項(xiàng)目成立以來(lái)，超過(guò) 200 個(gè)公司加入了OpenStack 項(xiàng)目，其中包括 AT&T、AMD、Cisco、Dell、IBM、Intel、Red Hat 等。

目前參與 OpenStack 項(xiàng)目的開(kāi)發(fā)人員有 17,000+，來(lái)自 139 個(gè)國(guó)家，這一數(shù)字還在不斷增長(zhǎng)中。

OpenStack 兼容一部分 AWS 接口，同時(shí)為了提供更強(qiáng)大的功能，也提供OpenStack 風(fēng)格的接口（RESTFul API）。

和其他開(kāi)源 IaaS 相比，架構(gòu)上松耦合、高可擴(kuò)展、分布式、純 Python實(shí)現(xiàn)，以及友好活躍的社區(qū)使其大受歡迎，每半年一次的開(kāi)發(fā)峰會(huì)也吸引了來(lái)自全世界的開(kāi)發(fā)者、供應(yīng)商和客戶(hù)。

OpenStack 的主要子項(xiàng)目有：

Compute（Nova）提供計(jì)算虛擬化服務(wù)，是 OpenStack 的核心，負(fù)責(zé)管理和創(chuàng)建虛擬機(jī)。它被設(shè)計(jì)成方便擴(kuò)展，支持多種虛擬化技術(shù)，并且可以部署在標(biāo)準(zhǔn)硬件上。

Object Storage（Swift）提供對(duì)象存儲(chǔ)服務(wù)，是一個(gè)分布式，可擴(kuò)展，多副本的存儲(chǔ)系統(tǒng)。

Block Storage（Cinder），提供塊存儲(chǔ)服務(wù)，為 OpenStack 的虛擬機(jī)提供持久的塊級(jí)存儲(chǔ)設(shè)備。支持多種存儲(chǔ)后端，包括Ceph，EMC 等。

Networking（Neutron）提供網(wǎng)絡(luò)虛擬化服務(wù)，是一個(gè)可拔插，可擴(kuò)展，API 驅(qū)動(dòng)的服務(wù)。

Dashboard 提供了一個(gè)圖形控制臺(tái)服務(wù)，讓用戶(hù)方便地訪(fǎng)問(wèn)，使用和維護(hù) OpenStack中的資源。

Image（glance）提供鏡像服務(wù)，它旨在發(fā)現(xiàn)，注冊(cè)和交付虛擬機(jī)磁盤(pán)和鏡像。支持多種后端。

Telemetry（Ceilometer）提供用量統(tǒng)計(jì)服務(wù)，通過(guò)它可以方便地實(shí)現(xiàn) OpenStack計(jì)費(fèi)功能。

Orchestration（Heat）整合了 OpenStack 中的眾多組件，類(lèi)似 AWS 的 CloudFormation，讓用戶(hù)能夠通過(guò)模板來(lái)管理資源。

Database（Trove）基于 OpenStack 構(gòu)建的 database-as-a-service。

通常構(gòu)建企業(yè)私有云，使用Nova、Glance、Keystone、Neutron 就可基本完成私有云IAAS搭建。近幾年流行PAAS云服務(wù)，一般對(duì)業(yè)務(wù)系統(tǒng)Docker化，使用容器編排構(gòu)建容器云。容器云可獨(dú)立直接部署在物理機(jī)之上，也可構(gòu)建在openstack私有云服務(wù)IAAS之上。

本站僅提供存儲(chǔ)服務(wù)，所有內(nèi)容均由用戶(hù)發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊舉報(bào)。

国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看