1、集群(Cluster)技術(shù)
集群技術(shù)是近幾年新興起的一項(xiàng)高性能計(jì)算技術(shù)。它是將一組相互獨(dú)立的計(jì)算機(jī)通過(guò)高速的通信網(wǎng)絡(luò)而組成的一個(gè)單一的計(jì)算機(jī)系統(tǒng),并以單一系統(tǒng)的模式加以管理。其出發(fā)點(diǎn)是提供高可靠性、可擴(kuò)充性和抗災(zāi)難性。
一個(gè)服務(wù)器集群包含多臺(tái)擁有共享數(shù)據(jù)存儲(chǔ)空間的服務(wù)器,各服務(wù)器之間通過(guò)內(nèi)部局域網(wǎng)進(jìn)行相互通信;當(dāng)其中一臺(tái)服務(wù)器發(fā)生故障時(shí),它所運(yùn)行的應(yīng)用程序?qū)⒂善渌姆?wù)器自動(dòng)接管;在大多數(shù)情況下,集群中所有的計(jì)算機(jī)都擁有一個(gè)共同的名稱,集群系統(tǒng)內(nèi)任意一臺(tái)服務(wù)器都可被所有的網(wǎng)絡(luò)用戶所使用。
在集群系統(tǒng)中運(yùn)行的服務(wù)器并不一定是高檔產(chǎn)品,但服務(wù)器的集群卻可以提供相當(dāng)高性能的不停機(jī)服務(wù);每一臺(tái)服務(wù)器都可承擔(dān)部分計(jì)算任務(wù),并且由于群集了多臺(tái)服務(wù)器的性能,因此,整體系統(tǒng)的計(jì)算能力將有所提高;同時(shí),每臺(tái)服務(wù)器還能承擔(dān)一定的容錯(cuò)任務(wù),當(dāng)其中某臺(tái)服務(wù)器出現(xiàn)故障時(shí),系統(tǒng)可以在專用軟件的支持下將這臺(tái)服務(wù)器與系統(tǒng)隔離,并通過(guò)各服務(wù)器之間的負(fù)載轉(zhuǎn)移機(jī)制實(shí)現(xiàn)新的負(fù)載平衡,同時(shí)向系統(tǒng)管理員發(fā)出報(bào)警信號(hào)。
集群系統(tǒng)通過(guò)功能整合和故障過(guò)渡技術(shù)實(shí)現(xiàn)系統(tǒng)的高可用性和高可靠性,集群技術(shù)還能夠提供相對(duì)低廉的總體擁有成本和強(qiáng)大靈活的系統(tǒng)擴(kuò)充能力。
2、SMP(Symmetric Multi-Processing)技術(shù)
即對(duì)稱多處理,是指在一個(gè)計(jì)算機(jī)上匯集了一組處理器(多CPU)。各CPU之間共享內(nèi)存子系統(tǒng)以及總線結(jié)構(gòu)。雖然同時(shí)使用多個(gè)CPU,但是從管理的角度來(lái)看,它們的表現(xiàn)就像一臺(tái)單機(jī)一樣。系統(tǒng)將任務(wù)隊(duì)列對(duì)稱地分布于多個(gè)CPU之上,從而極大地提高了整個(gè)系統(tǒng)的數(shù)據(jù)處理能力。隨著用戶應(yīng)用水平的提高,只使用單個(gè)的處理器確實(shí)已經(jīng)很難滿足實(shí)際應(yīng)用的需求,因而各服務(wù)器廠商紛紛通過(guò)采用對(duì)稱多處理系統(tǒng)來(lái)解決這一矛盾。PC服務(wù)器中最常見(jiàn)的對(duì)稱多處理系統(tǒng)通常采用2路、4路、6路或8路處理器。目前UNIX服務(wù)器可支持最多64個(gè)CPU的系統(tǒng),如Sun公司的產(chǎn)品Enterprise 10000。SMP系統(tǒng)中最關(guān)鍵的技術(shù)是如何更好地解決多個(gè)處理器的相互通訊和協(xié)調(diào)問(wèn)題。
3、NUMA(Non-Uniform Memory Access)分布式內(nèi)存存取
在高性能計(jì)算領(lǐng)域,目前一種被各廠商廣泛采用的新技術(shù)是NUMA。它的思路是將SMP和群集的優(yōu)勢(shì)結(jié)合起來(lái)。它是由若干通過(guò)高速專用網(wǎng)絡(luò)連接起來(lái)的獨(dú)立節(jié)點(diǎn)所構(gòu)成的系統(tǒng),各個(gè)節(jié)點(diǎn)可以是單個(gè)的CPU或是一個(gè)SMP系統(tǒng)。這一技術(shù)是對(duì)傳統(tǒng)的基于Intel的SMP系統(tǒng)的一種改進(jìn)。傳統(tǒng)的基于Intel的SMP系統(tǒng)常常會(huì)因共享內(nèi)存總線上的數(shù)據(jù)過(guò)于擁擠而導(dǎo)致數(shù)據(jù)阻塞。在一般情況下,它們無(wú)法容納16~32個(gè)處理器。而如果采用NUMA技術(shù),每一Intel處理器都將擁有其自己的局部?jī)?nèi)存,并能夠形成與其它芯片中的內(nèi)存靜態(tài)或動(dòng)態(tài)的連接。NUMA服務(wù)器可容納64或64個(gè)以上的處理器。NUMA體系結(jié)構(gòu)的機(jī)器從內(nèi)部看,整體上是分布內(nèi)存式的,但是由于它的傳輸通道速度非常高,所以用戶用起來(lái)就像是共享內(nèi)存式的機(jī)器一樣。它的價(jià)格介于SMP系統(tǒng)和群集系統(tǒng)之間。最初NUMA技術(shù)是建立在采用專用的IRIX操作系統(tǒng)和MIPS處理器之上的,而現(xiàn)今該項(xiàng)技術(shù)已經(jīng)被越來(lái)越多的廠商所采用。
4、ISC(Intel Server Control)Intel服務(wù)器控制
ISC是一種網(wǎng)絡(luò)監(jiān)控技術(shù),只適用于使用Intel架構(gòu)的帶有集成管理功能主板的服務(wù)器。采用這種技術(shù)后,用戶在一臺(tái)普通的客戶機(jī)上,就可以監(jiān)測(cè)網(wǎng)絡(luò)上所有使用Intel主板的服務(wù)器,監(jiān)控和判斷服務(wù)器是否“健康”。一旦服務(wù)器中機(jī)箱、電源、風(fēng)扇、內(nèi)存、處理器、系統(tǒng)信息、溫度、電壓或第三方硬件中的任何一項(xiàng)出現(xiàn)錯(cuò)誤,就會(huì)報(bào)警提示管理人員。值得一提的是,監(jiān)測(cè)端和服務(wù)器端之間的網(wǎng)絡(luò)可以是局域網(wǎng)也可以是廣域網(wǎng),可直接通過(guò)網(wǎng)絡(luò)對(duì)服務(wù)器進(jìn)行啟動(dòng)、關(guān)閉或重新置位,極大地方便了管理和維護(hù)工作。
5、EMP(Emergency Management Port)應(yīng)急管理端口
EMP是服務(wù)器主板上所帶的一個(gè)用于遠(yuǎn)程管理服務(wù)器的接口。遠(yuǎn)程控制機(jī)可以通過(guò)Modem與服務(wù)器相連,控制軟件安裝于控制機(jī)上。遠(yuǎn)程控制機(jī)通過(guò)EMP Console控制界面可以對(duì)服務(wù)器進(jìn)行下列工作:
A.打開或關(guān)閉服務(wù)器的電源。
B.重新設(shè)置服務(wù)器,甚至包括主板BIOS和CMOS的參數(shù)。
C.監(jiān)測(cè)服務(wù)器內(nèi)部情況:如溫度、電壓、風(fēng)扇情況等。
以上功能可以使技術(shù)支持人員在遠(yuǎn)地通過(guò)Modem和電話線及時(shí)解決服務(wù)器的許多硬件故障。這是一種很好的實(shí)現(xiàn)快速服務(wù)和節(jié)省維護(hù)費(fèi)用的技術(shù)手段。
通過(guò)ISC和EMP兩種技術(shù)可以實(shí)現(xiàn)對(duì)服務(wù)器的遠(yuǎn)程監(jiān)控管理
6、RAID(Redundant Array of Independent Disks)廉價(jià)冗余磁盤陣列
由于磁盤的存取速度跟不上CPU的處理速度,從而使磁盤成為提高服務(wù)器I/O能力的一個(gè)瓶頸。為解決計(jì)算機(jī)CPU的高速和磁盤的低速之間日益加劇的矛盾,1987年美國(guó)加利福尼亞大學(xué)伯克利分校的David.A.Pattorson教授等人提出了RAID的概念。其技術(shù)思想是:利用現(xiàn)有的小型廉價(jià)磁盤,把多個(gè)磁盤按一定的方法組成一個(gè)磁盤陣列,通過(guò)一些硬件技術(shù)和一系列的調(diào)度算法,使得整個(gè)磁盤陣列對(duì)用戶來(lái)說(shuō),就像是在使用一個(gè)容量很大、而可靠性和速度非常高的大型磁盤。
RAID技術(shù)采用若干硬磁盤驅(qū)動(dòng)器按照一定要求組成一個(gè)整體,整個(gè)磁盤陣列由陣列控制器管理。磁盤陣列有許多特點(diǎn):首先,提高了存儲(chǔ)容量;其次,多臺(tái)磁盤驅(qū)動(dòng)器可并行工作,提高了數(shù)據(jù)傳輸率;第三,由于有校驗(yàn)技術(shù),提高了可靠性:如果陣列中有一臺(tái)硬磁盤損壞,利用其它盤可以重新恢復(fù)出損壞盤上原來(lái)的數(shù)據(jù),而不影響系統(tǒng)的正常工作,并可以在帶電狀態(tài)下更換已損壞的硬盤(即熱插拔功能),陣列控制器會(huì)自動(dòng)把重組數(shù)據(jù)寫入新盤,或?qū)懭霟醾浞荼P而將新盤用做新的熱備份盤;另外磁盤陣列通常配有冗余設(shè)備,如電源和風(fēng)扇,以保證磁盤陣列的散熱和系統(tǒng)的可靠性。
目前常用的RAID類型可分為:RAID0、RAID1、RAID3、RAID5等。
7、I2C(inter-integrated circuit)總線
I2C總線是一種由飛利浦公司開發(fā)的串行總線,產(chǎn)生于80年代,最初為音頻和視頻設(shè)備開發(fā),而如今主要在服務(wù)器管理中使用。I2C總線包括一個(gè)兩端接口,通過(guò)一個(gè)帶有緩沖區(qū)的接口,數(shù)據(jù)可以被I2C發(fā)送或接受。控制和狀態(tài)信息則通過(guò)一套內(nèi)存映射寄存器來(lái)傳送。利用I2C硬件總線技術(shù)可以對(duì)服務(wù)器的所有部件進(jìn)行集中管理,可隨時(shí)監(jiān)控內(nèi)存、硬盤、網(wǎng)絡(luò)、系統(tǒng)溫度等多個(gè)參數(shù),增加了系統(tǒng)的安全性,方便了管理。
I2C總線最主要的優(yōu)點(diǎn)是其簡(jiǎn)單性和有效性。由于接口直接在組件之上,因此I2C總線占用的空間非常小,從而減少了電路板的空間和芯片管腳的數(shù)量,進(jìn)而降低了互聯(lián)成本??偩€的長(zhǎng)度可高達(dá)25英尺,并且能夠以10Kbps的最大傳輸速率支持40個(gè)組件。I2C總線的另一個(gè)優(yōu)點(diǎn)是,它支持多主控(multi-mastering),其中任何能夠進(jìn)行發(fā)送和接收的設(shè)備都可以成為主總線。一個(gè)主總線能夠控制信號(hào)的傳輸和時(shí)鐘頻率。自然,在任何時(shí)間點(diǎn)上只能有一個(gè)主總線。
8、智能輸入/輸出(Intelligent I2O)技術(shù)
由于PC服務(wù)器的I/O體系源于單用戶的PC臺(tái)式機(jī),而不是為處理大吞吐量任務(wù)的專用服務(wù)器而設(shè)計(jì)的,一旦成為網(wǎng)絡(luò)中心設(shè)備后,數(shù)據(jù)傳輸量大大增加,因而I/O數(shù)據(jù)傳輸經(jīng)常會(huì)成為整個(gè)系統(tǒng)的瓶頸。I2O智能輸入/輸出技術(shù)把任務(wù)分配給智能I/O系統(tǒng),在這些子系統(tǒng)中,專用的I/O處理器將負(fù)責(zé)中斷處理、緩沖存取以及數(shù)據(jù)傳輸?shù)葻┈嵢蝿?wù),這樣系統(tǒng)的吞吐能力就得到了提高,服務(wù)器的主處理器也能被解放出來(lái)去處理更為重要的任務(wù)。因此,依據(jù)I2O技術(shù)規(guī)范實(shí)現(xiàn)的PC服務(wù)器在硬件規(guī)模不變的情況下能處理更多的任務(wù),作為中小型網(wǎng)絡(luò)核心的低端PC服務(wù)器可以從中獲得更多的性能提高。
9、多處理器通信和協(xié)調(diào)技術(shù)
企業(yè)級(jí)PC服務(wù)器大都為多處理器結(jié)構(gòu),這樣多處理器之間的通信與協(xié)調(diào)就十分重要。采用多處理器通信和協(xié)調(diào)技術(shù)后,PC服務(wù)器可將超過(guò)四個(gè)以上的處理器群分為多個(gè)組,每個(gè)處理器組都配有一個(gè)高速緩存系統(tǒng),通過(guò)對(duì)緩存映射結(jié)構(gòu)的一致性檢驗(yàn),從而保證在計(jì)算過(guò)程中每組處理器中內(nèi)置的高速緩存信息和內(nèi)存中相應(yīng)信息的一致性。為保證系統(tǒng)間的高速通信,采用這種技術(shù)的系統(tǒng)內(nèi)部還普遍采取了高速交換模塊的設(shè)計(jì)思想,使得系統(tǒng)中每組處理器都能夠獨(dú)占一個(gè)100MHz的系統(tǒng)總線。在有的系統(tǒng)內(nèi)部還采用了多個(gè)獨(dú)立的內(nèi)存板,每個(gè)內(nèi)存板占據(jù)一個(gè)單獨(dú)的100MHz系統(tǒng)總線,在這些內(nèi)存板、多組處理器模塊和I/O總線之間又采用一個(gè)高速的交換式總線系統(tǒng),以保證其中任一組設(shè)備之間均可以100MHz的高速率進(jìn)行通信傳輸,從而使整個(gè)系統(tǒng)的傳輸帶寬達(dá)到較高水平。這些措施不僅有效地解決了傳統(tǒng)的多處理器系統(tǒng)中的傳輸帶寬瓶頸的問(wèn)題,從而極大地提高了系統(tǒng)的整體性能表現(xiàn),并且還為系統(tǒng)群集提供了平穩(wěn)的升級(jí)方案,為企業(yè)的關(guān)鍵性運(yùn)算提供性能更高、可用性更好的硬件平臺(tái)。
10、熱插拔(Hot Swap)
熱插拔功能就是允許用戶在不關(guān)閉系統(tǒng),不切斷電源的情況下取出和更換損壞的硬盤、電源或板卡等部件,從而提高了系統(tǒng)對(duì)災(zāi)難的及時(shí)恢復(fù)能力、擴(kuò)展性和靈活性等,例如一些面向高端應(yīng)用的磁盤鏡像系統(tǒng)都可以提供磁盤的熱插拔功能。如果沒(méi)有熱插拔功能,即使磁盤損壞不會(huì)造成數(shù)據(jù)的丟失,用戶仍然需要暫時(shí)關(guān)閉系統(tǒng),以便能夠?qū)τ脖P進(jìn)行更換,而使用熱插拔技術(shù)只要簡(jiǎn)單的打開連接開關(guān)或者轉(zhuǎn)動(dòng)手柄就可以直接取出硬盤,而系統(tǒng)仍然可以不間斷地正常運(yùn)行。
對(duì)于一些應(yīng)用于關(guān)鍵任務(wù)的服務(wù)器,由于可以在不停機(jī)的情況下更換損壞的RAID卡或以太網(wǎng)卡等,從而大大地減少了由于硬件故障而造成的系統(tǒng)停機(jī)時(shí)間。