IT系統(tǒng)的可用性可以用單位時間內(nèi)(一般以年計算)系統(tǒng)實際服務時間/系統(tǒng)約定服務時間*100%來表示,最高為100%。受限于技術能力和成本限制,任何系統(tǒng)都不可能獲得100%的可用性,滿足100%的可用性意味著必須針對任何小概率事件,包括正常維保、硬軟件故障、操作失誤、人為破壞、停電、洪水、火災、地震甚至戰(zhàn)爭因素,都必須有不間斷服務的解決方案,這對于任何一個機構而言不論從技術上還是成本上都幾乎是無法實現(xiàn)的目標。
雖然很多IT管理人員和服務廠商在IT系統(tǒng)可用性的提升方面投入了大量的成本和精力,甚至可以說不遺余力,但實際結果卻是各自為政,效果無法預期。這主要是由IT系統(tǒng)的復雜性所決定的,現(xiàn)在的IT系統(tǒng)服務可用性依賴于技術和管理的不同方面,包括:IT架構及運維管理、基礎設施及管理、災備建設及運維、安全及管理、IT治理等諸多子項,涉及網(wǎng)絡、存儲、數(shù)據(jù)復制、安全、監(jiān)控、空調、電力等不同技術領域。
衡量高可用性IT服務能力的指標包括技術指標、管理指標、時間指標等,通過這些指標體系的建立可以幫助企業(yè)呈現(xiàn)IT系統(tǒng)整體的可用性水平,并通過測量與改進,不斷提升高可用IT服務能力,以更好地保障業(yè)務運營的連續(xù)性、可用性,支持業(yè)務創(chuàng)新,降低總體擁有成本,提升服務質量。
不同的技術和管理領域中的風險既符合疊加原理又符合短板原理。從最終使用者的角度來看,任何一個技術或者管理體系造成的停機時間都會被累加,而不會被區(qū)分原因。但是從系統(tǒng)建設管理的角度來看短板原理也十分明顯,如果一個系統(tǒng)每年會因為停電原因導致幾十個小時的停機,那么投入大量成本來避免可能兩年發(fā)生一次,每次造成15分鐘停機的網(wǎng)絡風險無疑是不明智的。而各產(chǎn)品和設備廠商提出改進可用性的方案往往都是從各自的技術領域出發(fā),既沒有統(tǒng)一標準也沒有通盤考慮,改進方案往往也都是局部的,甚至在利益驅動下缺乏客觀的基礎。
建立可用性建設或改進目標,建立測量體系,并通盤考量各系統(tǒng)可用性等級,按照對系統(tǒng)整體可用性影響的大小和費效比、時效比綜合安排各系統(tǒng)改進計劃和改進方案,分步實施并進行持續(xù)的監(jiān)控和改進,可以使IT系統(tǒng)的可用性穩(wěn)定一致的滿足于業(yè)務需求,而且可測量的可用性指標還可以作為衡量IT管理團隊服務水平和質量的標準之一。
那么如何從整體上考慮并規(guī)劃IT系統(tǒng)的高可用性呢,筆者根據(jù)IT規(guī)劃的一般規(guī)律和高可用性的特點提出以下方法:
一、設定IT系統(tǒng)可用性目標
IT系統(tǒng)的可用性必須遵從于IT系統(tǒng)最終用戶的業(yè)務要求,從這個角度來看,IT系統(tǒng)的可管理性和成本控制首先應依從于最終用戶對于可用性的要求。
在需求調研過程中,應充分認識到不同業(yè)務功能的重要程度差異、不同業(yè)務功能中斷對機構戰(zhàn)略目標實現(xiàn)的影響程度、非IT替代手段的可行性和非計劃中斷的必然性、機構本身承受意外事件傷害的能力等方面因素,獲取業(yè)務部門和服務對象的支持和理解。
最終分析取得各系統(tǒng)的最大可容忍中斷時間。在分析過程中,應充分考慮機構在經(jīng)濟損失、聲譽損失和社會責任缺失等方面造成的損害和其承受能力,設定承受能力的閾值。機構在經(jīng)濟方面、聲譽和市場方面社會責任和法規(guī)遵從方面的損失會隨中斷時間的延長逐步擴大,當超過某一特定時間,各方面的累積損失將不可接受,會對機構生存和戰(zhàn)略目標達成構成不可逆轉的影響,這個時間就是最大可容忍中斷時間。
值得注意的是,最大可容忍中斷時間對不同的場景可能會有不同,一般而言不可抗力事件影響的公眾和市場容忍度較高,法律賠償方面影響較低,而人為責任事件公眾和市場容忍度較低,法律法規(guī)方面懲罰性措施也更嚴厲。
通過調研評估最終得出得到業(yè)務部門和最終用戶認可的系統(tǒng)的可用性目標=(約定服務時間-最大可容忍中斷時間)/約定服務時間*100%。
二、了解可用性保障水平的現(xiàn)狀
明確目標之后,還應該了解目前系統(tǒng)可用性水平的現(xiàn)狀,找出差距和不足。對于現(xiàn)狀的了解應從兩個方面著手。一方面應對目前的IT架構和IT管理體系現(xiàn)狀進行全面的了解和掌握(包括技術體系、邏輯關系、管理流程、管理制度、組織體系等)。
為將來進行針對性改建做好基礎準備。另一方面應充分了解目前IT系統(tǒng)的風險環(huán)境狀況,通過歷史事件統(tǒng)計、信息安全管理風險分析、基礎設施風險環(huán)境分析和IT架構技術風險分析等,了解機構信息系統(tǒng)面臨的威脅種類和發(fā)生概率,了解機構對不同威脅的防范措施的有效性,了解不同種類風險發(fā)生對機構的危害和影響程度等。最終獲取按照風險等級排列的威脅列表、針對已經(jīng)采取的防范措施有效性的評價列表,以及針對不同等級風險的處置方式建議等。
三、確定高可用建設和管理策略
可用性規(guī)劃策略的制定應充分考慮現(xiàn)有系統(tǒng)的狀況和資源狀況,充分考慮機構的業(yè)務目標和發(fā)展計劃,充分考慮技術現(xiàn)狀和發(fā)展趨勢,充分利用專業(yè)廠商的服務和資源共享,并結合IT整體規(guī)劃目標制定IT系統(tǒng)可用性的實現(xiàn)和改進策略。
可用性規(guī)劃的整體策略應該包括:
整體目標,包括:保障系統(tǒng)范圍,整體可用性指標、計劃達成的時間目標等
必須符合的政策和原則,包括:相關的政策法規(guī)要求,既定建設原則等
分解的目標,包括:各系統(tǒng)的可用性指標,時間計劃分解和階段性目標的確定
保障手段:例如,設備加固、設備冗余、數(shù)據(jù)備份、專業(yè)服務外包、建設災備中心等
資源獲取方式,包括:資金的來源和保障,組織機構的保障措施相關技術和設備、場地等資源的獲取方式等
可用性指標的監(jiān)控和改進的組織、流程和措施等
四、設計IT系統(tǒng)高可用性改進方案
IT系統(tǒng)可用性的改善和提高涉及技術和管理的各個領域,絕對不是一兩個單純的技術方案能夠實現(xiàn)的。一般而言,可用性改進的方案中應至少包括:
管理體系改進方案,包括:可用性規(guī)劃、執(zhí)行、檢查、改進各環(huán)節(jié)的目標、職責、流程和管理工具、管理方法,實現(xiàn)計劃、資源投入等,如果需要,根據(jù)策略要求管理體系中還應包括災備中心的管理體系整合。
技術體系改進方案,包括:主機體系、網(wǎng)絡體系、存儲體系、應用體系、安全監(jiān)控體系等各分子系統(tǒng)的改進目標、技術路線、資源獲取方式、成本估算等,如果需要還要根據(jù)策略要求規(guī)劃災備中心的技術實現(xiàn)方案。
此外,根據(jù)實際情況可能還包括,機房基礎設施和服務資源獲取方案,信息安全管理體系改進方案等。
設計方案完成后應組織相關領域的專家對各方案的可行性、可管理性、技術成熟度、可擴展性、可管理性、費效比等進行評估和修訂。
五、高可用改進方案的分步實現(xiàn)
一般而言,可用性的改進計劃應根據(jù)時效比和費效比排列優(yōu)先級,根據(jù)方案設定分類分階段招標,由專業(yè)廠商負責實施完成。對于復雜的可能需要多家專業(yè)廠商協(xié)作完成的綜合性項目,應由熟悉整體規(guī)劃和項目管理專業(yè)技能的人員組建專業(yè)項目管理團隊,在整個項目周期中協(xié)調和管理整個實施過程,保證項目的實施質量和實施周期。
六、IT系統(tǒng)高可用性的維護和改進
IT系統(tǒng)高可用性目標的實現(xiàn)不是一兩個項目能夠完全解決的,隨著業(yè)務的發(fā)展和技術的變革,IT系統(tǒng)的邏輯架構和功能,數(shù)據(jù)和配置信息以及其所處的風險環(huán)境等都會處于不斷的變化當中,必須建立起持續(xù)的監(jiān)控、改進流程和相關的規(guī)范方法,才能夠保證系統(tǒng)的可用性目標能夠得到保持并持續(xù)的改進。
相關的維護和改進工作至少應包括:
可用性保障措施的檢查和測試。包括對冗余部件、冗余系統(tǒng)、災備系統(tǒng)的可用性的測試和維護等。
可用性指標的持續(xù)監(jiān)控和記錄。應對可能或已經(jīng)影響可用性指標的事件進行及時全面的記錄,并實時更新目前可用性完成情況。
定期對可用性指標和事件進行回顧和總結。應建立有機構管理層和業(yè)務代表參加的可用性管理委員會,對可用性指標的達成情況和下一步工作計劃進行討論和確定,并審核前期工作計劃的完成情況,統(tǒng)一決策并協(xié)調資源的調動。
對可用性改進建議措施的實施和跟蹤。應由專門的人員負責可用性改進措施實施的管理和跟蹤,協(xié)調資源并隨時匯報可能遇到問題。
人員的培訓和教育。影響可用性的事件并不會持續(xù)發(fā)生,但一旦發(fā)生必然會對機構運營造成比較重大的影響,熟練的有技能的人員是有效處置這類事件,最大限度降低對可用性影響的基礎和關鍵。針對此類事件的培訓和演習、演練是提高人員技能水平和熟練度的有效手段。應通盤考慮定期的、計劃性的開展針對可能影響系統(tǒng)可用性事件的演練,包括本地搶修和災備系統(tǒng)切換。
高可用IT管理是一個復雜的系統(tǒng)工程,包含了IT架構、基礎設施、災備、安全、IT治理等各個不同的技術和管理領域,在每一個技術和管理領域中又都有其自身的知識體系和方法體系,本文無法窮舉,希望通過以上內(nèi)容對企業(yè)CIO在構建高可用IT管理體系方面有所幫助,共同推進高可用IT管理體系的發(fā)展。