(近期,TechTarget中國記者孫瑞對四川電信將CRM核心數(shù)據(jù)庫從小型機(jī)遷移到x86虛擬化平臺(tái)的項(xiàng)目進(jìn)行了采訪。以下是對本事件的詳細(xì)報(bào)道。)
從近兩年開始,一場起源于國內(nèi)某知名互聯(lián)網(wǎng)企業(yè)的“去IOE(代指由IBM小型機(jī)、Oracle數(shù)據(jù)庫和EMC高端存儲(chǔ)為代表的封閉式高成本IT架構(gòu))”運(yùn)動(dòng)在國內(nèi)引起了巨大反響,一些傳統(tǒng)企業(yè)也開始紛紛效仿,希望通過去掉IOE實(shí)現(xiàn)成本的降低,并讓IT架構(gòu)更靈活可控。
然而對于一些IOE的重度用戶,比如金融、電信企業(yè)等,去掉已經(jīng)采用多年且磨合成熟的經(jīng)典組合談何容易。將核心的業(yè)務(wù)應(yīng)用遷移到新的平臺(tái)上,需要考慮的問題很多,這使得大部分企業(yè)對去IOE只能紙上談兵。當(dāng)然,在這個(gè)方向上總要有先行者。據(jù)了解,四川電信在今年5月,成功將核心CRM系統(tǒng)的Oracle數(shù)據(jù)庫從IBM P595小型機(jī)遷移到基于x86的私有云平臺(tái)上。對于這次成功的去“I”項(xiàng)目,TechTarget記者也有幸采訪到了四川電信企業(yè)信息化部總經(jīng)理梁天健和運(yùn)維部經(jīng)理李華,讓他們來講述一下項(xiàng)目背后的故事,以及對去IOE的看法。
小型機(jī)vs. x86虛擬化平臺(tái)
究竟是小型機(jī)還是x86?對于這個(gè)問題,梁天健說:“只有大金主才有實(shí)力不必糾結(jié)于這些事情,我們不是?!?br>
在大家的印象中,國內(nèi)的電信運(yùn)營商應(yīng)該是不差錢的,但事實(shí)并非如此。為了提升數(shù)據(jù)庫的緩存命中率,為了增加數(shù)據(jù)庫的并發(fā)連接數(shù),這些都需要對小型機(jī)進(jìn)行內(nèi)存等硬件資源的擴(kuò)容,動(dòng)輒幾十、上百萬的預(yù)算對四川電信來說已經(jīng)成為一種壓力。梁天健測算了CRM系統(tǒng)數(shù)據(jù)庫向x86遷移帶來的成本節(jié)省:采用x86平臺(tái),以設(shè)備生命期周期3年計(jì)算,服務(wù)器+虛擬化軟件+電費(fèi)+維保費(fèi)用,9年的成本是700萬左右 ;采用小型機(jī),以設(shè)備生命周期8年計(jì)算,服務(wù)器+電費(fèi)+維保費(fèi)用,8年的成本是1800萬左右。當(dāng)然,成本只是一方面的考慮。在梁天健看來,從小型機(jī)遷移到x86 PC服務(wù)器上還存在著諸多的好處。
“四川電信這次向x86平臺(tái)的遷移,并不是去IOE大潮下的一場秀,而是IT基礎(chǔ)平臺(tái)發(fā)展的必然選擇?!?/span>梁天健說。
據(jù)了解,四川電信在08、09年就已經(jīng)開始在IT系統(tǒng)中引入x86及虛擬化;2010年實(shí)現(xiàn)了將web服務(wù)器還有小型數(shù)據(jù)庫運(yùn)行在x86虛擬化環(huán)境上;2011年實(shí)現(xiàn)了重要系統(tǒng)J2EE Server、應(yīng)用、非關(guān)鍵系統(tǒng)數(shù)據(jù)庫運(yùn)行在x86虛擬化環(huán)境上;同時(shí)又在前兩年實(shí)現(xiàn)了x86虛擬化環(huán)境向統(tǒng)一私有云平臺(tái)的轉(zhuǎn)換。因此這次將核心數(shù)據(jù)庫遷移到基于x86的私有云平臺(tái)上是一個(gè)合乎發(fā)展進(jìn)程的必然事件。
在梁天健看來,使用虛擬機(jī)在滿足四川電信的業(yè)務(wù)需求上沒有任何問題。從可用性來說,自2010年以來,Oracle數(shù)據(jù)庫還沒有出現(xiàn)過由于虛擬機(jī)層面導(dǎo)致的問題;而對于性能,單純的虛擬化在I/O方面的確會(huì)有些損失,但帶來的影響并沒有足夠大到引起I/O不足的地步。
實(shí)際上,使用虛擬化平臺(tái)還有以下幾個(gè)明顯的好處:
1.實(shí)現(xiàn)標(biāo)準(zhǔn)化管理:在某些大型企業(yè)管理里面,數(shù)據(jù)庫的部署可以說是五花八門,跟部署人員的水平和習(xí)慣有很大關(guān)系,安裝目錄、版本、補(bǔ)丁、系統(tǒng)參數(shù)以及部署不當(dāng)導(dǎo)致問題和隱患的情況是非常多的。使用虛擬機(jī)模板來部署,版本、補(bǔ)丁等實(shí)現(xiàn)了標(biāo)準(zhǔn)化,這是系統(tǒng)運(yùn)維和管理標(biāo)準(zhǔn)化的基礎(chǔ)。
2.高可用性:對于物理機(jī),特別是小型機(jī),如果機(jī)器故障或者是停機(jī)維護(hù),時(shí)間是相對較長的。而對于虛擬機(jī)來說,換一臺(tái)資源池中的其他機(jī)器來啟動(dòng)虛擬機(jī),停機(jī)時(shí)間相對可控、較短。對于重要系統(tǒng),虛擬機(jī)本身(主要操作系統(tǒng))也是可以備份的。將一個(gè)穩(wěn)定系統(tǒng)備份之后,即使發(fā)生rm /這樣的錯(cuò)誤命令,恢復(fù)起來也比重裝或從磁帶恢復(fù)要快。
3.硬件升級(jí)更為方便:如果物理機(jī)的性能不足以支持系統(tǒng),或者機(jī)器老化,再或者購置了新的機(jī)器用來代替原來的設(shè)備,只需要將虛擬機(jī)在新的機(jī)器上運(yùn)行即可。遷移十分方便快捷。
4.集中管理,集中監(jiān)控,提高運(yùn)維效率:虛擬化平臺(tái)本身帶有集中管理和監(jiān)控功能,這對大型企業(yè)環(huán)境來說是非常具有價(jià)值的。
著手去掉小型機(jī)
梁天健表示,對于電信運(yùn)營商、銀行這種大型企業(yè)來說,系統(tǒng)的可用性是運(yùn)維部門KPI的重要組成部分,一個(gè)系統(tǒng)的運(yùn)行穩(wěn)定與否,通常是與系統(tǒng)的負(fù)荷有關(guān)。比如一些BUG(包括操作系統(tǒng)的BUG)就是在高并發(fā)高負(fù)載下出現(xiàn)的。越大型的系統(tǒng),影響可用性的因素就越多。對于IT部門來說,可能會(huì)面臨著這樣的情況:辛辛苦苦幾個(gè)月,熬了幾個(gè)通宵,結(jié)果系統(tǒng)中斷時(shí)間過長,抹殺了所有的努力。因此到目前為止,在國內(nèi)電信、銀行等企業(yè)將核心業(yè)務(wù)系統(tǒng)的Oracle數(shù)據(jù)庫遷移到以x86為核心的虛擬化平臺(tái)上,這樣的案例是非常少見的,而四川電信就是其中之一。
據(jù)了解,為了保證整個(gè)遷移過程的順利進(jìn)行,四川電信從去年就啟動(dòng)了項(xiàng)目計(jì)劃。同時(shí)為了確保遷移后系統(tǒng)的平穩(wěn)運(yùn)行,實(shí)施優(yōu)化先行的策略,四川電信還引入了專業(yè)合作伙伴對CRM系統(tǒng)提供優(yōu)化建議,使得一期優(yōu)化整體性能提升超過了30%。
“實(shí)際上因?yàn)橹耙呀?jīng)有大量的x86虛擬機(jī)平臺(tái)的實(shí)施及維護(hù)經(jīng)驗(yàn),因此單純將數(shù)據(jù)庫遷移到虛擬化平臺(tái)并不是我們最擔(dān)心的,”梁天健說:“由于此次遷移還同時(shí)將Oracle數(shù)據(jù)庫的大版本升級(jí)到11g,應(yīng)用上對于新版本數(shù)據(jù)庫能否適應(yīng),是否會(huì)有意外的性能波動(dòng),才是最需要關(guān)注的難點(diǎn),這也是我們需要聘請一些專業(yè)合作伙伴的原因,他們在項(xiàng)目中提供了專業(yè)咨詢并負(fù)責(zé)升級(jí)遷移過程中應(yīng)用系統(tǒng)的性能評估、優(yōu)化及保障,非常感謝這些合作伙伴的辛苦付出?!?/p>
據(jù)了解,由于這是國內(nèi)首次將電信級(jí)核心數(shù)據(jù)庫遷移到虛擬化平臺(tái)中,四川電信將CRM數(shù)據(jù)庫的升級(jí)遷移分成了兩個(gè)大區(qū)依次進(jìn)行,在今年的5月初先進(jìn)行了A大區(qū)的遷移,然后經(jīng)過一段運(yùn)行考驗(yàn),在5月下旬繼續(xù)進(jìn)行了B大區(qū)的遷移。目前整個(gè)CRM系統(tǒng)已經(jīng)在x86虛擬環(huán)境中穩(wěn)定運(yùn)行了一個(gè)多月,事實(shí)證明四川電信這次遷移升級(jí)是完全正確的選擇。
遷移前后的性能對比
四川電信運(yùn)維部經(jīng)理李華是本次遷移升級(jí)項(xiàng)目的現(xiàn)場指揮,據(jù)他介紹,本次遷移項(xiàng)目開始之前,四川電信在IBM P595小型機(jī)上運(yùn)行Oracle RAC集群,P595是Power 5時(shí)代最高端的IBM小型機(jī),即使?jié)M配CPU才64核,而由于成本問題,最初配置的CPU不足,同樣每個(gè)節(jié)點(diǎn)內(nèi)存只有近200GB,而現(xiàn)在每個(gè)節(jié)點(diǎn)最高連接數(shù)為8000,同時(shí)由于主機(jī)上一些遺留配置問題,結(jié)果只能給數(shù)據(jù)庫分配不到50GB的緩存,這就導(dǎo)致了高端設(shè)備配置低端化,資源緊張。
在遷移之后,兩節(jié)點(diǎn)的Oracle RAC升級(jí)為11.2.0.3,運(yùn)行在以PC服務(wù)器為物理機(jī)的虛擬化環(huán)境中,每個(gè)節(jié)點(diǎn)內(nèi)存為256GB(物理機(jī)實(shí)際有1TB內(nèi)存),給數(shù)據(jù)庫分配了128GB SGA,內(nèi)存剩余量還很多(80G以上),這就是開放式架構(gòu)的低端設(shè)備配置高端化,性價(jià)比相當(dāng)優(yōu)越。
由于低端設(shè)備高配化,在業(yè)務(wù)高峰期,新系統(tǒng)中兩個(gè)節(jié)點(diǎn)的CPU利用率都不超過20%,即使一個(gè)節(jié)點(diǎn)發(fā)生故障宕機(jī),由單一節(jié)點(diǎn)來負(fù)載所有業(yè)務(wù),CPU也不會(huì)超過40%。而原運(yùn)行在P595小型機(jī)上的系統(tǒng),在業(yè)務(wù)高峰期單個(gè)節(jié)點(diǎn)的CPU占用通常會(huì)在50%以上,如果高峰期一臺(tái)機(jī)器意外宕機(jī),實(shí)際上剩余單機(jī)面臨的壓力會(huì)十分巨大。
最后如果再從性價(jià)比來看,這樣一臺(tái)幾乎頂配的x86 PC服務(wù)器的價(jià)格遠(yuǎn)遠(yuǎn)低于同等計(jì)算能力的IBM小型機(jī),價(jià)格大約在30萬人民幣左右,而后者的價(jià)格通常都是數(shù)百萬。
對于更詳細(xì)的性能對比,TechTarget記者還采訪到了負(fù)責(zé)本次遷移升級(jí)項(xiàng)目系統(tǒng)優(yōu)化及性能保障的云和恩墨公司西區(qū)總經(jīng)理熊軍,他向我們展示了兩幅性能圖表:其中CPU Time技術(shù)指標(biāo)是衡量一個(gè)數(shù)據(jù)庫系統(tǒng)在CPU上花費(fèi)了多少時(shí)間,在同等業(yè)務(wù)負(fù)載的情況下,如果CPU Time越低則意味著CPU的使用效率越高。從遷移前后兩幅圖標(biāo)的對比可以看出,遷移前CPU Time的平均使用為10左右,而遷移后降為平均7.5,也就意味著CPU效率提升大約25%。這樣的數(shù)字再參考上面的硬件價(jià)格比,實(shí)際上是以更低廉的價(jià)格換來了更卓越的性能。
圖一 遷移前CPU性能圖表
圖二 遷移后CPU性能圖表
“去O”不如“減O”
在成功去掉小型機(jī)之后,TechTarget記者還向梁天健詢問了關(guān)于去E(EMC存儲(chǔ))和去O(Oracle數(shù)據(jù)庫)的話題。
梁天健認(rèn)為,四川電信的私有云平臺(tái)是架構(gòu)在高端存儲(chǔ)上的,去E實(shí)際上成為一個(gè)難題。不過在去E之前,對于IT基礎(chǔ)架構(gòu)還有其他可以做的事,比如將網(wǎng)絡(luò)從1Gbps升級(jí)到10Gbps,以適應(yīng)數(shù)據(jù)爆炸對網(wǎng)絡(luò)帶寬越來越多的要求。如果要去E,那么存儲(chǔ)虛擬化、軟件定義存儲(chǔ)也許是可以實(shí)施的方向。而如何用好SSD硬盤來提升存儲(chǔ)的IO能力比去E更重要。目前四川電信已經(jīng)在這個(gè)層面開始探討,計(jì)劃孕育下一輪存儲(chǔ)層面的技術(shù)變革。
再談到去O,梁天健的態(tài)度很明確,從技術(shù)層面來講,目前很多企業(yè)連Oracle這樣具有高可用、高性能、易用性強(qiáng)的數(shù)據(jù)庫都沒有用好,去O根本無從談起。對于這些企業(yè),他們的首要目標(biāo)應(yīng)該是提升運(yùn)維和開發(fā)水平,而不是為了去而去。真要談去O,可能MySQL會(huì)是首選。而MySQL數(shù)據(jù)庫在復(fù)雜SQL、數(shù)據(jù)存儲(chǔ)等方面都有著不少的缺點(diǎn)。從成本上說,除了國有幾大行和中移動(dòng)等少數(shù)“土豪”之外,其他企業(yè)在Oracle上所花的成本相對于其他投入來說,并不算高。如果真換成MySQL,每年所花的成本可能會(huì)遠(yuǎn)遠(yuǎn)大于使用Oracle的成本。
那么是不是在數(shù)據(jù)庫層面,傳統(tǒng)企業(yè)已經(jīng)沒有可以改善的余地了?梁天健認(rèn)為答案是否定的:“我們不去O,但是我們可以嘗試減O。何謂‘減O’?就是將假設(shè)現(xiàn)在的200個(gè)獨(dú)立的Oracle數(shù)據(jù)庫整合到20個(gè)更大型的Oracle數(shù)據(jù)庫中去?!边@樣做的好處是顯而易見的:
1.減少硬件開銷,合理利用硬件資源池。很多獨(dú)立的Oracle數(shù)據(jù)庫系統(tǒng)只使用了5%的CPU,只用了20%的內(nèi)存,只用了幾十GB甚至幾個(gè)GB的存儲(chǔ),但是它用不到的硬件資源也無法簡單地分享給其它系統(tǒng)使用。整合在一起,正可以高效利用所有硬件資源。
2.減少管理困難度。管理數(shù)百個(gè)獨(dú)立的Oracle數(shù)據(jù)庫在復(fù)雜度上超過管理幾十個(gè)數(shù)據(jù)庫。
當(dāng)然,“減O”同樣具有風(fēng)險(xiǎn),實(shí)施需謹(jǐn)慎。梁天健認(rèn)為,以前一個(gè)系統(tǒng)出現(xiàn)故障,也就是影響這一個(gè)系統(tǒng),但是整合在一起,一個(gè)系統(tǒng)的數(shù)據(jù)庫占用了100%的I/O,會(huì)導(dǎo)致其它的系統(tǒng)也同樣受到干擾。這需要專業(yè)的資源控制來盡量降低風(fēng)險(xiǎn)。此外,多個(gè)數(shù)據(jù)庫整合在一起,新的硬件到底該具備怎樣的計(jì)算能力、存儲(chǔ)能力?性能容量規(guī)劃具體該如何計(jì)算?這需要更加專業(yè)的規(guī)劃設(shè)計(jì)才能做到。對于這樣的方案,梁天健稱四川電信還會(huì)繼續(xù)大力發(fā)展跟第三方專業(yè)服務(wù)商的合作,以期在不遠(yuǎn)的將來可以開始逐步實(shí)現(xiàn)“減O”工程。
“總而言之,到底要不要去IOE,是由企業(yè)IT平臺(tái)架構(gòu)和業(yè)務(wù)發(fā)展需要決定,而不是一場運(yùn)動(dòng),企業(yè)切忌盲目跟風(fēng)。”梁天健說。
(文章來自TechTarget中國的報(bào)道,具體可點(diǎn)擊閱讀原文)
去I升級(jí)遷移技術(shù)請咨詢云和恩墨:
服務(wù)熱線010-59003186
發(fā)郵件至marketing@enmotech.com
聯(lián)系客服