一點(diǎn)參考,已貼過(guò)的: 以Sun 1.2GHz UltraSPARC IV為例: 1.2GB USIV, 雙內(nèi)核雙線程 其中每?jī)?nèi)核: 2個(gè)浮點(diǎn)處理器, 理論上 1.2Ghz * 2 == 2.4Mflop/s 即2.4百萬(wàn)次浮點(diǎn)運(yùn)算 實(shí)際可測(cè)試: for (i=0; i< 1000000; i++) a + = 2 * b; 全UltraSPARC IV浮點(diǎn)運(yùn)算次數(shù): 2內(nèi)核(2線程)* 2浮點(diǎn)運(yùn)算單元 * 1000000 == 4000000 如運(yùn)算時(shí)間需1秒結(jié)束, 則實(shí)際性能: 1.0E-06*(4000000)/1= 4Mflop/s 即一個(gè)UltraSPARC IV大概4M百萬(wàn)次浮點(diǎn)運(yùn)算每秒,大概對(duì)科學(xué)計(jì)算應(yīng)用有參考, 其它應(yīng)用,應(yīng)考慮更多一些: Sun服務(wù)器,從小到大: 1. CPU數(shù)量:1-72 1.2GB USIV, 雙內(nèi)核雙線程 其中每?jī)?nèi)核: L1,L2,和內(nèi)存控制器均在CPU上, L1 Cache,需<1ns時(shí)間訪問(wèn): 4路,64KB 數(shù)據(jù)cache, 4路,32KB 指令cache, 4路, 2KB 預(yù)取cache, 4路, 2KB 寫cache, L2 Cache,需10-20ns時(shí)間訪問(wèn): 8MB cache 內(nèi)核間cache獨(dú)立,歸各內(nèi)核自用,不共享 2. 內(nèi)存:2GB-576GB,修改內(nèi)存及內(nèi)存數(shù)據(jù)同步時(shí)間180-440ns, 建議每CPU至少配2GB內(nèi)存,每CPU實(shí)際可對(duì)應(yīng)32GB內(nèi)存 理論系統(tǒng)帶寬:2.4GB/s/CPU, 實(shí)測(cè)系統(tǒng)帶寬: 1.9GB/s/CPU, 全系統(tǒng)持續(xù)帶寬:9.6GB/s, 2-24CPU, 43GB/s, 72CPU 3.I/O,硬盤訪問(wèn)時(shí)間5-70ms, 網(wǎng)絡(luò)最大100ms延遲。 每I/O板理論帶寬2.4GB/s, 實(shí)測(cè)帶寬840MB/s 每I/O板2個(gè)I/O控制器 每I/O每I/O控制器理論帶寬1.2GB/s,實(shí)測(cè)帶寬420MB/s 其中. 硬盤:9GB-300GB/個(gè) I/O性能: 9 GB 7200轉(zhuǎn)/分,141次I/Os每秒 18 GB 10000轉(zhuǎn)/分,141次I/Os每秒 36 GB 15000轉(zhuǎn)/分,178次I/Os每秒, 12-20MB/s 73 GB 10000轉(zhuǎn)/分,122次I/Os每秒 146GB 10000轉(zhuǎn)/分,130次I/Os每秒 180GB 10000轉(zhuǎn)/分, 86次I/Os每秒 1個(gè)66MHz PCI總線, 插FC光纖硬盤,1個(gè)100MB/s FCAL光纖環(huán)提供I/O實(shí)測(cè)帶寬94MB/s 1個(gè)66MHz PCI總線, 插FC光纖硬盤,2個(gè)100MB/s FCAL光纖環(huán)提供I/O實(shí)測(cè)帶寬186MB/s Internet網(wǎng)絡(luò)客戶: 每個(gè)56Kbps Modem, 需網(wǎng)絡(luò)帶寬0.0056MB/s 4.應(yīng)用 數(shù)據(jù)庫(kù)層: 聯(lián)機(jī)事務(wù)處理常用2KB I/O,文件服務(wù)常用8KB I/O, 決策支持常用64KB I/O,典型每事務(wù)處理2-200行SQL,1 SQL操作對(duì)應(yīng)3-9 I/Os操作,平均每次交易對(duì)應(yīng)70KB/s, (如300萬(wàn)次IBM TPCC世界記錄:70KB/s/交易 * 3000000交易/60秒 = 2.1GB/s I/O,大概用了64個(gè)Power5 CPU, 6000多硬盤), 1CPU 對(duì)應(yīng)60GB/s I/O,2MB內(nèi)存對(duì)應(yīng)1數(shù)據(jù)庫(kù)用戶,額外需相當(dāng)于5-15%總數(shù)據(jù)庫(kù)的內(nèi)存為數(shù)據(jù)庫(kù)cache,64MB內(nèi)存對(duì)應(yīng)于OS,例如: Oracle數(shù)據(jù)庫(kù)常規(guī)應(yīng)用,1000并發(fā)用戶,大量并發(fā)小規(guī)模隨即數(shù)據(jù)讀寫,采用2KB I/O,約需: 每8CPU對(duì)應(yīng)10000用戶, I/O帶寬: 2KB/s * 1000并發(fā)用戶 * 5I/Os/每次交易 = 10MB/s 需硬盤數(shù): 5I/Os/每次交易 * 1000并發(fā)用戶 / 100 I/Os/硬盤 = 50硬盤 一個(gè)硬盤不夠,只能用50個(gè)硬盤組成卷, IDE因?yàn)榭偩€所支持硬盤數(shù)少,而不予考慮, SCSI總線最多可支持16個(gè)設(shè)備,單條總線不夠,而必須在PCI總線上多插SCSI卡,帶多SCSI總線, SCSI/FC帶寬40MB/s 到320MB/s, 66MHz PCI帶寬,均夠用, Oracle數(shù)據(jù)庫(kù)決策系統(tǒng),1000并發(fā)用戶,大規(guī)模連續(xù)數(shù)據(jù)讀寫,采用64KB I/O, 約需: 所有CPU可能被一用戶程序所消耗,多配CPU, I/O帶寬:64KB/s * 1000并發(fā)用戶 * 5I/Os/每次交易 = 320MB/s IDE因?yàn)榭偩€帶寬不夠及所支持硬盤數(shù)少,而不予考慮, SCSI總線最多可支持16個(gè)設(shè)備,單條總線不夠,如不用320MB/s硬盤,則而必須在PCI總線上 多插SCSI卡,帶多SCSI總線, FC帶寬無(wú)論1Gb/s或2Gb/s, 均不夠用,必須在PCI總線上多插FC卡,帶多FC環(huán) 無(wú)論P(yáng)CI,或PCI-X, 或PCI-E,帶寬都?jí)蛴茫?br>1個(gè)66MHz PCI總線, 帶寬足夠,但可能PCI槽位由于插多SCSI/FC卡而需另加一PCI總線。 如Sun Fire 25K TPC-H世界記錄, 72CPU, 實(shí)際系統(tǒng)帶寬57GB/s, 運(yùn)行Oracle10g, 5TB數(shù)據(jù),插71 FC卡連188T2B,3000多FC硬盤,用128KB 1/O, 理論I/O帶寬43GB/s 實(shí)測(cè)18GB/s NFS文件服務(wù)應(yīng)用,1MHz CPU對(duì)應(yīng)1 Mbps網(wǎng)絡(luò), 即每千兆網(wǎng)1 CPU,每64NFS用戶對(duì)應(yīng)128MB內(nèi)存, 如為輕I/O應(yīng)用,每硬盤對(duì)應(yīng)2并發(fā)用戶,8-9硬盤每SCSI總線,每百兆網(wǎng)對(duì)應(yīng)40用戶。 中間件層: ?。。。。。。。(如何規(guī)劃,需高手補(bǔ)充) Sun Fire v20z 雙節(jié)點(diǎn)集群SPECjAppServer2002世界記錄, 690.13TOPS@DualNode 2x 2.2 Ghz, AMD Opteron 248雙節(jié)點(diǎn)。 Web層: 在線用戶數(shù)對(duì)應(yīng)1點(diǎn)擊每秒,多數(shù)頁(yè)面點(diǎn)擊文件大小<15KB,1點(diǎn)擊對(duì)應(yīng)2 I/Os操作, 已知世界記錄為2000年美國(guó)總統(tǒng)選舉時(shí) CNN使用Sun Web服務(wù)器創(chuàng)造的3.3百萬(wàn)點(diǎn)擊每分(?), 1CPU對(duì)應(yīng)800動(dòng)態(tài)頁(yè)面點(diǎn)擊/s,1CPU需4GB 內(nèi)存,一個(gè)10000轉(zhuǎn)/分硬盤對(duì)應(yīng)50個(gè)點(diǎn)擊/s,一千兆網(wǎng)對(duì)應(yīng)3500-5000點(diǎn)擊, Sun Fire v20z 2x2.4GHz CPU SPECweb99_SSL世界記錄, 2,500個(gè)連接數(shù)。 IBM p655 4x1.7GHz Power CPU也不錯(cuò),運(yùn)行Zeus Web服務(wù)器,3699個(gè)連接數(shù)。 HP rx8620 16 x 1.5GHz安騰2也不錯(cuò),運(yùn)行Zeus Web服務(wù)器 9060個(gè)連接數(shù)。 Sun Fire v490 4CPU4節(jié)點(diǎn)集群SPECweb99_SSL世界記錄,10700個(gè)連接數(shù)。 而且應(yīng)用所需配置應(yīng)只針對(duì)服務(wù)器70%的工作負(fù)載,即應(yīng)用如需100%的能力,服務(wù)器應(yīng)在當(dāng)年實(shí)際具有 143%的能力。 另外,對(duì)于一個(gè)應(yīng)用程序,無(wú)論P(yáng)C,還是小型機(jī): 因?yàn)镃PU到L1 cache 時(shí)間<1ns, 到L2 cache時(shí)間<20ns, 等內(nèi)存同步需180-440ns,等硬盤讀數(shù)據(jù)5-70ms,等以太網(wǎng)絡(luò)最大100ms延遲, 所以對(duì)一個(gè)數(shù)據(jù)的讀寫操作,其一個(gè)循環(huán)即相差幾十1000倍(ns-ms),編程要珍惜每一個(gè)從網(wǎng)絡(luò)服務(wù)器硬盤讀的數(shù)據(jù),對(duì)于C等,讀入的數(shù)組行應(yīng)盡量在Cache行中用完,如: 將: for (i=0; i<n; i++) a = 2 * b; for (i=0; i<n; i++) c = a + d; a讀入后,又再次讀入使用,性能對(duì)小型機(jī)來(lái)說(shuō)浪費(fèi)幾十1000倍,可能對(duì)PC機(jī)浪費(fèi)少些,應(yīng)改為: for (i=0; i<n; i++) { a = 2 * b; c = a + d; } 系統(tǒng)性能才不會(huì)降低,才不浪費(fèi)CPU,內(nèi)存,I/O... |
聯(lián)系客服