奔騰III
1999年1月問世的奔騰III處理器是P6家族的第三代產品。奔騰III家族除了主角奔騰III以外,同樣包括至強和賽揚兩大分支。奔騰III歷經了三代核心演變,每一代的改進都很大,性能提升也很明顯。最早的奔騰III核心代號為Katmai,其實就是100MHz外頻的奔騰II+SSE指令集,后期則推出了133MHz的兩款型號,隨即讓位給Coppermine奔騰III。Coppermine核心是對P6架構的一次發(fā)揚光大,它的改進不僅僅在于采用了0.18微米工藝,而是在核心上大刀闊斧的改進。Coppermine基本核心設計思路和Katmai奔騰III一致,但是大大擴展了數(shù)據(jù)通道,是Katmai的四倍。此外Coppermine奔騰III繼承了奔騰Pro/賽揚的優(yōu)良傳統(tǒng),將二級緩存集成在處理器核心,以和處理器工作主頻相當?shù)乃俣冗\行,再加上二級緩存數(shù)據(jù)通道的拓寬(從Katmai的64位拓寬到了256位),緩存延遲時間的縮短,因此同主頻下Coppermine的性能明顯好于Katmai。除了L2 Cache外,英特爾還在Coppermine中增加了填充緩存、總線隊列入口和寫回式緩沖區(qū),可以避免寫入較慢的內存或讀入多重內存區(qū)域數(shù)據(jù)時,主存儲瓶頸給CPU造成的延遲,在133MHz總線上預讀取帶寬擴充到680~1000MB/s后,將會有效地解決此類問題。
奔騰III的最后一個核心是Tualatin。Tualatin采用0.13微米工藝制造,是P6家族值得讓人懷念的經典產品。Tualatin對Coppermine的改進不算太大,最大亮點就是Tualatin采用了四倍Quadword Wide緩存數(shù)據(jù)總線,而Coppermine是兩倍Quadword Wide緩存數(shù)據(jù)總線。緩存數(shù)據(jù)總線越寬,緩存?zhèn)鬏斅屎妥x寫效率就越高,對處理器的性能提升有很大幫助。Tualatin的桌面版本具有256KB二級緩存,服務器版本和移動版本則具有512KB二級緩存。移動版本的Tualatin就是奔騰III-M,它是迅馳移動計算技術問世以前,奔騰4時代輕薄筆記本電腦中的王者,是奔騰M處理器的雛形。奔騰III-M可支持增強的英特爾SpeedStep技術,這種技術能夠根據(jù)處理器上的應用需求自動切換最佳性能模式和電池優(yōu)化模式,從而在性能和功耗之間達到最佳平衡。此外,這種處理器采用了英特爾公司新研制的封裝技術,使PC機制造商得以生產出更輕更薄的筆記本產品。全新的更深度睡眠模式(Deeper Sleep)能夠比原來的低能量睡眠模式進一步降低能耗,延長電池使用時間——即使在運行應用程序的時候,也可以達到僅0.2W或者更少的耗電量。采用奔騰III-M處理器的筆記本至今仍活躍在二手市場,足以輕松應對目前的主流計算需求。
在2003年初問世的迅馳移動計算技術平臺中,最引人注目的就是代號為Banias的奔騰M處理器。與以往英特爾的高調宣傳做法不同,英特爾對奔騰M的技術架構不愿多談,只是強調它是迅馳移動平臺的組成部分,設計的出發(fā)點就是追求低功耗、低熱量、體積小。但是行家們很快就從英特爾羞答答拿出的奔騰M內部架構資料中看出,奔騰M其實還是P6家族的一員,更確切地說,奔騰M就是以Tualatin奔騰III-M為設計藍本,同時吸取了NetBurst架構奔騰4的一些長處而設計出來的“超級奔騰III-M”。
奔騰M的基本核心架構仍然一如P6架構,那就是由整數(shù)運算單元、浮點運算單元、一級緩存和二級緩存組成。吸取了奔騰III由于流水線運算管線過短而帶來的主頻提升困難的教訓,奔騰M加長了流水線運算管線,從奔騰III的10級增加為12級。這樣做的好處不僅使主頻的提升變得容易了很多,同時又不會明顯降低處理器在單個時鐘周期的指令執(zhí)行效率。
奔騰M處理器支持增強型英特爾SpeedStep技術的改進版本。英特爾公司對SpeedStep技術所做的改進包括多電壓和頻率工作點,它們受到操作系統(tǒng)的動態(tài)控制。由于在這些多頻率工作點之間的過渡中包括一個電壓過渡,因此電能消耗將會得到優(yōu)化,降至最低,達到在該頻率下進行操作所需要的最小能耗。新版本與目前的增強型英特爾SpeedStep技術的區(qū)別在于多工作頻率和電壓點。目前的版本只有兩個不同的電壓和頻率組合。多中間組合的優(yōu)勢在于其極為優(yōu)異的性能和能耗比。
高級指令預測是一項嶄新的應用技術。奔騰M使用多個多分支預測器,能夠降低系統(tǒng)的整體執(zhí)行時間,利用更低功率實現(xiàn)更優(yōu)異的性能。
奔騰M身上所采用的IMVP4是一種電壓定位技術。它與早期版本有所不同,能夠實現(xiàn)更精細的間隔尺寸,支持改進了的增強型英特爾SpeedStep技術的中間工作點。而且它完全由中央處理器支持,不需要芯片組支持。IMVP4已為支持改進增強型SpeedStep技術進行了優(yōu)化。它的電壓過渡分辨率更高,使奔騰M處理器睡眠或更深睡眠時電壓更低。它還實現(xiàn)改進的增強型英特爾SpeedStep技術的中間工作點之間的過渡。
Banias奔騰M的二級緩存容量從Tualatin奔騰III-M的512KB提升為1MB。奔騰M緩存的設計包括更低的靜止消耗能量,它降低了處理器整體能耗。另外在奔騰M處理器里加入了PSI(功率狀態(tài)指示器),它是奔騰M處理器上的一個管腳,在芯片組與奔騰M處理器核心之間起到溝通作用,自動地向中央處理器電壓調節(jié)控制器發(fā)出信號,從而改變電壓調節(jié)狀態(tài)。
Banias奔騰M的晶體管數(shù)量為7700萬個。作為多媒體擴展功能,與奔騰4一樣支持單一指令多數(shù)據(jù)流擴展指令集SSE2。Banias奔騰M處理器采用與奔騰4-M相同的400MHz前端系統(tǒng)總線設計思路,數(shù)據(jù)傳輸帶寬為3.2GB/s。
Dothan核心的奔騰M是對Banias奔騰M的改進和升級。Dothan奔騰M的核心技術架構類同于Banias奔騰M,但由于集成了更大容量的二級緩存,因此核心集成的晶體管數(shù)量差不多是Banias奔騰M的2倍,達到了1.4億。改進之處在于:Dothan奔騰M采用90納米工藝制造,并且首次采用應變硅;Dothan奔騰M的二級緩存容量增加到2MB;Dothan奔騰M的外頻為100MHz/133MHz,對應的前端系統(tǒng)總線頻率分別為400MHz/533MHz;Dothan奔騰M改進了寄存器訪問管理器以及數(shù)據(jù)預測功能。我們都知道,IA-32架構遺留下來的問題是大多數(shù)32位處理器的寄存器都可以分成4個8位寄存器或者2個16位寄存器,而增強型寄存器訪問管理器的作用就是在這些模式轉換時提供更低的消耗。而增強型數(shù)據(jù)預測功能則在數(shù)據(jù)讀取到二級緩存過程中提供更好的命中率,如果處理器可以較少的重復從內存中讀取數(shù)據(jù)到緩存,則同樣可以降低處理器功耗。
正傳:酷睿微處理器的今生
在今年3月初問世的酷睿處理器,是英特爾處理器發(fā)展史上的一次轉折。英特爾并沒有使用延續(xù)了14年之久的奔騰來命名這款被英特爾寄予厚望的產品,而是重新為它起了一個響亮的名字:酷睿。但若是有人認為酷睿是一個全新微架構的話,那就大錯特錯了。盡管英特爾給酷睿所采用的技術架構命名為“Core微架構”,但是酷睿處理器依然是P6家族的一員,和其先祖奔騰Pro有著一樣的血脈傳承關系??犷5陌l(fā)布意味著古老的P6架構重獲新生,奔騰4所采用的NetBurst微架構將全面隱退,此前依靠奔騰III-M和奔騰M的存在,僅在移動計算領域保有一席之地的P6微架構全面復興。這是因為酷睿處理器的市場地位就是占據(jù)從高端服務器到主流桌面/移動應用領域的全部空間。盡管第一代酷睿僅僅出現(xiàn)在移動計算領域,但它的問世只是為酷睿2的發(fā)布進行的預熱而已。
酷睿和酷睿2的技術架構基本一致。二者擁有相同的解碼流程,相同的簡單解碼單元與復雜解碼單元相配合的設計;同樣都采用亂序執(zhí)行的流程,仍然沿用一級指令緩存與一級數(shù)據(jù)緩存分離的設計,沿用共享式二級緩存的設計,拋開解碼單元與執(zhí)行單元的數(shù)量、內部總線的寬度以及各個緩沖區(qū)的容量這些數(shù)值上的差異,二者在架構上的設計幾乎是完全一樣,酷睿2只是對酷睿進行了局部的改進而已,所以接下來會將二者一起介紹。
除了完全承襲了奔騰M的微指令融合技術以外,酷睿還具備超強的四組指令編譯器,這也正是酷睿的最大特色。采用四組指令編譯器,酷??稍趩我活l率周期內編譯四個x86指令。四組指令編譯器的設計思路還是承襲P6架構的傳統(tǒng),由三組簡單編譯器(Simple Decoder)與一組復雜編譯器(Complex Decoder)組成。
酷睿處理器的另一個技術亮點就是數(shù)據(jù)預讀取技術。這也是早在Tualatin奔騰III身上就出現(xiàn)的新型技術,可以有效彌補缺乏內存控制器、導致內存存取延遲較長的缺憾。數(shù)據(jù)預讀取技術可在處理器將數(shù)據(jù)回存內存的同時,預測后繼的加載指令是否采用相同的內存地址。如果不是,就可立即執(zhí)行加載動作,無須等待該回存指令,這可大幅改善亂序執(zhí)行(Out-Of-Order Execution)核心的效率,并縮短存取內存的延遲。
而增強的“預先加載機制”則可滿足第二項要求。Core微架構每個核心分別內建一組指令及二組數(shù)據(jù)預先抓取器,而共享的二級緩存內建兩組、可動態(tài)分配至不同核心的數(shù)據(jù)預先抓取器,可根據(jù)應用程序數(shù)據(jù)的行為,進行指令與數(shù)據(jù)的預先抓取動作,讓所需要的內存地址數(shù)據(jù),盡量存放在緩存中,減少讀取內存的次數(shù)。
酷睿的電源管理機制基本上改良自圖拉丁奔騰III-M與奔騰M的設計,即處理器內各功能單元并非隨時保持啟動狀態(tài),而是根據(jù)預測機制,僅啟動需要的功能單元。不過在酷睿上新采用的分離式總線(Split Buses)、數(shù)字熱感應器(Digital Thermal Sensor)以及平臺環(huán)境控制接口(Platform Environment Control Interface)等技術的實際效果,要比以往模糊的省電效果實在得多。
溫控方面,英特爾在酷睿處理器中最容易發(fā)熱的位置放置了數(shù)字熱量傳感器(Digital Thermal Sensor),通過專門的控制電路,監(jiān)控處理器的發(fā)熱量以及運作模式,然后動態(tài)調整系統(tǒng)電壓、系統(tǒng)風扇轉速。
酷睿處理器是首個采用共享式二級緩存設計的雙核處理器,酷睿2繼承了這個極富創(chuàng)新性的設計,2個核心共享4MB或2MB的256位二級緩存??犷群瞬捎?4級流水線運算管線設計方式,略長于奔騰M的12級??犷L幚砥鞯拿總€核心都內建32KB/256位一級指令緩存與32KB 256位一級數(shù)據(jù)緩存,而且2個核心的一級數(shù)據(jù)緩存之間可以直接傳輸數(shù)據(jù)。每個核心內建的4組指令解碼單元支持微指令融合與宏指令融合技術,每個時鐘周期最多可以解碼5條X86指令,并擁有改進的分支預測功能??犷5拿總€核心內建5個執(zhí)行單元,執(zhí)行資源龐大。
英特爾初期發(fā)布的移動版酷睿2處理器即Merom,其前端總線均為667MHz,這是為了遷就Napa平臺而做出的權宜之計。今后出現(xiàn)的Santa Rosa平臺上的移動版酷睿處理器,前端總線會提升至800MHz。Merom的二級緩存則加大為4MB(低端的T5000系列仍為2MB),意味著緩存中可以寄存更多等待處理數(shù)據(jù),減少處理器與內存以及外圍設備間數(shù)據(jù)傳輸?shù)钠款i,提高指令的命中率,大大提高執(zhí)行效能。
總體來看,酷睿處理器擁有雙核心、64bit指令集、四組指令編譯器結構和亂序執(zhí)行機制等技術,使用65nm制造工藝生產,由于加入EM64T指令集的支持所以能夠支持36bit的物理尋址和48bit的虛擬內存尋址,支持包括SSE4在內英特爾所有擴展指令集。Core微架構的每個內核擁有32KB的一級指令緩存、32KB的雙端口一級數(shù)據(jù)緩存,2個內核共同擁有4MB或2MB的共享式二級緩存。
酷睿既然是基于P6架構,因此也有P6架構的缺點,比如說工作主頻無法像奔騰4那樣狂飆。P6家族處理器的工作主頻提升,很大程度都是依賴制造工藝的改進,而不是加長運算管線。在45nm工藝采用之前,酷睿的核心頻率很難超過3GHz。
總之,酷睿的發(fā)布,P6微架構的回歸對業(yè)界影響深遠,因為它代表著這樣一種思路:即在降低能耗的前提下,追求最大化的性能,而并非過去的“唯主頻論”。
自從酷睿2處理器問世以后,英特爾的微處理器市場藍圖經歷了一次翻天覆地的變化。和酷睿處理器專注于移動計算領域不同的是,酷睿2是全方位出擊,產品線擴大到服務器和桌面計算領域。在這些領域占據(jù)主流位置的NetBurst架構微處理器將停產并逐步退出,最終讓位給酷睿2處理器。
不過就目前而言,筆記本平臺的奔騰M和酷睿的存在都為酷睿2的普及造成了一定的影響。同樣基于P6微架構,奔騰M的性能雖然無法和酷睿2抗衡,但基于這一平臺的筆記本產品價格已經跌到了低谷,加之筆記本從來都不是以性能為最大賣點的產品,所以還是有很多用戶會考慮基于奔騰M的筆記本;而且目前的酷睿2處理器都是過渡產品,如前所述,它是為了遷就現(xiàn)有的平臺,前端總線只能設計到667MHz,相比酷睿并不占優(yōu)勢,在性能上也未能比酷睿有明顯提升,加之英特爾對舊產品的降價策略,可以想象酷睿/酷睿2還將并存一段時間,直到采用800MHz前端總線的酷睿2問世為止。相比AMD,英特爾在移動計算平臺本來就具有壓倒性的優(yōu)勢,這一優(yōu)勢自從迅馳移動計算技術問世以來就一直沒有變過,現(xiàn)在再加上對奔騰M有了歷史性突破的酷睿平臺,AMD的處境更加艱難。即使AMD有更好更強的產品發(fā)布,也無力在短期內扭轉在移動計算平臺的不利地位。
從大趨勢來看,酷睿2的技術特性在一定程度上代表了未來筆記本的主流發(fā)展方向,這一點是毋庸置疑的。
酷睿和酷睿2處理器一脈相承,有著密切的血緣關系。但是二者之間也有一些區(qū)別,列舉如下:
▲第一,酷睿2的流水線運算管線是14級,酷睿的流水線運算管線是13級。增加流水線運算管線的長度對提升處理器工作頻率有一定作用;
▲第二,二級緩存的訪問入口,酷睿2已經從酷睿的8路提升到16路;
▲第三,在解碼器方面,酷睿2比酷睿增加一個Simple解碼器,使得解碼效率進一步提高;
▲第四,指令集方面,酷睿2添加了SSE4指令集以增加執(zhí)行效率;
▲第五,執(zhí)行單元方面,酷睿2比酷睿多出一個FPU和一個IEU(ALU),在一個時鐘周期;
▲第六,酷睿2可以向執(zhí)行單元傳輸3個微指令集,而酷睿只能傳輸2個;
▲第七,酷睿2的傳輸通道從酷睿的64位升至128位,執(zhí)行一個SSE3指令只需要一個時鐘周期。