本文希望以比較通俗的語言深入介紹一下CPU的原理。
一、 指令系統(tǒng)
要講CPU,就必須先講一下指令系統(tǒng)。指令系統(tǒng)指的是一個CPU所能夠處理的全部指令的集合,是一個CPU的根本屬性。比如我們現(xiàn)在所用的CPU都是采用x86指令集的,他們都是同一類型的CPU,不管是PIII、Athlon或Joshua。我們也知道,世界上還有比PIII和Athlon快得多的CPU,比如Alpha,但它們不是用x86指令集,不能使用數(shù)量龐大的基于x86指令集的程序,如Windows98。之所以說指令系統(tǒng)是一個CPU的根本屬性,是因為指令系統(tǒng)決定了一個CPU能夠運行什么樣的程序。
所有采用高級語言編出的程序,都需要翻譯(編譯或解釋)成為機器語言后才能運行,這些機器語言中所包含的就是一條條的指令。
1、 指令的格式
一條指令一般包括兩個部分:操作碼和地址碼。操作碼其實就是指令序列號,用來告訴CPU需要執(zhí)行的是那一條指令。地址碼則復(fù)雜一些,主要包括源操作數(shù)地址、目的地址和下一條指令的地址。在某些指令中,地址碼可以部分或全部省略,比如一條空指令就只有操作碼而沒有地址碼。
舉個例子吧,某個指令系統(tǒng)的指令長度為32位,操作碼長度為8位,地址長度也為8位,且第一條指令是加,第二條指令是減。當(dāng)它收到一個“00000010000001000000000100000110”的指令時,先取出它的前8位操作碼,即00000010,分析得出這是一個減法操作,有3個地址,分別是兩個源操作數(shù)地址和一個目的地址。于是,CPU就到內(nèi)存地址00000100處取出被減數(shù),到00000001處取出減數(shù),送到ALU中進行減法運算,然后把結(jié)果送到00000110處。
這只是一個相當(dāng)簡單化的例子,實際情況要復(fù)雜的多。
2、 指令的分類與尋址方式
一般說來,現(xiàn)在的指令系統(tǒng)有以下幾種類型的指令:
(1)算術(shù)邏輯運算指令
算術(shù)邏輯運算指令包括加減乘除等算術(shù)運算指令,以及與或非異或等邏輯運算指令?,F(xiàn)在的指令系統(tǒng)還加入了一些十進制運算指令以及字符串運算指令等。
(2)浮點運算指令
用于對浮點數(shù)進行運算。浮點運算要大大復(fù)雜于整數(shù)運算,所以CPU中一般還會有專門負責(zé)浮點運算的浮點運算單元。現(xiàn)在的浮點指令中一般還加入了向量指令,用于直接對矩陣進行運算,對于現(xiàn)在的多媒體和3D處理很有用。
(3)位操作指令
學(xué)過C的人應(yīng)該都知道C語言中有一組位操作語句,相對應(yīng)的,指令系統(tǒng)中也有一組位操作指令,如左移一位右移一位等。對于計算機內(nèi)部以二進制不碼表示的數(shù)據(jù)來說,這種操作是非常簡單快捷的。
(4)其他指令
上面三種都是運算型指令,除此之外還有許多非運算的其他指令。這些指令包括:數(shù)據(jù)傳送指令、堆棧操作指令、轉(zhuǎn)移類指令、輸入輸出指令和一些比較特殊的指令,如特權(quán)指令、多處理器控制指令和等待、停機、空操作等指令。
對于指令中的地址碼,也會有許多不同的尋址(編址)方式,主要有直接尋址,間接尋址,寄存器尋址,基址尋址,變址尋址等,某些復(fù)雜的指令系統(tǒng)會有幾十種甚至更多的尋址方式。
3、 CISC與RISC
CISC,Complex Instruction Set Computer,復(fù)雜指令系統(tǒng)計算機。RISC,Reduced Instruction Set Computer,精簡指令系統(tǒng)計算機。雖然這兩個名詞是針對計算機的,但下文我們?nèi)匀恢粚χ噶罴M行研究。
(1)CISC的產(chǎn)生、發(fā)展和現(xiàn)狀
一開始,計算機的指令系統(tǒng)只有很少一些基本指令,而其他的復(fù)雜指令全靠軟件編譯時通過簡單指令的組合來實現(xiàn)。舉個最簡單的例子,一個a乘以b的操作就可以轉(zhuǎn)換為a個b相加來做,這樣就用不著乘法指令了。當(dāng)然,最早的指令系統(tǒng)就已經(jīng)有乘法指令了,這是為什么呢?因為用硬件實現(xiàn)乘法比加法組合來得快得多。
由于那時的計算機部件相當(dāng)昂貴,而且速度很慢,為了提高速度,越來越多的復(fù)雜指令被加入了指令系統(tǒng)中。但是,很快又有一個問題:一個指令系統(tǒng)的指令數(shù)是受指令操作碼的位數(shù)所限制的,如果操作碼為8位,那么指令數(shù)最多為256條(2的8次方)。
那么怎么辦呢?指令的寬度是很難增加的,聰明的設(shè)計師們又想出了一種方案:操作碼擴展。前面說過,操作碼的后面跟的是地址碼,而有些指令是用不著地址碼或只用少量的地址碼的。那么,就可以把操作碼擴展到這些位置。
舉個簡單的例子,如果一個指令系統(tǒng)的操作碼為2位,那么可以有00、01、10、11四條不同的指令?,F(xiàn)在把11作為保留,把操作碼擴展到4位,那么就可以有00、01、10、1100、1101、1110、1111七條指令。其中1100、1101、1110、1111這四條指令的地址碼必須少兩位。
然后,為了達到操作碼擴展的先決條件:減少地址碼,設(shè)計師們又動足了腦筋,發(fā)明了各種各樣的尋址方式,如基址尋址、相對尋址等,用以最大限度的壓縮地址碼長度,為操作碼留出空間。
就這樣,慢慢地,CISC指令系統(tǒng)就形成了,大量的復(fù)雜指令、可變的指令長度、多種的尋址方式是CISC的特點,也是CISC的缺點:因為這些都大大增加了解碼的難度,而在現(xiàn)在的高速硬件發(fā)展下,復(fù)雜指令所帶來的速度提升早已不及在解碼上浪費點的時間。除了個人PC市場還在用x86指令集外,服務(wù)器以及更大的系統(tǒng)都早已不用CISC了。x86仍然存在的唯一理由就是為了兼容大量的x86平臺上的軟件。
(2)RISC的產(chǎn)生、發(fā)展和現(xiàn)狀
1975年,IBM的設(shè)計師John Cocke研究了當(dāng)時的IBM370CISC系統(tǒng),發(fā)現(xiàn)其中占總指令數(shù)僅20%的簡單指令卻在程序調(diào)用中占了80%,而占指令數(shù)80%的復(fù)雜指令卻只有20%的機會用到。由此,他提出了RISC的概念。事實證明,RISC是成功的。80年代末,各公司的RISC CPU如雨后春筍般大量出現(xiàn),占據(jù)了大量的市場。到了90年代,x86的CPU如pentium和k5也開始使用先進的RISC核心。
RISC的最大特點是指令長度固定,指令格式種類少,尋址方式種類少,大多數(shù)是簡單指令且都能在一個時鐘周期內(nèi)完成,易于設(shè)計超標量與流水線,寄存器數(shù)量多,大量操作在寄存器之間進行。由于下文所講的CPU核心大部分是講RISC核心,所以這里就不多介紹了,對于RISC核心的設(shè)計下面會詳細談到。
RISC目前正如日中天,Intel的Itanium也將最終拋棄x86而轉(zhuǎn)向RISC結(jié)構(gòu)。
二、CPU內(nèi)核結(jié)構(gòu)
好吧,下面來看看CPU。CPU內(nèi)核主要分為兩部分:運算器和控制器。
(一) 運算器
1、 算術(shù)邏輯運算單元ALU(Arithmetic and Logic Unit)
ALU主要完成對二進制數(shù)據(jù)的定點算術(shù)運算(加減乘除)、邏輯運算(與或非異或)以及移位操作。在某些CPU中還有專門用于處理移位操作的移位器。
通常ALU由兩個輸入端和一個輸出端。整數(shù)單元有時也稱為IEU(Integer Execution Unit)。我們通常所說的“CPU是XX位的”就是指ALU所能處理的數(shù)據(jù)的位數(shù)。
2、 浮點運算單元FPU(Floating Point Unit)
FPU主要負責(zé)浮點運算和高精度整數(shù)運算。有些FPU還具有向量運算的功能,另外一些則有專門的向量處理單元。
3、通用寄存器組
通用寄存器組是一組最快的存儲器,用來保存參加運算的操作數(shù)和中間結(jié)果。在通用寄存器的設(shè)計上,RISC與CISC有著很大的不同。CISC的寄存器通常很少,主要是受了當(dāng)時硬件成本所限。比如x86指令集只有8個通用寄存器。所以,CISC的CPU執(zhí)行是大多數(shù)時間是在訪問存儲器中的數(shù)據(jù),而不是寄存器中的。這就拖慢了整個系統(tǒng)的速度。而RISC系統(tǒng)往往具有非常多的通用寄存器,并采用了重疊寄存器窗口和寄存器堆等技術(shù)使寄存器資源得到充分的利用。
對于x86指令集只支持8個通用寄存器的缺點,Intel和AMD的最新CPU都采用了一種叫做“寄存器重命名”的技術(shù),這種技術(shù)使x86CPU的寄存器可以突破8個的限制,達到32個甚至更多。不過,相對于RISC來說,這種技術(shù)的寄存器操作要多出一個時鐘周期,用來對寄存器進行重命名。
4、 專用寄存器
專用寄存器通常是一些狀態(tài)寄存器,不能通過程序改變,由CPU自己控制,表明某種狀態(tài)。
(二) 控制器
運算器只能完成運算,而控制器用于控制著整個CPU的工作。
1、 指令控制器
指令控制器是控制器中相當(dāng)重要的部分,它要完成取指令、分析指令等操作,然后交給執(zhí)行單元(ALU或FPU)來執(zhí)行,同時還要形成下一條指令的地址。
2、 時序控制器
時序控制器的作用是為每條指令按時間順序提供控制信號。時序控制器包括時鐘發(fā)生器和倍頻定義單元,其中時鐘發(fā)生器由石英晶體振蕩器發(fā)出非常穩(wěn)定的脈沖信號,就是CPU的主頻;而倍頻定義單元則定義了CPU主頻是存儲器頻率(總線頻率)的幾倍。
3、 總線控制器
總線控制器主要用于控制CPU的內(nèi)外部總線,包括地址總線、數(shù)據(jù)總線、控制總線等等。
4、中斷控制器
中斷控制器用于控制各種各樣的中斷請求,并根據(jù)優(yōu)先級的高低對中斷請求進行排隊,逐個交給CPU處理。
(三) CPU核心的設(shè)計
CPU的性能是由什么決定的呢?單純的一個ALU速度在一個CPU中并不起決定性作用,因為ALU的速度都差不多。而一個CPU的性能表現(xiàn)的決定性因素就在于CPU內(nèi)核的設(shè)計。
1、超標量(Superscalar)
既然無法大幅提高ALU的速度,有什么替代的方法呢?并行處理的方法又一次產(chǎn)生了強大的作用。所謂的超標量CPU,就是只集成了多個ALU、多個FPU、多個譯碼器和多條流水線的CPU,以并行處理的方式來提高性能。
超標量技術(shù)應(yīng)該是很容易理解的,不過有一點需要注意,就是不要去管“超標量”之前的那個數(shù)字,比如“9路超標量”,不同的廠商對于這個數(shù)字有著不同的定義,更多的這只是一種商業(yè)上的宣傳手段。
2、流水線(Pipeline)
流水線是現(xiàn)代RISC核心的一個重要設(shè)計,它極大地提高了性能。
對于一條具體的指令執(zhí)行過程,通??梢苑譃槲鍌€部分:取指令,指令譯碼,取操作數(shù),運算(ALU),寫結(jié)果。其中前三步一般由指令控制器完成,后兩步則由運算器完成。按照傳統(tǒng)的方式,所有指令順序執(zhí)行,那么先是指令控制器工作,完成第一條指令的前三步,然后運算器工作,完成后兩步,在指令控制器工作,完成第二條指令的前三步,在是運算器,完成第二條指令的后兩部……很明顯,當(dāng)指令控制器工作是運算器基本上在休息,而當(dāng)運算器在工作時指令控制器卻在休息,造成了相當(dāng)大的資源浪費。解決方法很容易想到,當(dāng)指令控制器完成了第一條指令的前三步后,直接開始第二條指令的操作,運算單元也是。這樣就形成了流水線系統(tǒng),這是一條2級流水線。
如果是一個超標量系統(tǒng),假設(shè)有三個指令控制單元和兩個運算單元,那么就可以在完成了第一條指令的取址工作后直接開始第二條指令的取址,這時第一條指令在進行譯碼,然后第三條指令取址,第二條指令譯碼,第一條指令取操作數(shù)……這樣就是一個5級流水線。很顯然,5級流水線的平均理論速度是不用流水線的4倍。
流水線系統(tǒng)最大限度地利用了CPU資源,使每個部件在每個時鐘周期都工作,大大提高了效率。但是,流水線有兩個非常大的問題:相關(guān)和轉(zhuǎn)移。
在一個流水線系統(tǒng)中,如果第二條指令需要用到第一條指令的結(jié)果,這種情況叫做相關(guān)。以上面哪個5級流水線為例,當(dāng)?shù)诙l指令需要取操作數(shù)時,第一條指令的運算還沒有完成,如果這時第二條指令就去取操作數(shù),就會得到錯誤的結(jié)果。所以,這時整條流水線不得不停頓下來,等待第一條指令的完成。這是很討厭的問題,特別是對于比較長的流水線,比如20級,這種停頓通常要損失十幾個時鐘周期。目前解決這個問題的方法是亂序執(zhí)行。亂序執(zhí)行的原理是在兩條相關(guān)指令中插入不相關(guān)的指令,使整條流水線順暢。比如上面的例子中,開始執(zhí)行第一條指令后直接開始執(zhí)行第三條指令(假設(shè)第三條指令不相關(guān)),然后才開始執(zhí)行第二條指令,這樣當(dāng)?shù)诙l指令需要取操作數(shù)時第一條指令剛好完成,而且第三條指令也快要完成了,整條流水線不會停頓。當(dāng)然,流水線的阻塞現(xiàn)象還是不能完全避免的,尤其是當(dāng)相關(guān)指令非常多的時候。
另一個大問題是條件轉(zhuǎn)移。在上面的例子中,如果第一條指令是一個條件轉(zhuǎn)移指令,那么系統(tǒng)就會不清楚下面應(yīng)該執(zhí)行那一條指令?這時就必須等第一條指令的判斷結(jié)果出來才能執(zhí)行第二條指令。條件轉(zhuǎn)移所造成的流水線停頓甚至比相關(guān)還要嚴重的多。所以,現(xiàn)在采用分支預(yù)測技術(shù)來處理轉(zhuǎn)移問題。雖然我們的程序中充滿著分支,而且哪一條分支都是有可能的,但大多數(shù)情況下總是選擇某一分支。比如一個循環(huán)的末尾是一個分支,除了最后一次我們需要跳出循環(huán)外,其他的時候我們總是選擇繼續(xù)循環(huán)這條分支。根據(jù)這些原理,分支預(yù)測技術(shù)可以在沒有得到結(jié)果之前預(yù)測下一條指令是什么,并執(zhí)行它?,F(xiàn)在的分支預(yù)測技術(shù)能夠達到90%以上的正確率,但是,一旦預(yù)測錯誤,CPU仍然不得不清理整條流水線并回到分支點。這將損失大量的時鐘周期。所以,進一步提高分支預(yù)測的準確率也是正在研究的一個課題。
越是長的流水線,相關(guān)和轉(zhuǎn)移兩大問題也越嚴重,所以,流水線并不是越長越好,超標量也不是越多越好,找到一個速度與效率的平衡點才是最重要的。
三、CPU的外核
1、解碼器(Decode Unit)
這是x86CPU才有的東西,它的作用是把長度不定的x86指令轉(zhuǎn)換為長度固定的類似于RISC的指令,并交給RISC內(nèi)核。解碼分為硬件解碼和微解碼,對于簡單的x86指令只要硬件解碼即可,速度較快,而遇到復(fù)雜的x86指令則需要進行微解碼,并把它分成若干條簡單指令,速度較慢且很復(fù)雜。好在這些復(fù)雜指令很少會用到。
Athlon也好,PIII也好,老式的CISC的x86指令集嚴重制約了他們的性能表現(xiàn)。
2、一級緩存和二級緩存(Cache)
以及緩存和二級緩存是為了緩解較快的CPU與較慢的存儲器之間的矛盾而產(chǎn)生的,以及緩存通常集成在CPU內(nèi)核,而二級緩存則是以O(shè)nDie或OnBoard的方式以較快于存儲器的速度運行。對于一些大數(shù)據(jù)交換量的工作,CPU的Cache顯得尤為重要。
好了,看到了吧,CPU其實也就這樣,并不是很神秘。這篇文章的所有內(nèi)容都不針對某一種CPU,而是適合于任何CPU,是一些最基本的CPU原理,希望能夠?qū)δ阌兴鶐椭?