国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項超值服

開通VIP
CPU流水線詳解
CPU流水線詳解
2008年04月05日 星期六 19:36
為什么Intel處理器主頻這么高,而AMD處理器主頻都很低?是不是AMD處理器性能不如Intel?我們一般的回答都是,因為Intel處理器與AMD處理器內(nèi)部構(gòu)架不同,所以導(dǎo)致了這種情況,還有一種具體一點的回答就是因為Intel處理器流水線長,那到底流水線與CPU主頻具體有什么關(guān)系呢?今天給大家?guī)硪黄乙郧翱窃凇峨娔X報》硬件板塊技術(shù)大講堂版面的一篇原創(chuàng)文章。

關(guān)于CPU流水線的知識,很多報紙雜志都介紹過了,但以往的很多文章對某些問題的解釋不夠清楚,比如報紙雜志上曾多次提及增加流水線級數(shù)有利于提高CPU主頻,但對其原因的解釋卻少有觸及,又比如對于流水線的級數(shù)與其周期的關(guān)系是什么?CPU流水線與工廠流水線的區(qū)別和聯(lián)系等問題的解釋也不夠清楚,本文將帶領(lǐng)您找到以上問題的答案。關(guān)于流水線的基本原理本文就不再說明了,對于增加流水線級數(shù)有利于提升CPU主頻這一觀點筆者將通過理論論證和事實舉例兩方面對其進(jìn)行解釋說明。

我們先對流水線的級數(shù)與其周期的關(guān)系給出一個公式,一個k級流水線,處理n個任務(wù)總共需要花費(fèi)“k+(n-1)”個周期,這是因為先是處理第一個任務(wù)就需要k個時鐘周期,k個周期后流水線被裝滿,剩余n-1個任務(wù)只需n-1個周期就能完成。如果同樣數(shù)量的n個任務(wù)不采用流水線處理,那么就需要n*k個周期,我們把兩者做比,得到另一個概念,叫做流水線加速比C,所以C=n*k / [k+(n-1)],當(dāng)n遠(yuǎn)遠(yuǎn)大于k時,C的值趨進(jìn)于k,也就是說,理論上k級流水線幾乎可以提高k倍速度,但這僅限于理論。看到這也許有的讀者可能會感到一頭霧水,不用急,下面就將舉例對其進(jìn)一步說明。


舉例前先對流水線周期選取的問題進(jìn)行一下解析,我們假設(shè)一輛成品車的生產(chǎn)過程分為車輪生產(chǎn),車門生產(chǎn),最后組裝三個步驟,每輛車的車輪生產(chǎn)需要8s,車門需要12s,而最后的組裝需要10s,在本例中生產(chǎn)廠商針對此情況設(shè)計了1條3級流水線,分別是車輪生產(chǎn)流水線,車門生產(chǎn)流水線以及組裝流水線,整條流水線的周期選取為12s,注意,在此為什么設(shè)置整條流水線的周期為三個步驟中最長的12s呢?其實在現(xiàn)實生產(chǎn)中由于工藝水平,原料特性以及制造難度的不同,每級流水線完成任務(wù)的時間都可能是不同的,這里如果選擇8s或10s為整條流水線的周期將會導(dǎo)致車門生產(chǎn)線的任務(wù)不能在單位周期內(nèi)完成,也就無法及時向下一級提交任務(wù),所以在k級流水線中只能選擇完成任務(wù)所需時間最常的那級流水線的時間作為整條流水線的周期。此例雖然選取12s為整條流水線的周期,但這樣又帶來了另一個問題,在每個周期內(nèi)車輪流水線與組裝流水線為了等待車門流水線而造成了一定時間上的閑置,具體到CPU內(nèi)部的流水線也同樣存在這個問題,當(dāng)然我們可以通過合理分配流水線和增加緩存來緩解此問題,但緩存的增加必然導(dǎo)致信號的延遲和高功耗高發(fā)熱量!


好,我們回到上例,廠商打算在此3級流水線上生產(chǎn)6輛汽車,流水線周期為12s(流水線的周期選取可參看上文),模擬流程如圖1,從圖上可以看到,6輛汽車一共花費(fèi)了9-1=8個周期,此結(jié)果也印證了上文n個任務(wù)總共需花費(fèi)“k+(n-1)”個周期的公式,此3級流水線生產(chǎn)6輛汽車一共花費(fèi)的時間是12*8=96s。


一段時間后,廠商決定進(jìn)行技術(shù)改革,又把車輪生產(chǎn)線車門生產(chǎn)線以及組裝生產(chǎn)線進(jìn)一步細(xì)分,把流水線的級數(shù)由3條增至6條,改革后的6級流水線周期也從12s縮短至6s,(由于細(xì)分了各級流水線,所以在此假設(shè)每級流水線周期也由原來的8s,12s,10s減半,所以新流水線的周期選取為12s/2s=6s),新流水線生產(chǎn)6輛汽車所花費(fèi)的周期為12-1=11,所花費(fèi)的整體時間為11*6=66s,相對于上例的96s提升了30s,至此,我們已從理論上和實際上找到了增加流水線級數(shù)確實可以提高工作效率的依據(jù),相信大家已經(jīng)對流水線的知識有了更進(jìn)一步的了解,這里還要對一些問題進(jìn)一步說明。



1流水線級數(shù)與頻率的關(guān)系


結(jié)合上文對周期設(shè)置的解釋和兩個例子的對比大家可以發(fā)現(xiàn),只要進(jìn)一步細(xì)分流水線增加其級數(shù),就可以使整條流水線采用更短的周期工作,我們又知道頻率等于周期的倒數(shù),由此我們得出結(jié)論,增加流水線級數(shù)有利于提高各級流水線之間交換任務(wù)的頻率,也就是有利于提高CPU的主頻。


2增加流水線級數(shù)為什么能提升工作效率


我們對車輛1進(jìn)行跟蹤測試,其在3級流水線上的生產(chǎn)時間為8s+12s+10s=30s,同樣是車輛1在6級流水線上的生產(chǎn)時間為4s+4s+6s+6s+5s+5s=30s,由此我們發(fā)現(xiàn)無論對于幾級流水線,單個產(chǎn)品的生產(chǎn)時間并沒有因流水線級數(shù)而改變,既然這樣那流水線是通過什么方式提升工作效率的?右圖模擬的是不采用流水線時一輛汽車的生產(chǎn)流程,由3個工人分別負(fù)責(zé)完成3個任務(wù),從圖上可以明確看到在每段時間內(nèi)只有一個工人在工作,其余兩個處于閑置狀態(tài),對比上例的兩個圖示我們發(fā)現(xiàn)流水線正是充分利用了這段閑置的時間,所以才在單位時間內(nèi)提升了效率。而且隨著流水線級數(shù)的增多,對閑置時間的利用也就越充分。


3CPU內(nèi)部的流水線與工廠流水線的區(qū)別和聯(lián)系


CPU流水線屬于工廠流水線的一種,具有流水線的一些共性,但與工廠流水線也具有一些區(qū)別,在本文中我們已得到增加流水線級數(shù)有助于提升CPU主頻的結(jié)論,那為什么intel的貝瑞特大叔還要放棄沖擊4GHz的計劃呢?我們知道任何一種產(chǎn)品的生產(chǎn)都存在良品率這個問題,就如本文所舉的例子,如果在汽車的生產(chǎn)過程中輪胎流水線上的一級輪胎報廢了,這時我們可以在輪胎流水線的末端增加一個任務(wù),然后用本屬于第2輛車的輪胎組裝給第1輛車,依次類推,這樣對整條流水線效率的影響很小,而且對于同一型號的汽車只要使用的是相應(yīng)型號的輪胎就行,不用計較具體使用的是哪個輪胎。但具體到CPU流水線,問題就不這么簡單了,CPU的工作基理可以大致分為指令尋址,指令分析,指令執(zhí)行,以及指令上報,假設(shè)一旦指令流水線中的某個指令的地址出錯,是無法像換輪胎一樣用另一個地址來頂替的,因為每條指令只唯一的對應(yīng)一個地址,而且一些指令的執(zhí)行是具有前后次序的,所以并不能簡單的對出錯的指令進(jìn)行摒棄作罷,必須整條流水線退回重來,對于intel擁有冗長的31級流水線的處理器來說,這種情況的發(fā)生將大大拖累CPU的工作效率,雖然intel不斷通過改進(jìn)分支預(yù)測技術(shù)以及增大緩存來改善此問題,但收效甚微,反而由于緩存的增加和漏電流控制不利,鑄造了具有火熱胸膛的Prescort。
由此可見,主頻能代表:高發(fā)熱和高功耗! 但性能與執(zhí)行效率并不高
目前,P4處理器采用31級流水線工位,而A64則是12級流水線工位。。。



有些朋友會問:Intel的二級緩存能直接比AMD處理器的緩存么?

INTEL的 L1 是數(shù)據(jù)代碼指令追存緩存 AMD L1是實數(shù)據(jù)讀寫緩存
I L1的概念是 I L1里存著 數(shù)據(jù)在L2里的地址 L1 不存實際數(shù)據(jù) 所以大家看到 P4等 I CPU的 L1 都比較小。
A L1的概念是 A L1 里存著實際數(shù)據(jù) 當(dāng)L1 滿了時 再存L2 所以大家看到A CPU 的L1比較的大 為128K
因為L1比L2的延遲小速度快 所以在緩存上 A CPU 比 I CPU的效率更高
而說起L2 的大小 我強(qiáng)調(diào) INTEL CPU 超大L2 其實在一般使用中并沒起到什么作用 反而成了來浪費(fèi)消費(fèi)者錢的用途。
CPU處理數(shù)據(jù)概率
CPU使用0-128K緩存的概率是80%
CPU使用128-256K緩存的概率是10%
CPU使用256-512K緩存的概率是5%
CPU使用512-1M緩存的概率是3%
CPU使用更大緩存的概率是2%
P4的架構(gòu),只要L2一次沒有命中,就要浪費(fèi)大約230個周期到內(nèi)存中去讀取數(shù)據(jù)

也就是說,即使命中率是99%,每一百個周期有一次沒命中,就要再空閑230個周期,即330個周期里只有99個周期是在工作,性能損失2/3以上,這就是P4執(zhí)行效率低的原因了,當(dāng)然亂續(xù)執(zhí)行可以讓空閑時執(zhí)行下一條指令,不過程序的指令并不是時時刻刻都能并行執(zhí)行的,而且CPU判定亂續(xù)執(zhí)行時預(yù)先要花掉好幾個周期,所以不能光看表面的命中概率,只要有1%的命中失敗,性能的損失也是非常嚴(yán)重的...
本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
這18條背下來沒人敢和你忽悠CPU
處理器CPU架構(gòu)
Intel CPU 發(fā)展簡史
80x86系列處理器簡史
Intel處理器后面的E、P、T的意思
中央處理器【電腦指揮中心】解說
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服