美女视频床上,张予曦吻戏视频,蕾丝情趣吊带袜美女视频

9月2日凌晨0時(shí)，英偉達(dá)正式發(fā)布了RTX 30系列顯卡。一如既往的，在30系列顯卡正式發(fā)布前，就已經(jīng)有了大量的規(guī)格和數(shù)據(jù)曝光，但這一次，所有人都猜錯(cuò)了規(guī)格中的流處理器數(shù)量。RTX 3090官方標(biāo)注的CUDA數(shù)量為10496個(gè)、RTX 3080 CUDA數(shù)量為8704個(gè)、RTX 3070的CUDA數(shù)量為5888個(gè)。這個(gè)數(shù)量超乎了大家的想像，甚至成為了一些自媒體的狂歡。

“有生之年終于看到過(guò)萬(wàn)CUDA了，沒(méi)想到來(lái)著的這么快”，“NV牛逼，過(guò)萬(wàn)的CUDA核心”等等。。。。。

我不得不給大家潑一下冷水，RTX 30的CUDA數(shù)量并非大家想的這么牛逼。RTX 2080 Ti CUDA核心有4352個(gè)，功耗達(dá)到250W左右；RTX 3090，CUDA數(shù)量10496個(gè)，是RTX 2080 Ti的2.4倍，功耗僅僅提升了40%，英偉達(dá)采用的是三星的8nm工藝，8nm工藝真的這么牛逼嗎？2.4倍的流處理器數(shù)量，代價(jià)僅僅是40%的功耗提升？戈登摩爾都震驚了。

事實(shí)上，就連NV的AIC伙伴都沒(méi)料到RTX 30的CUDA核心是這樣計(jì)算的。

在凌晨的發(fā)布會(huì)上，除了驅(qū)動(dòng)引擎和軟件部分的升級(jí)；有6個(gè)新東西在RTX 30顯卡上推出，全新的流處理器、第二代RT核心、第三代Tensor張量核心、英偉達(dá)RTX IO技術(shù)、GDDR6顯存以及三星8nm英偉達(dá)定制工藝。

其中全新的流處理器架構(gòu)是英偉達(dá)CUDA核心數(shù)量提升的關(guān)鍵。

在圖靈架構(gòu)中，SM單元才是邏輯上的最小計(jì)算模塊，F(xiàn)P32單元是最小計(jì)算核心之一，但并不能獨(dú)立完成計(jì)算過(guò)程，所謂CUDA核心其實(shí)是一種營(yíng)銷術(shù)語(yǔ)，實(shí)際上并沒(méi)有CUDA核心這種東西。在圖靈架構(gòu)中，英偉達(dá)將CUDA核心的數(shù)量與FP32浮點(diǎn)單元相提并論，計(jì)算的方式是1：1計(jì)算，也就是說(shuō)CUDA核心數(shù)量計(jì)算的是SM計(jì)算單元里的FP32單精度浮點(diǎn)單元。

FP32單精度浮點(diǎn)單元雖是SM單元中的計(jì)算單元，但并非全部。以前的CUDA單元其實(shí)還包括了整數(shù)單元，直到Volta架構(gòu)和圖靈架構(gòu)開(kāi)始，才進(jìn)行了整數(shù)和浮點(diǎn)單元的分離，這也是從圖靈這代顯卡開(kāi)始，CUDA核心和以前的CUDA核心不再相同的原因。

一個(gè)CUDA核心可以在一個(gè)時(shí)鐘周期中執(zhí)行一條單精度浮點(diǎn)運(yùn)算指令，如果需要計(jì)算的指令剛好是FMA（Fused-Multiply-Add乘積、加法混合計(jì)算），單精度浮點(diǎn)單元的管線就會(huì)剛好用完，這時(shí)候單精度浮點(diǎn)單元的使用率是最大的，同時(shí)效率也最高。

但并不是所有指令都是FMA指令，現(xiàn)代的圖形計(jì)算基本都是混合計(jì)算，全浮點(diǎn)計(jì)算只有可能用在科學(xué)計(jì)算中,而且多數(shù)要求雙精度浮點(diǎn)運(yùn)算。圖形領(lǐng)域，GPU可能用到的指令足有幾十條，NV對(duì)此也十分清楚，在公開(kāi)的開(kāi)發(fā)者文檔中清楚的記載了什么算法應(yīng)該用到什么指令以及涉及到的運(yùn)算力。換句話說(shuō)，單精度浮點(diǎn)單元并不等于圖形性能，單精度浮點(diǎn)性能也不能和圖形性能畫(huà)等號(hào)。

回到我們剛剛的話題，在過(guò)去CUDA作為NV衡量性能的規(guī)格之一，采用了和FP32計(jì)算單元1：1的比例進(jìn)行換算。在安培架構(gòu)中，每個(gè)SM單元里的FP32計(jì)算單元數(shù)量進(jìn)行了翻倍提升，按照上一代圖靈顯卡的1SM=64個(gè)FP32單元的計(jì)算方式推算，現(xiàn)在安培架構(gòu)應(yīng)該是1SM=128 FP32單元，但英偉達(dá)這次并沒(méi)有更改CUDA的計(jì)算方式，仍然保持了1：1的算法，所以造就了3090高達(dá)10494的CUDA核心數(shù)量。

這種提升方式其實(shí)讓我第一時(shí)間想到了AMD當(dāng)年的推土機(jī)，只是剛好反過(guò)來(lái)，一個(gè)堆整數(shù)單元，一個(gè)堆浮點(diǎn)單元。。。。

在發(fā)布會(huì)中，英偉達(dá)介紹GA102核心擁有280億晶體管，比TU102的186億晶體管多出50%。這50%的晶體管很大概率都拿來(lái)做FP32單精度浮點(diǎn)單元去了。

按照英偉達(dá)在發(fā)布會(huì)公布的性能級(jí)別，RTX 3080的性能是RTX 2080的2倍，RTX 3070和RTX 2080 Ti相同，不得不說(shuō)，這個(gè)性能的提升幅度確實(shí)是歷來(lái)最大的。因?yàn)橥ǔＳミ_(dá)是一代升一級(jí)，RTX 3080應(yīng)該和RTX 2080 Ti平級(jí)，提升幅度在百分之30-50就差不多了，這次竟然翻倍，確實(shí)比較猛。

不過(guò)RTX 3080的CUDA核心有8704個(gè)，是RTX 2080 2944CUDA核心數(shù)的3倍，但性能提升只能達(dá)到X 2的水平。

這可能就涉及到了另外一個(gè)問(wèn)題：線程的調(diào)度

SM單元里有4個(gè)方塊，我們姑且稱它為計(jì)算區(qū)塊，計(jì)算區(qū)塊里又包含了更多的計(jì)算單元，比如剛剛提到的FP32單精度浮點(diǎn)計(jì)算單元、INT32整數(shù)計(jì)算單元，他們就好像CPU里的一個(gè)個(gè)核心一樣，是需要調(diào)度和分配任務(wù)的，而做這個(gè)調(diào)度的就是頂上橘黃色的部分：調(diào)度器。

英偉達(dá)叫他Warp調(diào)度器，1個(gè)Warp調(diào)度器，每個(gè)時(shí)鐘周期可以并行運(yùn)行32個(gè)線程，每個(gè)線程其實(shí)就對(duì)應(yīng)了每個(gè)計(jì)算核心（16 FP32+16 INT32），不單止CUDA核心喲。。。。。

CUDA編譯器用的是PTX指令集，這個(gè)指令集用的不是常規(guī)的SIMD指令集，而是SIMT指令集，翻譯過(guò)來(lái)叫單指令多線程，所以每個(gè)Warp里運(yùn)行的一定是相同的指令來(lái)做工，但相同的指令未必有等量的數(shù)據(jù)恰好滿足32線程的倍數(shù)關(guān)系，因此Warp里經(jīng)常會(huì)有inactive的未激活核心。

這個(gè)設(shè)計(jì)從費(fèi)米時(shí)代延續(xù)至今，而費(fèi)米時(shí)代的SM單元恰恰也是包含128個(gè)CUDA核心，和這一代的安培顯卡相同，但是當(dāng)時(shí)并沒(méi)有專用的INT32整數(shù)單元，所以費(fèi)米到麥克斯韋架構(gòu)的每個(gè)Warp的32個(gè)線程其實(shí)是對(duì)應(yīng)CUDA核心的，也就是 32 x 4 =128個(gè)CUDA單元，Warp里的線程也是32 x 4=128個(gè)線程；而圖靈是16個(gè)CUDA核心+16個(gè)整數(shù)單元，Warp的線程還需要調(diào)度整數(shù)單元。

調(diào)度器的線程數(shù)涉及到CUDA長(zhǎng)久以來(lái)使用的指令集代碼的語(yǔ)法，更改調(diào)度器不太可能，所以這3倍的流處理器提升，只有2倍的性能提升來(lái)源可能有兩個(gè)。
1．是CUDA帶來(lái)的浮點(diǎn)性能并不完全等于圖形性能，英偉達(dá)也未公開(kāi)這性能比例是如何測(cè)試的。
2．是英偉達(dá)SM單元中每個(gè)Warp的調(diào)度器線程數(shù)不變，計(jì)算核心增加，也許會(huì)通過(guò)特殊的運(yùn)算方式運(yùn)行，在進(jìn)行多指令集的復(fù)雜運(yùn)算時(shí)，有大量核心處于inactive未激活狀態(tài)，所以在CUDA核心3倍的情況下，只有2倍的性能提升，同時(shí)功耗也只提升40%左右。

2020年9月4日更新------------
9月4日英偉達(dá)內(nèi)容與技術(shù)副總裁Tony Tamasi在Reddit的回復(fù)證實(shí)了我的猜測(cè)

“[Tony Tamasi] One of the key design goals for the Ampere 30-series SM was to achieve twice the throughput for FP32 operations compared to the Turing SM. To accomplish this goal, the Ampere SM includes new datapath designs for FP32 and INT32 operations. One datapath in each partition consists of 16 FP32 CUDA Cores capable of executing 16 FP32 operations per clock. Another datapath consists of both 16 FP32 CUDA Cores and 16 INT32 Cores. As a result of this new design, each Ampere SM partition is capable of executing either 32 FP32 operations per clock, or 16 FP32 and 16 INT32 operations per clock. All four SM partitions combined can execute 128 FP32 operations per clock, which is double the FP32 rate of the Turing SM, or 64 FP32 and 64 INT32 operations per clock”

安培的SM單元里的計(jì)算區(qū)塊，是在圖靈的基礎(chǔ)上在又加了16個(gè)FP32浮點(diǎn)單元，并且將他們分成兩種運(yùn)算模式，一種是16個(gè)FP32浮點(diǎn)單元+16個(gè)FP32浮點(diǎn)單元同時(shí)運(yùn)行，這樣一個(gè)完整的計(jì)算區(qū)塊就將提供32個(gè)FP32浮點(diǎn)單元的計(jì)算吞吐量，另一種則是和圖靈一模一樣的16個(gè)FP32浮點(diǎn)單元+16個(gè)INT32整數(shù)單元的運(yùn)算模式。

我再說(shuō)得形象一點(diǎn)，以安培RTX 3090為例，雖然它擁有10496個(gè)CUDA核心，但SM計(jì)算單元數(shù)量=10496/128=82個(gè)SM單元，這82個(gè)SM單元因?yàn)槊總€(gè)計(jì)算區(qū)塊里的Warp調(diào)度器工作規(guī)律，最多只能同時(shí)使用16個(gè)+16個(gè)計(jì)算單元，如果是運(yùn)行在16個(gè)FP32浮點(diǎn)單元+16個(gè)FP32浮點(diǎn)單元的工作模式，這個(gè)SM單元的名字叫安培；如果是運(yùn)行在16個(gè)FP32浮點(diǎn)單元+16個(gè)INT32整數(shù)單元的工作模式，這個(gè)SM單元的名字叫圖靈。

這就是為什么CUDA核心3倍提升的情況下，只有2倍性能提升的原因，同時(shí)功耗也只提升40%左右。

本站僅提供存儲(chǔ)服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊舉報(bào)。

国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看