NVIDIA(英偉達)從8月到9月的新聞一個接一個的重磅:市值超過了Intel+AMD之和,到今天已經(jīng)超過3400億美元,另一個就是9月1日發(fā)布了基于NVIDIA Ampere架構(gòu)GPU的GeForce RTX 30系列顯卡——代表的有RTX 3080和RTX 3070以及怪獸級的RTX 3090。
發(fā)布會上黃教主就坦言這一代RTX 30系列顯卡得益于NVIDIA Ampere架構(gòu),性能相比上一代RTX 20系列顯卡有了巨大的飛躍。其中RTX 3080作為新一代旗艦顯卡,性能可以達到RTX 2080的兩倍,就連面向主流市場的RTX 3070也超過了之前售價過萬的RTX 2080Ti旗艦顯卡。至于RTX 3090,其定位已經(jīng)是之前的TITAN RTX系列,性能是后者的1.5倍。
▲ 圖:好東西看起來就是高端(貴)
那么新一代旗艦顯卡RTX 3080的實際性能究竟是不是這么神呢?還記得之前的RTX 20系列開啟了光線追蹤和DLSS之后,幀率暴跌的情形么?我們將會在9月17日揭秘實測性能和數(shù)據(jù),敬請期待。
那么本篇文章,我們主要來看看是什么樣的魔法,讓NVIDIA Ampere架構(gòu)給GPU帶來了如此魔力呢?換言之,NVIDIA Ampere架構(gòu)相比上代Turing架構(gòu)究竟有哪些不同?
先來看看數(shù)據(jù)——
如上表,得益于和三星合作的8N工藝(我們猜測不是單純的8nm工藝,有特殊之處),RTX 3080的GPU擁有280億個晶體管,比上一代RTX 2080Ti多了近10億個——而體積卻從754平方毫米減小到了628平方毫米。
因此,RTX 3080雖然同樣擁有著68個SM模組,但是CUDA Core增加到了8704個,是RTX Super的2.8倍,也幾乎比RTX 2080Ti翻了一番。用作神經(jīng)網(wǎng)絡(luò)計算的Tensor Core和負(fù)責(zé)光線追蹤的RT Core雖然看著數(shù)量上和RTX 2080Ti差不多,甚至還有縮減,但是其效率今非昔比——后面我們會單獨提到重新設(shè)計的RT Core和Tensor Core有多驚人。
GPU主頻和Boost頻率也得益于新制造工藝,基礎(chǔ)頻率達到了1440MHz,Boost可以到1710MHz——相信一些非公版會大大提升這一極限。顯存、帶寬和功耗有著不同程度的變化。
重新設(shè)計的著色器、Tensor Core和RT Core
NVIDIA Ampere架構(gòu)相比于之前Turing的最大變化,就是其每一個SM(流式多處理器)的分區(qū)在每個時鐘周期能夠執(zhí)行32次FP32(32位浮點運算)操作,這就使得SM中的全部4個分區(qū)加在一起每個時鐘周期可以進行128次FP32操作——吞吐量翻倍。對于圖形渲染,著色器的工作和計算都是直接受益于FP32運算速度,而光線追蹤等最新的技術(shù)也會被FP32進一步加持。
作為顯卡GPU的基礎(chǔ),Shader著色器是從GPU誕生之初就作為渲染圖形的一種專用可編程器件——早期的著色器還會分為頂點著色器和像素著色器,前者負(fù)責(zé)畫三角形(3D模型可以根據(jù)建模復(fù)雜度拆分成無數(shù)三角形),后者則負(fù)責(zé)做2D圖形的像素渲染。
從CUDA誕生以來,NVIDIA的GPU就開始走上了一條從專門為圖形渲染的可編程著色器,逐漸向通用計算發(fā)展。到如今基于NVIDIA Ampere架構(gòu)的RTX 30系列顯卡所擁有的可編程著色器,其處理能力由11 Shader-TFLOP/s LOPS提升到為30 Shader-TFLOP/s, FP32浮點吞吐量是上一代Turing架構(gòu)的2.7倍。
▲ 圖:新的著色器性能提升2.7倍,RT Core和Tensor Core性能也分別提升了1.7倍和2.7倍
早在Turing架構(gòu)中引入Tensor Core(張量計算核心)和RT Core(光線追蹤核心)時,我們就評論過,這兩種核心必將成為未來顯卡的基石——如果將GPU自身的CUDA Core看做是通用處理器,那么對于通用計算來說,繁重的光線追蹤操作(RTX-OPS)和用于深度學(xué)習(xí)推演的張量計算(Tensor Flops)當(dāng)然需要卸載(Offload),來提升效率。
NVIDIA的雄心和魄力在整個游戲業(yè)界還只有寥寥數(shù)款游戲時,就推出了超越時代的這兩種核心,一時間讓分析師和媒體不置可否的對其“信心不足”——直到越來越多的游戲開始支持光線追蹤, 而Tensor Core所支持的DLSS基于深度學(xué)習(xí)技術(shù)的超采樣,也終于能在更多實際游戲中發(fā)揮作用。但是還是有很多玩家詬病,真想要全開DLSS,必須上旗艦的RTX 2080Ti。
如今呢?新一代RTX 3080的根基,是NVIDIA Ampere架構(gòu)——這是在今年GTC美國發(fā)布的最重要的GPU核心架構(gòu),其中最重要的就是第三代Tensor Core(張量計算核心),如下表所示:
NVIDIA A100 Tensor Core GPU性能數(shù)據(jù)
▲ 圖:數(shù)據(jù)來自A100白皮書(https://www.nvidia.com/content/dam/en-zz/Solutions/Data-Center/nvidia-ampere-architecture-whitepaper.pdf)
這是NVIDIA用在數(shù)據(jù)中心深度學(xué)習(xí)的A100 GPU的數(shù)據(jù),但是其第三代Tensor Core的威力幾乎是原來V100的兩倍——同樣是NVIDIA Ampere架構(gòu)的RTX 3080里,僅僅272個Tensor Core就可以帶來238 Tensor-TFLOPS的計算力,而原來在RTX 2080Ti里,這個計算力僅為89 Tensor-TFLOPS——性能提升了近3倍。
▲ 圖:新一代DLSS 2.0是在超級計算機加持下用4K圖像做深度學(xué)習(xí)訓(xùn)練產(chǎn)生的模型(按訓(xùn)練的順序陸續(xù)支持各個游戲)
我們可以期待,在最新DLSS 2.0的加持下,即使同樣是4K分辨率,Tensor Core的強大推演能力,也可以讓畫面達到前所未有的銳度,消除鋸齒——形象的說就是超級計算機幫你腦補了細(xì)節(jié)。
另一邊,第二代RT Core與之前相比也有了近2倍的性能提升,并且支持并發(fā)式的光線追蹤處理和著色。從數(shù)據(jù)上來說,RTX 2080Ti的光線追蹤性能是34 RT-TFLOPS,而到了RTX 3080中,雖然RT Core的數(shù)量和之前一樣,但是性能提升到了58 RT-FLOPS,這就使得同一時間內(nèi)可以計算更多的光線和路徑。
▲ 圖:第二代RT Core擁有1.5倍以上的性能提升
光線追蹤的最終目的,就是讓計算機影像盡可能的接近真實的物理效果——在傳統(tǒng)的光影環(huán)境中,GPU用光柵去處理光影關(guān)系,也就是將3D的圖形映射投影到一個2D的平面上,然后去處理每一個點應(yīng)該什么亮度,什么顏色等等。這樣在最后合成起來,就得到了一個3D的圖像——這非常類似MRI(核磁共振)的切片式成像原理。但是問題也很大——因為計算力的限制,也因為編程的復(fù)雜度,程序員只能簡化光影邏輯,使得物體往往只有一兩個光源——越多的光源對于場景的設(shè)計和計算復(fù)雜度要求越高。
而光線追蹤則是我們平時在現(xiàn)實生活中看到東西的樣子——光線從光源發(fā)出,可能是燈,可能是太陽,射到物體上再反射到我們的眼睛里,于是我們看到了亮部,暗部,顏色等。光線追蹤就是要模擬這樣的過程,只去定義光源和材質(zhì)的物理性質(zhì)(反光程度、漫反射程度等)。這樣做的好處是簡化了程序設(shè)計的難度,最大限度的還原真實——如果能無限跟蹤所有光線,就可以還原整個世界的光影——這是理想中的設(shè)計。不可能實現(xiàn)的原因就是會帶來海量的計算——近乎無窮無盡。
RT Core的出現(xiàn),就是在GPU里分出一部分專門為這種最終而生的核心,來盡可能大的提升性能,并且在處理光影時,能夠“專項治理”。
▲ 圖:如果不告訴你這是光線追蹤的虛擬世界,你會信以為真么
從2018年末微軟正式在自己的DirectX里添加Raytracing(DXR)光線追蹤技術(shù)以來,越來越多的游戲開始使用這項技術(shù)來讓自己的世界構(gòu)建的足夠真實——而NVIDIA也實實在在的推動了時代的進步,并且又一次通過RTX 3080將光線追蹤的水平提升到了新的高度。
三個容易被忽略的技術(shù)亮點
如果說RTX 3080性能的大幅度攀升得益于制程工藝帶來的28億晶體管和全新NVIDIA Ampere架構(gòu)帶來的提升,那么有三個細(xì)節(jié)是顯卡與計算GPU最不同的地方——
1. GDDR6X顯存的強大
NVIDIA為這一代RTX 3080旗艦顯卡裝備了世界上最快的顯存——GDDR6X顯存,相比RTX 2080Ti使用的GDDR6顯存,顯存位寬從352-bit變成了320-bit,看起來降低了?其實是因為顯存的消息傳輸率從14Gbps提升到了19Gbps,因此帶寬從GDDR6的616GB/秒,提升到了GDDR6X的760GB/秒。
▲ 圖:發(fā)布會上的“眼圖”——學(xué)過通信的朋友看著會很親切
“眼圖”可以清晰的看出來GDDR6X在同一時間周期內(nèi)(380皮秒,1皮秒等于一萬億分之一(即10的負(fù)12次方)秒)以250mv步長發(fā)送4個不同的電平(形成了3行4個大眼睛)——發(fā)出的信號是4*4=16個。而上圖左邊是上一代GDDR6在500皮秒時間內(nèi)發(fā)射2個電平——發(fā)出的信號是2*8=16個。
不難看出,左右兩側(cè)發(fā)射同樣數(shù)量消息的情況下,右側(cè)耗時是左側(cè)的70%樣子。換句話說,就是GDDR6X比GDDR6快了30%樣子。這也與鎂光官網(wǎng)所宣傳的系統(tǒng)帶寬提升一致。
NVIDIA表示這得益于和鎂光合作設(shè)計的GDDR6X顯存所采用的PAM4多級信令技術(shù)——其實這個牽扯到了通信里面非常時髦的脈沖振幅調(diào)制,尤其是在光通信領(lǐng)域——200G/s以上的光通信普遍采用QSFP64模塊,而內(nèi)部的信號調(diào)制就是PAM4為主。聰明的小伙伴開始聯(lián)想GPU在NVIDIA游戲云(GeForce Now)里是如何通過Mellanox的高速網(wǎng)絡(luò)直接用著一模一樣的調(diào)制信號,繞過CPU實現(xiàn)GPUDirect(請自行發(fā)掘這個秘籍)的。
2. RTX I/O技術(shù)
NVIDIA RTX I/O技術(shù)是什么?簡而言之就是GPU可以繞過CPU而直接訪問高速存儲。
在HDD時代,打開游戲的過程就是從硬盤里通過南橋的控制芯片加載數(shù)據(jù)到內(nèi)存里,這一切都是通過CPU控制的,然后GPU再通過CPU去內(nèi)存里讀取數(shù)據(jù)放到自己的顯存里做計算。效率雖然低下,但是瓶頸主要是HDD機械硬盤的延遲和速度。
但是到了如今,PCI-E 已經(jīng)從3.0發(fā)展到了4.0時代,NVMe SSD的速度也極大的提升。那么之前這一數(shù)據(jù)存取過程就顯得非常的拖沓——為什么不直接把數(shù)據(jù)從SSD里讀取到顯存里呢?
從上圖可以看出,從PCI-E Gen4 NVMe的SSD里讀取的數(shù)據(jù),通過磁盤控制器直接通過PCI-E總線放到顯卡的西安村里,這就是NVIDIA的RTX I/O技術(shù),它可以讓這一存取數(shù)據(jù)的操作繞過CPU和本地內(nèi)存,完成數(shù)據(jù)鏈路從存儲到顯存的直接調(diào)度。
這一應(yīng)用場景除了可以充分利用PCI-E 4.0的高速帶寬來釋放NVMe SSD的速度外,還能夠極大的降低系統(tǒng)時延,玩家打開游戲不用再等那么久,幾乎感受不到游戲的加載用時。
3. REFLEX低延遲技術(shù)
黃教主在開頭就提及了NVIDIA REFLEX低延遲技術(shù),這實際上可以理解為GeForce RTX顯卡和G-Sync新技術(shù)通過優(yōu)化來降低系統(tǒng)和游戲中的延遲——而最高360Hz刷新率的支持,也讓競技類游戲的對抗度提升了一大截。
吃雞游戲剛火起來的時候,很多玩家深有體會的就是60Hz刷新率下玩游戲是一個體驗,而歡樂144Hz支持G-Sync的顯示器,加上一塊好顯卡,那么吃雞游戲就變成了另一種體驗,仿佛自己技術(shù)提升了一大截——實際上是你的眼睛看到的內(nèi)容比別人多,比別人早了幾毫秒,就這幾毫秒就是瞄準(zhǔn)的關(guān)鍵時間點。
關(guān)于RTX 30系列顯卡其實還有不少新設(shè)計,例如雙軸流散熱設(shè)計,比上一代散熱器的效率提升了2倍,而8K HDR的視頻錄制和編輯,AV1的解碼加速都能在不同層面提升玩家的體驗。各位敬請期待我們明天發(fā)布的具體評測——
RTX 3080顯卡的標(biāo)準(zhǔn)跑分:
3DMark Fire Strike ——詮釋DirectX 11對照上代卡的提升
3DMark Time Spy ——DirectX 12 基準(zhǔn)測試
3DMark Port Royal —— 顯卡的光線追蹤基準(zhǔn)測試
3DMark DLSS ——深度學(xué)習(xí)超采樣測試
游戲測試:
奇點灰燼:擴展版(Ashes of the Singularity: Escalation)——沒有人真正玩過這個游戲,都是用它來做DX12跑分Benchmark
刺客信條:奧德賽(Assassin's Creed Odyssey)——眾生平等的基準(zhǔn)測試
堡壘之夜(Fronite)——支持光線追蹤的網(wǎng)游
控制(Control)——支持DLSS 2.0的游戲
德軍總部:新血脈(Wolfenstein: Youngblood)——光線追蹤和DLSS測試
邊境(跑分測試)(Boundary Benchmark)——國產(chǎn)游戲大作,支持光線追蹤
光明記憶:無限(Bright Memory: Infinity)——國內(nèi)知名大作,虛幻4.9引擎打造,光線追蹤+DLSS測試
地鐵:離去(Metro Exodus)——早期支持光線追蹤和DLSS的游戲,標(biāo)桿
我的世界(光追版)(MineCraft(RT))——不用多說了吧
古墓麗影:暗影(Shadow of the Tomb Raider)——光線追蹤和DLSS測試
古墓麗影:崛起(Rise of the Tomb Raider)——DirectX 12早期標(biāo)桿,游戲也支持DirectX 11
其他測試:有小驚喜測試送給專業(yè)玩家,敬請期待。