国产一级a片免费看高清,亚洲熟女中文字幕在线视频,黄三级高清在线播放,免费黄色视频在线看

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
安培的力量——深入解析NVIDIA GeForce RTX3000系列顯卡
NVIDIA Ampere架構(gòu)給GPU帶來了什么魔力呢?
作者丨風(fēng)望月

NVIDIA(英偉達)從8月到9月的新聞一個接一個的重磅:市值超過了Intel+AMD之和,到今天已經(jīng)超過3400億美元,另一個就是9月1日發(fā)布了基于NVIDIA Ampere架構(gòu)GPU的GeForce RTX 30系列顯卡——代表的有RTX 3080和RTX 3070以及怪獸級的RTX 3090。

發(fā)布會上黃教主就坦言這一代RTX 30系列顯卡得益于NVIDIA Ampere架構(gòu),性能相比上一代RTX 20系列顯卡有了巨大的飛躍。其中RTX 3080作為新一代旗艦顯卡,性能可以達到RTX 2080的兩倍,就連面向主流市場的RTX 3070也超過了之前售價過萬的RTX 2080Ti旗艦顯卡。至于RTX 3090,其定位已經(jīng)是之前的TITAN RTX系列,性能是后者的1.5倍。

▲ 圖:好東西看起來就是高端(貴)

那么新一代旗艦顯卡RTX 3080的實際性能究竟是不是這么神呢?還記得之前的RTX 20系列開啟了光線追蹤和DLSS之后,幀率暴跌的情形么?我們將會在9月17日揭秘實測性能和數(shù)據(jù),敬請期待。

那么本篇文章,我們主要來看看是什么樣的魔法,讓NVIDIA Ampere架構(gòu)給GPU帶來了如此魔力呢?換言之,NVIDIA Ampere架構(gòu)相比上代Turing架構(gòu)究竟有哪些不同?

先來看看數(shù)據(jù)——

如上表,得益于和三星合作的8N工藝(我們猜測不是單純的8nm工藝,有特殊之處),RTX 3080的GPU擁有280億個晶體管,比上一代RTX 2080Ti多了近10億個——而體積卻從754平方毫米減小到了628平方毫米。

因此,RTX 3080雖然同樣擁有著68個SM模組,但是CUDA Core增加到了8704個,是RTX Super的2.8倍,也幾乎比RTX 2080Ti翻了一番。用作神經(jīng)網(wǎng)絡(luò)計算的Tensor Core和負(fù)責(zé)光線追蹤的RT Core雖然看著數(shù)量上和RTX 2080Ti差不多,甚至還有縮減,但是其效率今非昔比——后面我們會單獨提到重新設(shè)計的RT Core和Tensor Core有多驚人。

GPU主頻和Boost頻率也得益于新制造工藝,基礎(chǔ)頻率達到了1440MHz,Boost可以到1710MHz——相信一些非公版會大大提升這一極限。顯存、帶寬和功耗有著不同程度的變化。

重新設(shè)計的著色器、Tensor Core和RT Core

NVIDIA Ampere架構(gòu)相比于之前Turing的最大變化,就是其每一個SM(流式多處理器)的分區(qū)在每個時鐘周期能夠執(zhí)行32次FP32(32位浮點運算)操作,這就使得SM中的全部4個分區(qū)加在一起每個時鐘周期可以進行128次FP32操作——吞吐量翻倍。對于圖形渲染,著色器的工作和計算都是直接受益于FP32運算速度,而光線追蹤等最新的技術(shù)也會被FP32進一步加持。

作為顯卡GPU的基礎(chǔ),Shader著色器是從GPU誕生之初就作為渲染圖形的一種專用可編程器件——早期的著色器還會分為頂點著色器和像素著色器,前者負(fù)責(zé)畫三角形(3D模型可以根據(jù)建模復(fù)雜度拆分成無數(shù)三角形),后者則負(fù)責(zé)做2D圖形的像素渲染。

從CUDA誕生以來,NVIDIA的GPU就開始走上了一條從專門為圖形渲染的可編程著色器,逐漸向通用計算發(fā)展。到如今基于NVIDIA Ampere架構(gòu)的RTX 30系列顯卡所擁有的可編程著色器,其處理能力由11 Shader-TFLOP/s LOPS提升到為30 Shader-TFLOP/s, FP32浮點吞吐量是上一代Turing架構(gòu)的2.7倍。

▲ 圖:新的著色器性能提升2.7倍,RT Core和Tensor Core性能也分別提升了1.7倍和2.7倍

早在Turing架構(gòu)中引入Tensor Core(張量計算核心)和RT Core(光線追蹤核心)時,我們就評論過,這兩種核心必將成為未來顯卡的基石——如果將GPU自身的CUDA Core看做是通用處理器,那么對于通用計算來說,繁重的光線追蹤操作(RTX-OPS)和用于深度學(xué)習(xí)推演的張量計算(Tensor Flops)當(dāng)然需要卸載(Offload),來提升效率。

NVIDIA的雄心和魄力在整個游戲業(yè)界還只有寥寥數(shù)款游戲時,就推出了超越時代的這兩種核心,一時間讓分析師和媒體不置可否的對其“信心不足”——直到越來越多的游戲開始支持光線追蹤, 而Tensor Core所支持的DLSS基于深度學(xué)習(xí)技術(shù)的超采樣,也終于能在更多實際游戲中發(fā)揮作用。但是還是有很多玩家詬病,真想要全開DLSS,必須上旗艦的RTX 2080Ti。

如今呢?新一代RTX 3080的根基,是NVIDIA Ampere架構(gòu)——這是在今年GTC美國發(fā)布的最重要的GPU核心架構(gòu),其中最重要的就是第三代Tensor Core(張量計算核心),如下表所示:

NVIDIA A100 Tensor Core GPU性能數(shù)據(jù)

▲ 圖數(shù)據(jù)來自A100白皮書(https://www.nvidia.com/content/dam/en-zz/Solutions/Data-Center/nvidia-ampere-architecture-whitepaper.pdf)

這是NVIDIA用在數(shù)據(jù)中心深度學(xué)習(xí)的A100 GPU的數(shù)據(jù),但是其第三代Tensor Core的威力幾乎是原來V100的兩倍——同樣是NVIDIA Ampere架構(gòu)的RTX 3080里,僅僅272個Tensor Core就可以帶來238 Tensor-TFLOPS的計算力,而原來在RTX 2080Ti里,這個計算力僅為89 Tensor-TFLOPS——性能提升了近3倍。

▲ 圖新一代DLSS 2.0是在超級計算機加持下用4K圖像做深度學(xué)習(xí)訓(xùn)練產(chǎn)生的模型(按訓(xùn)練的順序陸續(xù)支持各個游戲)

我們可以期待,在最新DLSS 2.0的加持下,即使同樣是4K分辨率,Tensor Core的強大推演能力,也可以讓畫面達到前所未有的銳度,消除鋸齒——形象的說就是超級計算機幫你腦補了細(xì)節(jié)。

另一邊,第二代RT Core與之前相比也有了近2倍的性能提升,并且支持并發(fā)式的光線追蹤處理和著色。從數(shù)據(jù)上來說,RTX 2080Ti的光線追蹤性能是34 RT-TFLOPS,而到了RTX 3080中,雖然RT Core的數(shù)量和之前一樣,但是性能提升到了58 RT-FLOPS,這就使得同一時間內(nèi)可以計算更多的光線和路徑。

▲ 圖:第二代RT Core擁有1.5倍以上的性能提升

光線追蹤的最終目的,就是讓計算機影像盡可能的接近真實的物理效果——在傳統(tǒng)的光影環(huán)境中,GPU用光柵去處理光影關(guān)系,也就是將3D的圖形映射投影到一個2D的平面上,然后去處理每一個點應(yīng)該什么亮度,什么顏色等等。這樣在最后合成起來,就得到了一個3D的圖像——這非常類似MRI(核磁共振)的切片式成像原理。但是問題也很大——因為計算力的限制,也因為編程的復(fù)雜度,程序員只能簡化光影邏輯,使得物體往往只有一兩個光源——越多的光源對于場景的設(shè)計和計算復(fù)雜度要求越高。

而光線追蹤則是我們平時在現(xiàn)實生活中看到東西的樣子——光線從光源發(fā)出,可能是燈,可能是太陽,射到物體上再反射到我們的眼睛里,于是我們看到了亮部,暗部,顏色等。光線追蹤就是要模擬這樣的過程,只去定義光源和材質(zhì)的物理性質(zhì)(反光程度、漫反射程度等)。這樣做的好處是簡化了程序設(shè)計的難度,最大限度的還原真實——如果能無限跟蹤所有光線,就可以還原整個世界的光影——這是理想中的設(shè)計。不可能實現(xiàn)的原因就是會帶來海量的計算——近乎無窮無盡。

RT Core的出現(xiàn),就是在GPU里分出一部分專門為這種最終而生的核心,來盡可能大的提升性能,并且在處理光影時,能夠“專項治理”。

▲ 圖:如果不告訴你這是光線追蹤的虛擬世界,你會信以為真么

從2018年末微軟正式在自己的DirectX里添加Raytracing(DXR)光線追蹤技術(shù)以來,越來越多的游戲開始使用這項技術(shù)來讓自己的世界構(gòu)建的足夠真實——而NVIDIA也實實在在的推動了時代的進步,并且又一次通過RTX 3080將光線追蹤的水平提升到了新的高度。

三個容易被忽略的技術(shù)亮點

如果說RTX 3080性能的大幅度攀升得益于制程工藝帶來的28億晶體管和全新NVIDIA Ampere架構(gòu)帶來的提升,那么有三個細(xì)節(jié)是顯卡與計算GPU最不同的地方——

1.  GDDR6X顯存的強大

NVIDIA為這一代RTX 3080旗艦顯卡裝備了世界上最快的顯存——GDDR6X顯存,相比RTX 2080Ti使用的GDDR6顯存,顯存位寬從352-bit變成了320-bit,看起來降低了?其實是因為顯存的消息傳輸率從14Gbps提升到了19Gbps,因此帶寬從GDDR6的616GB/秒,提升到了GDDR6X的760GB/秒。

▲ 圖發(fā)布會上的“眼圖”——學(xué)過通信的朋友看著會很親切

“眼圖”可以清晰的看出來GDDR6X在同一時間周期內(nèi)(380皮秒,1皮秒等于一萬億分之一(即10的負(fù)12次方)秒)以250mv步長發(fā)送4個不同的電平(形成了3行4個大眼睛)——發(fā)出的信號是4*4=16個。而上圖左邊是上一代GDDR6在500皮秒時間內(nèi)發(fā)射2個電平——發(fā)出的信號是2*8=16個。

不難看出,左右兩側(cè)發(fā)射同樣數(shù)量消息的情況下,右側(cè)耗時是左側(cè)的70%樣子。換句話說,就是GDDR6X比GDDR6快了30%樣子。這也與鎂光官網(wǎng)所宣傳的系統(tǒng)帶寬提升一致。

NVIDIA表示這得益于和鎂光合作設(shè)計的GDDR6X顯存所采用的PAM4多級信令技術(shù)——其實這個牽扯到了通信里面非常時髦的脈沖振幅調(diào)制,尤其是在光通信領(lǐng)域——200G/s以上的光通信普遍采用QSFP64模塊,而內(nèi)部的信號調(diào)制就是PAM4為主。聰明的小伙伴開始聯(lián)想GPU在NVIDIA游戲云(GeForce Now)里是如何通過Mellanox的高速網(wǎng)絡(luò)直接用著一模一樣的調(diào)制信號,繞過CPU實現(xiàn)GPUDirect(請自行發(fā)掘這個秘籍)的。

2.  RTX I/O技術(shù)

NVIDIA RTX I/O技術(shù)是什么?簡而言之就是GPU可以繞過CPU而直接訪問高速存儲。

在HDD時代,打開游戲的過程就是從硬盤里通過南橋的控制芯片加載數(shù)據(jù)到內(nèi)存里,這一切都是通過CPU控制的,然后GPU再通過CPU去內(nèi)存里讀取數(shù)據(jù)放到自己的顯存里做計算。效率雖然低下,但是瓶頸主要是HDD機械硬盤的延遲和速度。

但是到了如今,PCI-E 已經(jīng)從3.0發(fā)展到了4.0時代,NVMe SSD的速度也極大的提升。那么之前這一數(shù)據(jù)存取過程就顯得非常的拖沓——為什么不直接把數(shù)據(jù)從SSD里讀取到顯存里呢?

從上圖可以看出,從PCI-E Gen4 NVMe的SSD里讀取的數(shù)據(jù),通過磁盤控制器直接通過PCI-E總線放到顯卡的西安村里,這就是NVIDIA的RTX I/O技術(shù),它可以讓這一存取數(shù)據(jù)的操作繞過CPU和本地內(nèi)存,完成數(shù)據(jù)鏈路從存儲到顯存的直接調(diào)度。

這一應(yīng)用場景除了可以充分利用PCI-E 4.0的高速帶寬來釋放NVMe SSD的速度外,還能夠極大的降低系統(tǒng)時延,玩家打開游戲不用再等那么久,幾乎感受不到游戲的加載用時。

3.  REFLEX低延遲技術(shù)

黃教主在開頭就提及了NVIDIA REFLEX低延遲技術(shù),這實際上可以理解為GeForce RTX顯卡和G-Sync新技術(shù)通過優(yōu)化來降低系統(tǒng)和游戲中的延遲——而最高360Hz刷新率的支持,也讓競技類游戲的對抗度提升了一大截。

吃雞游戲剛火起來的時候,很多玩家深有體會的就是60Hz刷新率下玩游戲是一個體驗,而歡樂144Hz支持G-Sync的顯示器,加上一塊好顯卡,那么吃雞游戲就變成了另一種體驗,仿佛自己技術(shù)提升了一大截——實際上是你的眼睛看到的內(nèi)容比別人多,比別人早了幾毫秒,就這幾毫秒就是瞄準(zhǔn)的關(guān)鍵時間點。

關(guān)于RTX 30系列顯卡其實還有不少新設(shè)計,例如雙軸流散熱設(shè)計,比上一代散熱器的效率提升了2倍,而8K HDR的視頻錄制和編輯,AV1的解碼加速都能在不同層面提升玩家的體驗。各位敬請期待我們明天發(fā)布的具體評測——

RTX 3080顯卡的標(biāo)準(zhǔn)跑分:

  • 3DMark Fire Strike ——詮釋DirectX 11對照上代卡的提升

  • 3DMark Time Spy ——DirectX 12 基準(zhǔn)測試

  • 3DMark Port Royal —— 顯卡的光線追蹤基準(zhǔn)測試

  • 3DMark DLSS ——深度學(xué)習(xí)超采樣測試

游戲測試:

  • 奇點灰燼:擴展版(Ashes of the Singularity: Escalation)——沒有人真正玩過這個游戲,都是用它來做DX12跑分Benchmark

  • 刺客信條:奧德賽(Assassin's Creed Odyssey)——眾生平等的基準(zhǔn)測試

  • 堡壘之夜(Fronite)——支持光線追蹤的網(wǎng)游

  • 控制(Control)——支持DLSS 2.0的游戲

  • 德軍總部:新血脈(Wolfenstein: Youngblood)——光線追蹤和DLSS測試

  • 邊境(跑分測試)(Boundary Benchmark)——國產(chǎn)游戲大作,支持光線追蹤

  • 光明記憶:無限(Bright Memory: Infinity)——國內(nèi)知名大作,虛幻4.9引擎打造,光線追蹤+DLSS測試

  • 地鐵:離去(Metro Exodus)——早期支持光線追蹤和DLSS的游戲,標(biāo)桿

  • 我的世界(光追版)(MineCraft(RT))——不用多說了吧

  • 古墓麗影:暗影(Shadow of the Tomb Raider)——光線追蹤和DLSS測試

  • 古墓麗影:崛起(Rise of the Tomb Raider)——DirectX 12早期標(biāo)桿,游戲也支持DirectX 11

其他測試:有小驚喜測試送給專業(yè)玩家,敬請期待。

本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報。
打開APP,閱讀全文并永久保存
猜你喜歡
類似文章
要緊跟光追時代的腳步,RTX 3060顯卡或許最適合主流玩家
iGame GeForce RTX 3080 Vulcan 10G首測:安培重裝上陣 玩家新利器
英偉達(NVIDIA)GeForce RTX 4090 顯卡測試報告出爐:4K百幀無壓力,創(chuàng)作專武,游戲神兵! – 趣裝機
618必買游戲本 機械革命深海幽靈Z3 Air-S
RTX30系列顯卡為我們帶來了哪些新特性?
英偉達推出RTX 30系列顯卡,性能翻倍,價格亮了
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服