由于疫情的緣故,GeForce RTX 30系列發(fā)布會被改在了黃仁勛家的廚房,但不能改變?nèi)蚰泻⒆右灰怪g為其瘋狂。首發(fā)的三款產(chǎn)品包括了GeForce RTX 3090、GeForce RTX 3080和GeForce RTX 3070,基于安培Ampere架構(gòu)以及三星8nm工藝優(yōu)化而來,在實際測試解禁之前,參數(shù)上的變化就足以讓人激動,曾經(jīng)的消費卡皇GeForce RTX 2080 Ti甚至被甩開了數(shù)條街。
相對GeForce RTX 2080 Ti的圖靈Turing架構(gòu),GeForce RTX 3090的安培Ampere架構(gòu)究竟帶來了什么樣的改變?英偉達是如何針對游戲、光線追蹤、響應(yīng)乃至讀寫調(diào)教了這顆GA102核心?在測試解禁和白皮書放出之前,我們有幸參加了NVIDIA的架構(gòu)解析會,這里不妨先從芯片架構(gòu)入手,走馬看花的了解一下這塊能讓男孩子們都哭了的芯片。
GeForce RTX 3090性能的明顯提升首先源自于這塊Ampere GA102核心。在硬件上GA102進行了幾項更新,其中最大的改變是在三星8nm工藝定制版本下,晶體管尺寸得到大幅縮小,使得GA102裝下更多內(nèi)容。從整體而言,三星8nm并非時下熱門的EUV工藝,而是從10nm改進而來,但得益于三星8nm定制版本的高產(chǎn)量和低成本,才使得GeForce RTX 30系列定價更有親和力。
這并非NVIDIA第一次定制工藝,圖靈Turing架構(gòu)的12nm FFN本身就是臺積電16nm工藝的優(yōu)化版本,兩者之間晶體管密度相同。同樣三星8nm定制與三星10nm工藝之間也不會有太大區(qū)別,但相對臺積電16nm而言,那提升就相當(dāng)明顯了,高達627mm2的芯片尺寸內(nèi)融入了280億個晶體管,這使得CUDA的數(shù)量成倍增加。
其實稍微了解一點硬件的同學(xué)都清楚,如果拋開光線追蹤、深度學(xué)習(xí)超采樣DLSS加速內(nèi)核優(yōu)化手段,圖靈Turing和帕斯卡Pascal的運算性能沒有瘋狂增加。但安培Ampere不同,在光刻工藝升級之后,因為更多的晶體管數(shù)量,即使結(jié)構(gòu)上沒有做出太多重大改變,提升相當(dāng)明顯的。
是的,加量是安培Ampere的主題,即便對比Volta,GA102也沒有引入RT Core、Tensor Core的全新模塊,而是對其功能、大小、數(shù)量進行了調(diào)整,NVIDIA將其稱為第二代RT Core以及第三代Tensor Core。從結(jié)論上來看,安培Ampere單個SM就能比圖靈Turing SM提供兩倍以上數(shù)據(jù)吞吐的Tensor-TFLOPS。
回到架構(gòu)本身,GA102相對今年春天發(fā)布的NVIDIA A100上的GA100增加了圖形功能,但本質(zhì)上Ampere架構(gòu)體系不變。NVIDIA重新優(yōu)化了GA102的計算單元分配,在圖靈Turing的基礎(chǔ)上引入了新的數(shù)據(jù)通道、1倍的FP32浮點運算單元,單個SM周期可以完成128次FMA操作,或者256次浮點運算。
更具體的說,在圖靈Turing SM中原本用于整數(shù)運算的INT32單元變成了FP32 + INT32運算單元,根據(jù)需求不同,單元會在FP32和INT32之間切換,這使得FP32單元在使用時成倍增加。
而INT32數(shù)量變成FP32的一半其實更符合新游戲?qū)Ω↑c運算的要求,單元之間兼職切換也司空見慣,例如圖靈Turing上的INT32就是由浮點運算單元模擬實現(xiàn)的,而《孤島危機5》中的水面模擬使用精度更低的FP16則是由Tensor Core模擬實現(xiàn)的。
除此之外,L1數(shù)據(jù)帶和紋理高速緩存帶寬提升了一倍,容量提升了33%,達到了128KB。
此外加速內(nèi)核中,第二代RT Core提升2倍三角形求交速度,第三代Tensor Core支持稀疏化矩陣加速,支持2倍的顆粒度稀疏化性能。接下來我們分別對這兩個內(nèi)核進行展開。
從目前實現(xiàn)的技術(shù)手段來看,光線追蹤通過三角形求交測試和結(jié)構(gòu)化加速來實現(xiàn)。其中三角形求交測試是指在層層疊疊無數(shù)的三角形中,找到被生成射線擊中的那些射線與場景物體交匯點,而后對交匯點進行著色計算。如果利用通用計算單元,需要成千上萬個單元一起找茬,在數(shù)以萬計的三角形中找到正確的那數(shù)十個,然后著色。
道理是這么說,如果沒有討巧的方法,恐怕處理完一個實時光線追蹤場景需要一輩子。這時候就需要引入一套加速結(jié)構(gòu)算法。簡單的說,如果你早餐想吃面條,那就應(yīng)該走進面館,而不是去大排檔找日式料理。加速結(jié)構(gòu)意思就是將有必要的東西進行分門別類,方便發(fā)出的光線能夠快速準(zhǔn)確的擊中三角形。
光線追蹤加速結(jié)構(gòu)基于1986年提出的層次化包圍盒BVH(Bounding Volume Hierarchy)數(shù)據(jù)結(jié)構(gòu)實現(xiàn)。微軟DXR光線追蹤加速結(jié)構(gòu)與BVH類似,通過兩級加速結(jié)構(gòu)確保射出的光線找到相應(yīng)的三角形。
RT Core正是針對三角形求交測試遍歷算法和BVH加速結(jié)構(gòu)設(shè)計,從而也窺見NVIDIA在早期布局時已經(jīng)與微軟DXR不謀而合。
說白了,加速光線追蹤,從DXR或者RT Core角度看來,就是層次化包圍盒BVH求交加速,亦或者三角形求交加速。
在圖靈Turing的RT Core每個周期中,BVH和三角形求交比重為4:1,也就是每完成4次BVH,在完成1次三角形求交,以實現(xiàn)三角形的命中。而在安培Ampere第二代RT Core中,NVIDIA又增加了1個三角形位置內(nèi)插模塊、1個三角形求交模塊,也就是說,在一個周期中,完成4次BVH,在完成2次三角形求交。
新增三角形位置內(nèi)插模塊,和追加三角形求交模塊其實有些大膽,在一個周期的BVH遍歷中照理說命中2個三角形的概率會下降。但慶幸圖像畫面是可預(yù)判的,特別是針對運動中的物體,2個新增的模塊可以更快的實現(xiàn)三角形求交。特別是在啟用運動模糊特效的前提下,安培Ampere RT Core性能整整提升了8倍!
如前面所言,第三代Tensor Core吞吐量提升了兩倍,核心數(shù)量實際上沒有增加,而是與NVIDIA A100的GA100看齊引入了稀疏化加速。在深度學(xué)習(xí)中,通過拋棄不必要的分支,在保證準(zhǔn)確度的前提下減少運算,從而獲得更高性能是可行的。
第三代Tensor Core支持細粒度模式下的50%稀疏化操作,這使得GA102的張量性能提升2倍。當(dāng)然這還需要游戲和軟件的支持和優(yōu)化,也因為更強大的Tensor Core,GeForce RTX 3090實現(xiàn)了8K分辨率畫面的流暢運行。
核心架構(gòu)之外,GA102引入了新顯存的支持,那就是GDDR6X。這是由美光和NVIDIA共同開發(fā)的GDDR6進階版。GDDR6X旨在通過在內(nèi)存總線上使用多級信令來實現(xiàn)更高的內(nèi)存總線速度,并獲得更大的內(nèi)存帶寬。
這種策略的好處美光可以繼續(xù)依靠可控的成本滿足NVIDIA新一代GPU對顯存提出的需求,而不是將成本花在高昂的HBM2上,畢竟消費者的錢包早已飽經(jīng)風(fēng)霜。
GDDR6X厲害的地方在于,能夠每個時鐘內(nèi)發(fā)出4個不同的信令,本質(zhì)上是每個時鐘內(nèi)實現(xiàn)2次位移,并且分成4級電壓階躍(4種信號電平),也就是在高速網(wǎng)絡(luò)中開始運用的PAM4信令技術(shù)。
這使得原本一個信號編碼只能用0和1表示,變成了如下圖這般四種編碼模式,即00、01、10、11。相反的,PAM4則需要更復(fù)雜的控制器來處理多信號狀態(tài)。
GDDR6X也并非沒有缺點,目前美光只生產(chǎn)8Gbit顆粒,密度與RTX 20系列相同。GeForce RTX 3080比RTX 2080多出2GB顯存,是因為RTX 3080使用了320-bit內(nèi)存總線,使用了10個8Gbit顆粒而非8個。因此RTX 3090想達到24GB顯存,就必須使用RTX 2080 Ti兩倍以上的顯存顆粒。
RTX 30系列除了支持PCIe 4.0之外,也引入RTX IO技術(shù)。這是一套在微軟DirectStorage API基礎(chǔ)上增加了更多壓縮算法的技術(shù)。它的實現(xiàn)原理有點類似即將發(fā)布的Xbox Series X主機,允許GPU直連存儲系統(tǒng),繞過CPU完成大部分操作,實現(xiàn)異步傳輸。
值得說明的是,RTX IO雖然基于DirectStorage API衍生而來,但是在安培Ampere架構(gòu)增加的算法能夠讓動輒上百GB的游戲有更快的加載速度。
在傳統(tǒng)的存儲協(xié)議中,硬盤數(shù)據(jù)需要通過CPU讀取、壓縮在傳遞給顯卡,而RTX IO則可以通過PCIe 4.0總線實現(xiàn)異步讀取操作。同時由于讀取的是壓縮數(shù)據(jù),帶寬少,從而也節(jié)約了傳輸資源。
這里NVIDIA用PCIe 4.0作為范例,一款讀取速度能夠高達7000MB/s的PCIe 4.0 SSD如果要完成數(shù)據(jù)實時解壓,需要24個CPU計算資源,而RTX IO則需要半個CPU就能實現(xiàn)。
傳統(tǒng)讀盤方式效率低下
RTX IO不僅速度快,CPU占用資源少
在演示DEMO中,NVIDIA使用了Marbles作為演示范例,壓縮數(shù)據(jù)搭配GPU解壓,完成時間只花費了1.61秒,而未壓縮數(shù)據(jù)搭配機械盤,則需要62.76秒才能完成,即使是24個CPU協(xié)同工作解壓數(shù)據(jù),也仍然需要5.02秒。RTX IO的優(yōu)勢高下立判。
更重要的是,DirectStorage API會在明年正式推出,相信Windows很快就會集成這個接口,如同DXR帶來實時光線追蹤技術(shù)一樣,DirectStorage API和RTX IO給游戲帶來秒讀盤的意義將會非常巨大?,F(xiàn)在這樣的優(yōu)勢已經(jīng)在即將發(fā)布的主機上開始展現(xiàn)了。
GeForce RTX 30系列擁有更多的晶體管數(shù)量的同時,使用了更高1.7GHz以上更高的頻率,這使得首發(fā)的RTX 30系列顯卡功耗都不低,其中GeForce RTX 3090功耗達到350W,RTX 3080也達到了320W。
NVIDIA官方表示安培Ampere的電源效率提高了1.9倍,如果按照紙面參數(shù)推論,假設(shè)GeForce RTX 3090性能提升了50%,那么功耗增加了25%,能耗效率應(yīng)該增加了20%左右。
更高的頻率和發(fā)熱量讓GeForce RTX 3090和RTX 3080在外觀上帶來了全面的改變。以RTX 3080為例,其PCB面積尺寸壓縮到了RTX 2080 SUPER的一半,并且使用了不規(guī)則的形狀,更高的元件密度勢必給布線帶來了更多的困難。
但這么做是有意義的。理由是NVIDIA首次在GeForce RTX 3090和RTX 3080上使用了前后雙風(fēng)扇系統(tǒng),后方被裁減掉的PCB作用是給后方的風(fēng)扇騰出向上出風(fēng)的位置。形成了類似下圖的機箱風(fēng)道:
這樣設(shè)計的優(yōu)勢也非常明顯,在同等320W功率下,RTX 3080的散熱和噪音均比RTX 2080更低,其中噪音降低了10分貝,溫度降低了20攝氏度。值得說明的是,RTX 2080 TDP為215W,圖靈Turing高功耗收益遠不如安培Ampere高。
而更厲害的是,RTX 3090使用了三槽散熱設(shè)計,同樣是雙風(fēng)扇,RTX 3090相對TITAN RTX噪音降低了20分貝,溫度降低了30攝氏度。
功耗提升也意味著游戲性能的提升,從安培Ampere開始,顯卡將原生支持HDMI 2.1輸出,最高支持8K 60Hz HDR,相對4K分辨率,理論上渲染質(zhì)量和幀率需要提升4倍性能。但從宣傳來看,RTX 30系列能做到2倍游戲性能提升已經(jīng)相當(dāng)厲害,那么NVIDIA是如何做到的?
答案就是DLSS 8K。
事實上顯卡只需要渲染2K,也就是2560x1440分辨率,通過AI和Tensor Core再將分辨率提升到8K。也就是說通過人工超級分辨率技術(shù)將珍格格游戲畫面分辨率提升了9倍。
至于畫質(zhì)是否有分別,NVIDIA在分享會中也提供了DEMO作為參考,可見DLSS 8K實際效果仍舊沒有讓人失望。
而在游戲幀率上,DLSS 8K實際運行幀數(shù)最高可以達到108FPS,平均可以達到70FPS以上。
此外,NVIDIA還針對開發(fā)人員準(zhǔn)備了一個重頭戲,叫RTXGI,也就是光線追蹤版的全局光照。
全局光照目的是通過一系列算法實現(xiàn)場景內(nèi)的逼真光照效果,包括折射、反射、滿發(fā)射、陰影。也就是說開發(fā)人員盡管確定光源,剩下交給軟件和GPU。
事實上RTXGI實現(xiàn)辦法與目前許多軟件的全局光照類似,通過場景設(shè)置階段布滿探頭Probe,他們相當(dāng)于射線反彈測試器,對各自發(fā)出的射線進行輻射和距離保存,最終用于全局光照。
如果游戲畫面需要達到光線追蹤的最佳畫質(zhì),單幀大概需要25萬次到40萬次取樣。而在RTX 3080中,RTXGI可以在0.5毫秒內(nèi)完成40萬次取樣,同時整個RTXGI過程需要的時間不會超過2毫秒。
目前這套技術(shù)已經(jīng)在Unreal Engine 4.25中開始采用,這意味著游戲開發(fā)人員無需耗費大量的時間手動放置探針塊,制造光線追蹤場景更為容易。也從而激發(fā)更多光線追蹤游戲誕生。
提升顯卡性能的另外一個話題繞不過電競,特別是第一或者第三人稱射擊游戲,NVIDIA一直堅定更高的幀率,更快的游戲響應(yīng)時間能夠換來更好的電競成績。NVIDIA給出了一套55ms、31ms和16ms的彈道散布圖,會發(fā)現(xiàn)16ms彈道更為集中,那么名為NVIDIA Reflex的技術(shù)變孕育而生。
NVIDIA Reflex是一套硬件和軟件結(jié)合的解決方案,它不僅包含顯示器刷新率,還包括了輸入輸出、CPU、GPU計算、渲染列隊等諸多影響。說白了,NVIDIA Reflex會在顯示器上安裝一個光學(xué)鼠標(biāo)按鍵檢測器,一旦發(fā)生鼠標(biāo)點擊,NVIDIA Reflex就會扔掉還在CPU等待渲染調(diào)用扔掉,將是業(yè)內(nèi)的渲染直接發(fā)給GPU,做到即刻渲染,即刻返回顯示器畫面。
這意味著整套解決方案中,需要對運算力擁有更高的性能冗余,NVIDIA Reflex正式給了你玩LOL也需要購買高端電腦配置,以及更新鍵盤鼠標(biāo)的理由。
與此同時,新版本的FrameView也擊中到了GeForce Experience中,同時NVIDIA也開發(fā)了LDAT和PCAT兩個套件幫助玩家進行系統(tǒng)延時的量化測試。
這里可以理解為NVIDIA在硬件利用上的新嘗試,通過通過電競切入點找到更多的商機乃至硬件聯(lián)盟。目前包括ROG、羅技、賽睿、MSI、雷蛇、ALIENWARE在內(nèi)的主流品牌已經(jīng)加入到了NVIDIA Reflex陣營。
與許多優(yōu)秀的硬件公司一樣,NVIDIA已經(jīng)逐步發(fā)展成硬件和軟件相輔相成的解決方案公司。以安培Ampere和GeForce RTX 30系列為契機,善用性能和人工智能帶來的福利,除了純粹的游戲幀率和畫質(zhì)提升,無論開發(fā)者、電競玩家、內(nèi)容創(chuàng)作者都會獲得更好的體驗,GPU的普適性又向上提升了一個臺階。
不過目前的淺析僅僅是安培Ampere的冰山一角,隨著未來評測和結(jié)構(gòu)的解禁,我們才有機會看到看到安培Ampere在消費領(lǐng)域的表現(xiàn)和全貌。不要走開,9月中旬首發(fā)評測就會正式放出,我們拭目以待。