站長資訊網
        最全最豐富的資訊網站

        NVIDIA RTX 30系列架構詳解:8nm安培GPU的兩倍性能從何而來?

        在當前的顯卡市場上,占據80%的NVIDIA公司被玩家愛且恨著——他們帶來了最近十多年來最好的顯卡,同時也讓高端游戲卡的價格高企,發燒顯卡至少五位數起。

        在RTX 30系列顯卡發布之后,玩家的不滿似乎釋然了,相比當前的圖靈顯卡,安培架構的RTX 3090/3080/3070顯卡一下子變得真香了,因為它們性能翻倍不說,國內價格反而下降了。

        NVIDIA RTX 30系列架構詳解:8nm安培GPU的兩倍性能從何而來?

        ·GeForce RTX 3090:取代RTX Titan,相比于Titan RTX快了50%,性能是RTX 2080 Ti顯卡的2倍,配備24GB GDDR6X顯存,售價11999元,9月24日上市。

        ·GeForce RTX 3080:取代RTX 2080 Ti,相比于RTX 2080性能快2倍,搭配10GB GDDR6X顯存,海外699美元沒變,國內從上代6499降至5499元,9月17日上市。

        ·GeForce RTX 3070:價格不到RTX 2080 Ti的一半,但是平均性能更高,同時比RTX 2070快足足60%,配備8GB GDDR6顯存,售價3899元,10月份上市。

        NVIDIA RTX 30系列架構詳解:8nm安培GPU的兩倍性能從何而來?
        RTX 30系列顯卡售價及上市時間

        NVIDIA RTX 30系列架構詳解:8nm安培GPU的兩倍性能從何而來?
        RTX 30系列顯卡性能變化

        NVIDIA RTX 30系列架構詳解:8nm安培GPU的兩倍性能從何而來?
        RTX 30系列顯卡規格

        從這個規格表中可以看出,與RTX 2080 Ti顯卡相比,RTX 3090的標志性FP32性能從13.4T提升到了35.7T,翻倍還多,光追及AI加速提升也同樣明顯。

        與圖靈顯卡相比,安培GPU的變化之大讓人驚訝,在過去十多年的顯卡升級換代中,性能翻倍的提升很少見到了,NVIDA是怎么做到的?

        今天我們就來從詳細解讀一下安培GPU的架構,探究它到底帶來了哪些技術升級以致于讓NVIDIA創始人黃仁勛稱之為有史以來性能提升最大的一次。

        先從工藝說起:12nm干掉7nm之后 8nm如何再進一步

        對于半導體芯片來說,很關鍵的一部分是制程工藝,先進的架構也要通過工藝來實現,這是影響芯片能效、性能甚至成本的一大因素。

        對NVIDIA來說,他們的Volta伏特、Turing圖靈兩代架構都是臺積電12nm FFN工藝了,這是臺積電16nm工藝的改進版,如果再算上16nm的Pascal架構,實際上過去三代GPU都沒有重大工藝上的升級了。

        在Ampere安培架構上,NVIDIA終于升級工藝了,只不過這次有兩個意外——首先沒有選擇臺積電,其次沒有上7nm,而是三星定制的8nm工藝,雖然跟7nm看起來只差了1nm,但實際上是兩代工藝。

        考慮到NVIDIA之前對工藝的表態,沒用7nm工藝而是三星8nm工藝又在意料之中,最關鍵的問題在于NVIDIA能夠做到多好。

        NVIDIA RTX 30系列架構詳解:8nm安培GPU的兩倍性能從何而來?

        三星的8nm工藝是基于10nm工藝改良的,至少有LPP和LPU兩個版本,前者適合移動SoC,后者適合高性能芯片,NVIDIA的定制大概是基于后者。

        與臺積電的7nm工藝晶體管密度大約1億/mm2相比,8nm工藝大概是6000萬晶體管/mm2,但這是單一的SRAM芯片的對比,實際上GPU芯片比較復雜,差距會縮小很多。

        根據是NVIDIA公布的信息,臺積電7nm工藝制造的安培A100核心是540億晶體管,核心面積826mm2,而三星8nm工藝制造的GA102核心是280億晶體管,核心面積官方沒公布,據悉是628mm2,也是大核心了。

        這么算下來,7nm A100核心的晶體管密度6560萬晶體管/mm2,而三星8nm的GA102核心也有4460萬晶體管/mm2——差距仍在,但似乎可以接受了。

        三星8nm工藝的晶圓代工價格還是秘密,但是不論技術還是商業策略上,三星都會比臺積電便宜很多,預計代工價格能差30%或者更高,所以這也是RTX 30系列顯卡能夠不漲價甚至降價的關鍵。

        NVIDIA RTX 30系列架構詳解:8nm安培GPU的兩倍性能從何而來?

        那三星8nm工藝帶來了多大的性能及能效提升呢?首先大家可以看到RTX 30系列顯卡的頻率提升了,從RTX 20系列的1.5GHz+提升到了1.7GHz+,升級工藝還是有性能提升的。

        不過RTX 20系列的加速頻率實際可以達到1.9GHz甚至接近2GHz,RTX 30系列預計也就這個水平。

        但是能效還是有提升的,NVIDIA官方稱在60fps性能下,圖靈顯卡的功耗大約有240W,安培顯卡則是120W多點,算下來是1.9倍能效,提升了90%,同時溫度還低了3度,噪音減少2分貝。

        總的來說,在工藝這方面大家對安培GPU有驚喜有失望,失望的是沒有上預期中的7nm工藝(不管臺積電還是三星),工藝依然升級到了8nm。

        但是NVIDIA工藝雖然并不算激進,但性能、能效進步還是挺大的,安培顯卡各方面指標都是大幅勝過現在的圖靈卡,而且價格做到了不升反降,這也是不追求激進工藝的好處,反正之前12nm都能贏,現在上8nm更加穩妥了。

        安培GPU架構詳解之:FP32單元翻倍 CUDA核心改了什么?

        發布安培的時候,NVIDIA CEO黃仁勛表示這是GPU有史以來最大的性能飛躍,而2018年推出圖靈GPU時,老黃也是類似的說詞——GPU有史以來最大的變革,這兩個評價其實也沒錯。

        圖靈GPU架構有很多第一次,首次支持RTX Core(光追加速單元),首次支持Tensor Core,同時還改進了CUDA內核,不過前兩個是重點。

        NVIDIA RTX 30系列架構詳解:8nm安培GPU的兩倍性能從何而來?

        在安培GPU上,RT Core、Tensor Core當然繼續加強,不過最主要的亮點是CUDA架構的改進,性能翻倍的根源就在這里,我們先來看看這方面的變化。

        NVIDIA RTX 30系列架構詳解:8nm安培GPU的兩倍性能從何而來?

        NVIDIA RTX 30系列架構詳解:8nm安培GPU的兩倍性能從何而來?
        GA102核心架構示意圖

        GA102核心總計7組GPC單元,每組有12組SM單元,總計84組,RTX 30系列顯卡視乎規格不同啟用的SM單元總數不同,RTX 3090是82組,RTX 3080是68組,RTX 3070是46組。

        NVIDIA RTX 30系列架構詳解:8nm安培GPU的兩倍性能從何而來?

        在之前的GA100大核心中,每組SM是64個INT32單元、64個FP32單元及32個FP64單元組成的,但在GA102核心中,FP64單元大幅減少,增加了RT Core,Tensor Core也略微減少。

        NVIDIA RTX 30系列架構詳解:8nm安培GPU的兩倍性能從何而來?
        GA102核心的SM單元

        按照之前圖靈GPU的路線走,安培GPU的SM單元增加的并不多,但實際上FP32性能翻倍了還多,算上頻率,RTX 3080的理論性能差不多是RTX 2080的三倍了,這是怎么做到的?

        答案就是CUDA核心的FP32翻倍,但翻倍的方式有點特殊,每個SM單元中有4個分區,每個分區除了第三代Tensor Core核心之外,還有一組是16個FP32單元及16個FP32、16個IN32組成的單元,后者可以同時執行FP32或者INT32運算。

        16個FP32單元每周期可執行16個FP32運算,混合的那個單元可以執行32個FP32或者16個FP32+16個INT32。

        如此一來,每個SM單元可以同時執行4x(16FP32+16FP32)=128個FP32運算,或者4x(16FP32+16INT32)=64個FP32+64個INT32運算。

        只算FP32浮點的話,那么就是浮點翻倍了,因為圖靈以及GA100都是每周期64個FP32浮點而已,現在可以做128個FP32運算了。

        NVIDIA RTX 30系列架構詳解:8nm安培GPU的兩倍性能從何而來?

        提升FP32性能不論對游戲還是運算都大有裨益,但也需要配套的提升,GA102的L1容量提升了33%,L1帶寬從116GB/s翻倍到219GB/s,共享內存的性能也從每周期64B翻倍到128B。

        NVIDIA RTX 30系列架構詳解:8nm安培GPU的兩倍性能從何而來?

        安培GPU架構詳解之:RTX光追升級 從能用到好用

        上代的圖靈GPU架構最大的亮點就是引入了RTX實時光追技術,開啟了3D游戲的光追時代,意義重大。

        但是先行者的代價也不小,而且圖靈GPU的光追效果在實際游戲中并不明顯,對性能的影響頗大,第一代RTX光追只能說解決了有無問題,現在的安培GPU才是RTX光追更好用。

        NVIDIA RTX 30系列架構詳解:8nm安培GPU的兩倍性能從何而來?

        在圖靈GPU上,NVIDIA使用的第一代RT Core可以提供10Giga Rays/s的性能,而在安培GPU上,RT Core升級到了第二代,號稱性能翻倍,僅此一點就可以大幅提升光追性能了。

        NVIDIA RTX 30系列架構詳解:8nm安培GPU的兩倍性能從何而來?
        圖靈GPU光追架構

        NVIDIA RTX 30系列架構詳解:8nm安培GPU的兩倍性能從何而來?
        安培GPU光追

        不過這還不夠,在安培GPU上,參與光追應用加速的不只是SM單元、RT單元了,第三代Tensor Core單元也更多的參與其中,而安培架構中SM、RT、Tensor單元的性能都是大幅提升的,以RTX 3080為例,SM單元性能11T提升到了30T,RT性能從上代34T提升到了58T,Tensor性能從89暴漲到238T.

        NVIDIA RTX 30系列架構詳解:8nm安培GPU的兩倍性能從何而來?

        這帶來的一個結果就是光追性能大幅提升,不支持硬件加速的Pascal GPU渲染一幀要51ms,圖靈可以提升到19ms,加上DLSS等可以縮短到13ms,已經大大低于60fps所需的16.6ms幀時間了。

        NVIDIA RTX 30系列架構詳解:8nm安培GPU的兩倍性能從何而來?

        在安培GPU上,時間還可以更快,單純硬件加速就可以從13ms縮短到7.5ms,加上第二代技術的加成就只有6.7ms了。

        NVIDIA RTX 30系列架構詳解:8nm安培GPU的兩倍性能從何而來?

        總之,在RT光追性能上,不說沒有硬件加速的Pascal顯卡,對比RTX 2080到RTX 3080的變化,軟件渲染的性能提升了40%,硬件加速的話提升70%,硬件加速+DLSS也提升了70%,再加上其他技術的輔助,最高可以提升90%的光追性能。

        目前還沒有實際評測解禁,具體游戲中的提升還不好說,但是刨去官方測試的理想狀態,光追性能提升個50%應該無壓力,這足以讓當前的光追游戲更具實用性,不再是開了RTX性能就大幅下降的情況了。

        至于我們可以預期,以前1080p 30fps運行的光追游戲在今年可以實現1080p 60或者2K 144流暢運行了,可用性至少提高一個等級,從湊合能用變得更好用了。

        安培GPU架構詳解之:第三代Tensor Core、8K游戲成為可能

        Tensor Core是伏特GPU引入的一種新核心,現在也是SM單元的三大子核心之一,不過在數據中心GPU上,AI加速功能非常重要,所以A100大核心的Tensor Core占據了相當大的面積,功能及性能都改進不少。

        NVIDIA RTX 30系列架構詳解:8nm安培GPU的兩倍性能從何而來?

        在GA102核心中,Tensor Core也是第三代架構的,但是跟GA100核心的還是有所不同,每組SM單元也是4個Tensor Core,但是性能減半。

        但在游戲GPU上,Tensor Core的意義沒那么大了,NVIDIA官方的應用中DLSS算是發揮AI加速比較好的,可以進一步提升游戲性能,這一次雖然還是DLSS 2.0,但是配合RTX 3090顯卡強大的性能,8K DLSS游戲成為可能。

        NVIDIA RTX 30系列架構詳解:8nm安培GPU的兩倍性能從何而來?

        8K游戲的分辨率是4K的4倍了,是1080p的16倍,光是高分辨率帶來的挑戰就足以讓當前的高端硬件吃不消了,但在DLSS的加持下,RTX 3090在多款主流游戲中可以實現60fps以上的性能,最高可以超過100fps,可玩性已經不是問題。

        這大概就是Tensor Core對游戲的重要意義,不過我們得說8K現在還比較遙遠,性能跟上了硬件設備也跟不上,現在能玩好4K就差不多了。

        安培GPU架構詳解之:升級GDDR6X顯存 帶寬堪比HBM2

        除了GPU本體之外,顯存技術這一代也升級了,上代的圖靈GPU首發了GDDR6顯存,這一次NVIDIA又迅速商業化了GDDR6X顯存,其中RTX 3090不僅頻率飆上了19.5Gbps,還達到了24GB超大容量。

        NVIDIA RTX 30系列架構詳解:8nm安培GPU的兩倍性能從何而來?

        GDDR6X基于目前的GDDR6升級而來,基本架構和技術保持不變,重點加入了PAM4信令機制,在處理器和內存之間,使用四檔電壓,每個周期內編碼和傳輸兩個比特位。

        對于PAM4機制,大家可以理解為閃存從SLC到MLC的升級,每周期傳輸的數據量可以翻倍,因此實現了超高速率的等效頻率,起步就可以做到21Gbps,NVIDIA目前使用的略微保守,RTX 3090是19.2Gbps,RTX 3080是18Gbps。

        NVIDIA RTX 30系列架構詳解:8nm安培GPU的兩倍性能從何而來?

        使用GDDR6X顯存之后,在等效帶寬提升50%的情況下,能效也提升了,每bit功耗降低了15%。

        但是想象一下,如今GDD6X就可以實現HBM2顯存的1TB/s帶寬,但又不需要后者那么復雜的工藝和成本,在消費級顯卡上真的可以不需要考慮HBM2了

        NVIDIA RTX 30系列架構詳解:8nm安培GPU的兩倍性能從何而來?

        安培GPU架構詳解之:視頻解碼、接口、PCIe 4.0

        在安培GPU上,還有一些其他技術升級,這里簡單說一下吧:

        ·AV1視頻解碼升級 支持8K

        NVIDIA RTX 30系列架構詳解:8nm安培GPU的兩倍性能從何而來?

        8K是NVIDIA這次升級的一個重要,除了游戲性能可以支持8K之外,接口及解碼上也做了準備。

        首先,安培GPU更新的NVDEC首次實現了AV1的8K 60p解碼支持,這個編碼比H264能夠節省大量帶寬,但CPU軟解的話,9900K這樣的CPU占用率也要達到85%,而安培GPU的NVDEC硬解占有率只有4%,同時幀速能從28fps達到60fps,流暢度也提升了。

        ·首發HDMI 2.1接口、8K輸出

        NVIDIA RTX 30系列架構詳解:8nm安培GPU的兩倍性能從何而來?

        輸出接口方面,除了3個DP1.4a接口之外,這次首發了HDMI 2.1接口,支持4屏輸出,48Gbps的新接口可以實現8K 60Hz HDR支持,適合搭配新一代顯示器。

        ·支持PCIe 4.0 不用擔心性能損失

        RTX 30系列顯卡還支持了PCIe 4.0,這也是大勢所趨了,不過PCIe 4.0的問題在于只有AMD的X570平臺才能完整支持,Intel的桌面平臺還沒支持的,有些尷尬。

        玩家可以考慮搭配AMD的銳龍平臺,但也不必為了PCIe 4.0強行搭配,NVIDIA表示PCIe 4.0降回PCIe 3.0對性能影響有限,只有幾個百分點,還不如CPU的影響大,言外之意就是該用酷睿i9-9900K或者酷睿i9-10900K的繼續。

        游戲工具升級:Reflex、Broadcast、Omniverse Machinima

        這幾年中NVIDIA在顯卡市場份額不斷提升,不僅僅跟顯卡的性能、功耗有關,他們在軟件及體驗上也著墨不少,GFE中集成了多個備受游戲玩家歡迎的工具,比如Ansel、Highlights等等。

        在安培顯卡上,NVIDIA這次又帶來了三項新功能,包括降低延遲的NVIDIA Reflex、AI加速的直播NVIDIA Broadcast以及NVIDIA Omniverse Machinima。

        ·NVIDIA Reflex:延遲再降50%

        游戲玩家,特別是網絡游戲對延遲很敏感,這個延遲不僅僅跟網絡、顯卡性能有關,還跟系統有關,包括鍵鼠的輸入延遲等。

        NVIDIA RTX 30系列架構詳解:8nm安培GPU的兩倍性能從何而來?

        NVIDIA Reflex就是一款可以降低延遲的工具,在支持該技術的游戲中,如《Apex英雄》、《使命召喚:戰區》、《堡壘之夜》、《VALORANT》等熱門電競游戲,可將延遲降低50%。

        NVIDIA RTX 30系列架構詳解:8nm安培GPU的兩倍性能從何而來?

        此外,NVIDIA Reflex未來還會有個Reflex延遲分析器(Reflex Latency Analyzer),它可監測鼠標點擊,并測量屏幕上相應像素變化所需的時間,比如槍焰閃光,效果堪比超過7000美元的專用高速攝像機和設備。

        ·NVIDIA Broadcast:游戲主播的好幫手

        如今游戲跟直播息息相關,NVIDIA Broadcast軟件可以讓游戲主播更加輕松省力,它通過顯卡的AI加速實現了多種功能,比如噪音消除、虛擬背景、自動框顯,從而提升麥克風和網絡攝像頭的效果。

        NVIDIA RTX 30系列架構詳解:8nm安培GPU的兩倍性能從何而來?

        ·NVIDIA Omniverse Machinima:自己拍大片

        Omniverse Machinima一款引擎電影工具,它可以讓玩家利用游戲中的資源自己拍電影,精確地模擬光線、實物、材料和人工智能,并且可以適用于大部分第三方設計工具,如3DS、Max、Maya、Photoshop、Epic Unreal和Rhino等,最終使用RTX系列顯卡渲染出電影級的效果。它也是游戲開發商制作游戲CG的利器,顯著簡化制作游戲過場動畫的流程。

        NVIDIA RTX 30系列架構詳解:8nm安培GPU的兩倍性能從何而來?

        One More Thing:RTX IO或許是下一個規則改變者

        有關NVIDIA的安培GPU架構及技術上的介紹差不多了,不過最后這一點留給一個看似不起眼但有可能改變游戲體驗的新技術——RTX IO,它可以讓SSD硬盤實現游戲近乎實時加載的體驗。

        NVIDIA RTX 30系列架構詳解:8nm安培GPU的兩倍性能從何而來?

        SSD硬盤現在差不多普及了,它超快的性能也讓游戲玩家受益不少,游戲加載速度大幅提升,不過這還沒到頭,隨著游戲容量越來大,數據讀取越來越頻繁,SSD的性能并不能完美發揮出來。

        NVIDIA RTX 30系列架構詳解:8nm安培GPU的兩倍性能從何而來?

        導致這一問題的根源就在于傳統的IO設計,經過壓縮的游戲數據需要經過硬盤、主控、PCIe、CPU、GPU及各自的內存系統,過程比較繁瑣,存在瓶頸可能。

        NVIDIA RTX 30系列架構詳解:8nm安培GPU的兩倍性能從何而來?

        有了RTX IO之后,游戲數據就不需要經過CPU和內存了,直接讓GPU讀取,并且支持無損解壓縮,使得CPU占用率低了20倍,吞吐量提升了100倍。

        NVIDIA RTX 30系列架構詳解:8nm安培GPU的兩倍性能從何而來?

        最終帶來的好處就是游戲加載速度大幅提升,如上圖所示,不說HD硬盤的38秒加載時間,PCIe 4.0硬盤加速也要5秒,但RTX IO技術只要1.5秒即可。

        1秒多的時間在感覺上差不多就是實時加載了,一眨眼的功夫就完成了切換,游戲中地圖或者場景切換極為迅捷。

        NVIDIA的RTX IO技術其實跟新一代主機中的技術差不多,但支持更多的壓縮格式,同時在解壓縮上也更有效率。它也支持微軟的DirectStorage,后者預計也會在2021年登陸Windows 10平臺,讓主機及PC都能享受到這一技術。

        贊(0)
        分享到: 更多 (0)
        網站地圖   滬ICP備18035694號-2    滬公網安備31011702889846號
        主站蜘蛛池模板: 黑人精品videos亚洲人| 经典国产乱子伦精品视频| 精品国产乱码一区二区三区| 91精品一区二区综合在线| 亚洲综合精品一二三区在线| 国产成人精品久久亚洲高清不卡| 精品99又大又爽又硬少妇毛片| 人妻一区二区三区无码精品一区| 亚洲一日韩欧美中文字幕欧美日韩在线精品一区二 | 欧美日韩精品系列一区二区三区国产一区二区精品 | 亚洲av午夜成人片精品网站| 亚洲第一极品精品无码久久| 奇米影视7777久久精品| 国产成人精品亚洲日本在线| 国产日韩精品无码区免费专区国产| 午夜精品久久久久9999高清| 精品一区二区三区在线观看视频 | 精品国产一区二区三区免费| 精品无码国产一区二区三区AV| 亚洲欧美日韩国产精品一区二区| 国产女人18毛片水真多18精品| 在线人成精品免费视频| aaa级精品久久久国产片| 99精品视频在线观看免费| 国产精品无码无卡在线播放| 国产精品成人啪精品视频免费| 在线精品国产一区二区三区| 久久精品夜色噜噜亚洲A∨| 久久成人国产精品| 野狼精品社区| 亚洲无线观看国产精品| 久久国产精品-国产精品| 99热精品在线| 国产精品一二三区| 自拍偷在线精品自拍偷无码专区 | 国产成人精品日本亚洲专| 99久久人妻无码精品系列蜜桃| 国产香蕉国产精品偷在线| 88国产精品无码一区二区三区 | 精品久久久久香蕉网| 国精品无码一区二区三区在线 |