在剛剛結束的 2021 年架構日上,Intel 公布了全新的獨立顯卡架構 Xe HPG,基于該架構的首批 GPU 將采用臺積電 N6 工藝,于 2022 年第一季度上市。這是 Intel 從 1998 年發布 i740 以來,二十多之后再次踏入獨立 GPU 市場。

由于 Intel 的加入,獨立 GPU 的市場將再次變成“三國殺”的局面,從圖形圖像到 AI 和高性能計算,技術競爭和市場爭奪將全面升級。
從專用到通用
GPU 市場行情大好。根據市場研究公司 Jon Peddie Research 的報告,2021 年第一季全球 GPU 出貨量達 1.19 億顆,同比增長 38.78%,環比下降 3%。
雖然 Intel 在整體 GPU 出貨上占據了 68% 的市場份額,但是在獨立 GPU 方面,英偉達則以 81% 的份額占據絕對領先,而 AMD 以 19% 的占有率排名第二。據 JPR 的分析師預測,獨立 GPU 的出貨量還將繼續提升,到 2025 年將占整體 GPU 市場的 26%。
無論是云端、邊緣側還是終端,各種電子系統都需要高性能的圖像處理能力,GPU 的發展因此進入加速階段。獨立 GPU 因為用途廣泛,更是成為了大芯片中的佼佼者,架構和工藝都已達芯片業的頂峰。
英偉達在 2020 年發布的面向消費市場的旗艦級 GeForce RTX 30 系列 GPU,采用了三星 8nm 工藝,其中的 RTX3080 和 RTX3090,所包含的晶體管數目已經達到了 280 億個。與之對應,AMD 的 RX 6000 系列,采用了臺積電的 7nm 工藝,晶體管數目也達到了 268 億個。
頂尖的工藝和龐大的晶體管數目對應了越來越復雜的芯片架構。以目前最新的英偉達安培(Ampere)架構為例,其運算部份就包括了流處理器 (Stream Processor,SP)、紋理單元(Texture mapping unit, TMU)、張量單元(Tensor Core)、光線追蹤單元(RT Cores)、光柵化處理單元(ROPs)。
其中,在游戲中應用越來越多的光線追蹤技術由光追單元來負責,而將 GPU 帶入 AI 領域的則是張量單元,可用于實時深度學習、大型矩陣運算和深度學習超級采樣(DLSS)。這兩個單元的引入也將 GPU 的性能和作用完全提升,從圖形處理器升級成計算處理器。
為了追求性能的極致,獨立 GPU 之間的競爭因此就演化了成了架構之間的比拼。英偉達在 2020 年推出了安培架構,AMD 則回應了 RDNA 2 架構,使得其 RX 6000 在性能上可以與 RTX 30 一較高下。
有人將 GPU 架構的升級趨勢概括為“更多”、“更專”、“更智能”。晶體管數量和運算單元的增加是為多,其中包括流處理器單元、紋理單元、光柵單元等數量上升。“更專”是指除了常規的計算單元,GPU 還會增加新的運算單元。“更智能”是指 GPU 的 AI 運算能力上升。

這次 Intel 加入戰局也是有備而來,Xe 架構經過多年打磨而出,不但具備了時下最流行的各種元素,還使用了臺積電的 6 納米工藝,完全有實力與英偉達和 AMD 一較高下。
不過,有業內人士指出,Intel 還是一個基因屬于 CPU 的公司,而在 GPU 上的投入需要配合 CPU 的成長,因此處理好 CPU 和 GPU 之間的發展沖突將是一個很大的挑戰。
爭奪數據中心和更廣闊天地

2012 年,多倫多大學 Alex Krizhevsky 創建了能夠從 100 萬樣本中自動學習識別圖像的深度神經網絡。僅在兩塊 NVIDIA GTX580 GPU 上訓練數天,“Alex Net”就贏得了當年的 Image Net 競賽,擊敗了磨練幾十年的所有人類專家算法。認識深度學習的強大后,斯坦福的 Andrew Ng 與 NVIDIA 研究室合作開發了一種使用大規模 GPU 計算系統訓練網絡的方法。深度神經網絡技術從此迅速發展,也一舉奠定了 GPU 在 AI 領域的地位。
GPU 提供了多個并行計算的基礎結構,并且核心數較多,可以進行海量數據的并行計算,還擁有更高的訪存速度和很高的浮點運算能力。這一切都使得 GPU 完美契合了 AI 計算的需求。
當前,GPU 是 AI“訓練”階段較為適合的芯片。GPU 在 AI 時代的云端訓練芯片中占據較大的份額,達到 64.%。雖然后期由于 FPGA 以及 ASIC 技術的突破,GPU 的市場份額有所下降,但是仍然是云端訓練市場份額最大的芯片,2019 年-2021 年年復合增長率達到 40%。
這一切的起點就是 GPGPU 的應用。用于通用計算的 GPU 被稱為 GPGPU,可以與 CPU 協同工作,將一些大計算量的負載承接過來,以加速應用程序。
GPGPU 的概念始于學界,真正讓其發揚光大的還是英偉達。2006 年,英偉達推出了 Tesla 架構,把 GPU 中的矢量計算單元拆成了多個標量計算渲染單元,使其更適合通用計算。2007 年,英偉達又推出了 CUDA,專為 GPU 設計的并行計算平臺和編程模型。通過 CUDA 可以大大降低用 GPU 做通用計算的難度,因此大大降低了 GPGPU 應用的門檻。
當 CUDA 與深度學習相結合,更是釋放了 GPU 的巨大潛力,也讓 AI 從實驗室走入了業界。同時,GPU 也穩固了自己在數據中心的地位。
憑借 GPU 在數據中心的表現,英偉達的業績也一路走高。在 2022 年 Q1 財季,其數據中心業務營收為 20.5 億美元,創下公司歷史上的新紀錄,與上年同期相比增長 79%,與上一季度相比增長 8%,占總營收的比重已達 36%。
在此領域發力較晚的 AMD 現在也開始奮起直追。根據 AMD 首席執行官 Lisa Su 的說法,該公司第二季度數據中心 GPU 的銷售收入“同比增長了一倍多”。Lisa Su 將該細分市場的出色表現歸功于該公司 Instinct 加速器部署的增加,其中還包括其基于 CDNA 2 架構的最新數據中心顯卡的首次出貨。
現在,終于輪到 Intel 出手了。最新的面向數據中心的 GPU Ponte Vecchio 重磅出爐,擁有 1000 億顆晶體管的 SoC 也創下了 Intel 之最。
Ponte Vecchio 基于 Xe-HPC 微架構,由多個復雜的設計組成,這些設計以單元形式呈現,然后通過嵌入式多芯片互連橋接(EMIB)單元進行組裝,實現單元之間的低功耗、高速連接。這些設計均被集成于 Foveros 封裝中,為提高功率和互連密度形成有源芯片的 3D 堆疊。
“在 ASIC 和 FPGA 都在與 GPU 進行競爭的時刻,Intel 選擇了 GPU,說明 GPU 可能還是通用 AI 的最好選擇。”行業專家劉明(化名)這樣評論道。
這顆巨大的芯片也可以被看做是對英偉達推出數據中心 CPU 的反擊,雙方至此都形成了 CPU+GPU 的布局。
同時,英特爾還在發展其 oneAPI 計劃,使其成為 Nvidia CUDA 的強大競爭對手,因為它的范圍不僅限于 GPU,而且涵蓋 CPU 和所有處理器。
盡管獨立 GPU 不能完全取代 CPU,但是其已經成為數據中心中非常關鍵的一環。當三大芯片廠商都匯聚于此時,GPU 還會有更多精彩的故事。
特別提醒:本網信息來自于互聯網,目的在于傳遞更多信息,并不代表本網贊同其觀點。其原創性以及文中陳述文字和內容未經本站證實,對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本站不作任何保證或承諾,并請自行核實相關內容。本站不承擔此類作品侵權行為的直接責任及連帶責任。如若本網有任何內容侵犯您的權益,請及時聯系我們,本站將會在24小時內處理完畢。