在近日召開的 GTC 2022 春季大會上,英偉達隆重發布了新一代以太網平臺 NVIDIA Spectrum-4。該平臺由 NVIDIA Spectrum-4 交換機系列、ConnectX-7 智能網卡、NVIDIA BlueField-3 DPU 和 DOCA 數據中心基礎設施軟件組成,能夠大幅加速大規模云原生應用。
作為全球首個 400Gbps 端到端網絡平臺,NVIDIA Spectrum-4 的單芯片交換吞吐量達到了51.2Tbps,比上一代產品高出 4 倍,能夠為規模大數據中心基礎設施提供超高的網絡性能和強大的安全性。由 Spectrum-4 加持的 SN5000 交換機,最高可以支持 128 個 400GbE 端口或 64 個 800GbE 端口。
為了實現更好的 AI 智能管理運維,NVIDIA Spectrum-4 還優化了 RoCE 網絡架構,并提供自適應路由(Adaptive Routing)和增強擁塞控制。其加密帶寬不但達到了令人驚嘆的12.8Tbps,而且還可以支持硬件級 MACsec 和 VXLANsec。這樣一來,搭載了 NVIDIA Spectrum-4 的數據中心不僅各種應用跑得更加暢快,而且在網絡與安全性能上也有了更加可靠的保障。
值得一提的是,考慮到不同企業的實際情況,NVIDIA 還為用戶準備了全系列的智能網卡,實現了從 10G 到 400G 速率的全覆蓋(10/25/40/50/100/200/400G),并且提供了包括 Cumulus Linux、Mellanox 系列產品在內的豐富網絡 OS、軟件及工具。英偉達收購 Mellanox 和 Cumulus Networks 所產生的巨大價值,也在 NVIDIA Spectrum-4 身上得到了極佳的展現。

全球以太網市場的三強聯姻
英偉達很早就意識到,再強大的算力也需要穩定可靠的網絡來提供支撐。因此要想在企業級市場打造端到端的產品和解決方案,強大的網絡能力可以說至關重要。
于是我們看到,在全球以太網市場一直處于領先地位的英偉達,先是在 2019 年 3 月斥資69 億美金,收購了全球服務器和存儲端到端連接解決方案的領先供應商 Mellanox。此舉不僅讓英偉達擁有了超高端計算環境下的網絡互聯能力,而且也在全球數據中心和 HPC 網絡市場占據了一席之地。
緊接著,英偉達又在 2020 年 5 月收購了全球知名的網絡軟件供應商 Cumulus Networks。這在強化英偉達自身網絡軟件實力的同時,還加速開啟了“軟件定義數據中心”的全新時代。
通過接連收購 Mellanox 和 Cumulus Networks,英偉達快速消化和吸收了這兩家企業強大的技術實力、產業資源與行業積累,使得這場舉世矚目的三強聯姻呈現出了“1+1+1>3”的效果。一家集超強算力以及強大端到端聯接能力于一身的全新英偉達,如今已蔚然成型。

WJH 讓運維管理更加智能
與當前市場上的同類產品相比,英偉達打造的網絡產品及解決方案不僅擁有超強的性能,而且還具備超強的智能,能夠顯著減輕網絡管理運維的工作負荷以及提升運營效率。而這些在網絡市場上獨樹一幟、“人無我有”的人性化智能設計,也成為了其產品最大的亮點。
以 WJH(What Just Happen,故障快照)為例,該技術是英偉達旗下以太網交換機獨有的一種網絡監控技術,內建在 ASIC 中提供線速數據流監控能力。其作用在于可對數據在網絡轉發過程中出現的各種事件進行精確的發現和定位,幫助網絡使用者和維護者快速發現和定位網絡中的故障和性能事件,從而提高對網絡的監控水平,為故障排除和改進設計提供切實和量化的依據。
作為一種先進的流式遙測(Streaming Telemetry)技術,WJH 技術的優點就在于:它基于事件驅動,通過硬件加速,只保存故障相關數據包以及相關細節。這樣既不會因為模糊統計采樣影響監控效果,也不會因為過度采樣而耗盡系統性能,做到了故障分析與性能運行“魚與熊掌兼得”,可以說是相當智能了。
舉例來說,當網管懷疑企業網絡出現問題時,就需要對采樣的數據包進行管理和分類,推斷問題發生的原因并加以解決。有經驗的網管想必都有過親身體驗:在面對大量數據包和缺乏精準信息的時候,這個排查過程往往需要耗費幾個小時甚至是幾天的時間。但是如今在 WJH 的幫助下,這類問題可能只需要幾分鐘就可以搞定。WJH 為網絡運維管理帶來的巨大便利,由此也可見一斑。

NetQ 讓網絡故障無處遁形
看到 NetQ 這個名字,熟悉它的小伙伴都能認出它其實就是業界好評如潮的 Cumulus NetQ,來自被英偉達收購的 Cumulus Networks。
與內建在以太網交換機里的 WJH 相比,作為一種分析工具軟件的 NetQ,可以被企業用來配合 WJH,收集并分析來自 WJH 的遙測數據,并且為用戶呈現可視化的分析結果。
事實上,NetQ 的功能還遠不止于此。通過遠程探針、主機代理進行采集與存儲,并分析和處理各類數據,NetQ 還可以實現全網可觀測性,讓企業得以更加直觀地發現和解決各類網絡故障。
舉例來說,當發現若干臺服務器之間無法通信時,網管往往需要查看各臺服務器的狀態與多種接口配置、BGP 會話、EVPN 地址族、VLAN 以及 VNI 映射等等,整個排查過程需要耗費的時間,從幾分鐘到幾個小時都有可能。然而借助 NetQ 的驗證和協議專用選項卡等功能,網管只需輕點幾下鼠標,僅用幾秒鐘就能找到故障原因。

NVIDIA Air 讓數字孿生大放異彩
“數字孿生”是當下炙手可熱的焦點話題,而 NVIDIA Air 則是一個創建網絡數字孿生的免費平臺,可以幫助企業創造物理網絡的 1:1 的模擬環境。

通過 NVIDIA Air,企業 IT 團隊可以在 1:1 的模擬環境中進行無硬件測試/培訓、生產部署預演、新功能的測試與驗證等各種操作。
對于企業來說,這種數字孿生模擬環境可以帶來諸多好處,包括縮短部署時間、減少網絡停機時間、降低實驗室成本、在等待硬件到達時減少對網絡硬件和構建的需求、提高創造力和協作能力(設計、監控、變更管理)、通過提供更多功能提高物理基礎設施的價值、模擬真實的基礎設施、持續集成……
在 NVIDIA Air 平臺誕生之前,企業要想搭建模擬環境是一件非常麻煩的事情,不僅搭建過程耗時耗力,而且測試成本也相當高昂。如今在 NVIDIA Air 的幫助下,企業可以非常輕松地搭建大規模的模擬環境,顯著降低測試成本,并將通過驗證的成功實踐部署到自己的生產環境中。
RoCE 打造一鍵式快速部署
傳統的以太網端到端 RoCE 部署,需要在所有路徑上的交換機和網卡添加大量的入出向Buffer,流控和 Qos 等配置,同時網工需要針對不同的企業流量模型和實時變化的業務流量來不停的調整buffer水線,以期達到最佳的 RoCE 無損網絡效果。同時當 RoCE 流量丟包或者性能下降后,傳統網工也是叫苦不迭,需要進行一臺臺設備排查來縮小范圍,耗時耗力。英偉達交換機結合十幾年的 RoCE 運維部署經驗和先進的動態 buffer 共享技術,可以幫助用戶輕松實現完整的端到端一鍵式 RoCE 部署和監控,徹底擺脫無損網絡帶來的高技術門檻。
用戶僅需要在交換機敲入”nv set qos roce”一條簡單命令便可輕松實現復雜的 RoCE 部署,并且通過一條 CLI 命令” nv show interface xyz qos roce counters”便可立刻收集到所有接口 RoCE 相關的流量統計,輕松掌控入向和出向的 buffer 水線情況,ECN 和 PFC 流控的報文收發情況。結合強大的 NETQ 智能網管平臺,用戶還可以通過圖形化界面來實時查看整網拓撲的端到端 RoCE 流量統計和 buffer 監控,輕松排查由于 buffer 利用率過載或是流控異常導致某臺交換機 RoCE 流量丟包情況。
結合英偉達先進的 ConnectX 智能網卡,和最新的 RTTCC 往返時間擁塞控制算法,還可幫助用戶在無需交換機配置情況下,快速實現零接觸 RoCE 部署,達到與傳統無損 RoCE 解決方案的相當的性能。
一個網絡新時代的開啟
通過前面列舉的多個范例,我們可以看到,英偉達在其網絡產品及解決方案中的諸多人性化的創新功能設計,不僅通過人工智能技術的深入融合實現了 AI 智能運維管理,而且給傳統的網絡管理運維模式帶來了本質的改變與全新的思路,顯著提升了管理運維的工作效率,大幅節省了網管的工作時間,降低了企業的經濟成本與開支。
英偉達提供的智能化網絡產品和解決方案,不僅可以將網管從繁重的管理運維工作中解放出來,而且還能夠為企業帶來多方面的裨益:企業可以將更多的資源與資金專注于核心業務的拓展;網管可以有更多的時間與精力學習和探索人工智能、深度學習等新興技術在業務中的應用與實踐,更好地提升技術能力、提高工作效率;企業網絡也可以在未來獲得更多的升級與提升空間……
可以預見的是,隨著越來越多人工智能與自動化技術,被深度融合到新一代的網絡產品及解決方案當中,一個明顯有別于傳統以太網的新時代正在徐徐開啟。

特別提醒:本網信息來自于互聯網,目的在于傳遞更多信息,并不代表本網贊同其觀點。其原創性以及文中陳述文字和內容未經本站證實,對本文以及其中全部或者部分內容、文字的真實性、完整性、及時性本站不作任何保證或承諾,并請自行核實相關內容。本站不承擔此類作品侵權行為的直接責任及連帶責任。如若本網有任何內容侵犯您的權益,請及時聯系我們,本站將會在24小時內處理完畢。