十多年來(lái),傳統(tǒng)的云數(shù)據(jù)中心一直是計(jì)算基礎(chǔ)設(shè)施的基石,滿足了各種用戶和應(yīng)用程序的需求。然而,近年來(lái),為了跟上技術(shù)的進(jìn)步和對(duì) AI 驅(qū)動(dòng)的計(jì)算需求的激增,數(shù)據(jù)中心進(jìn)行了發(fā)展。本文探討了網(wǎng)絡(luò)在塑造數(shù)據(jù)中心的未來(lái)和推動(dòng) AI 時(shí)代方面發(fā)揮的關(guān)鍵作用。
專用數(shù)據(jù)中心:AI 工廠和 AI 云
目前正在涌現(xiàn)兩類不同的數(shù)據(jù)中心:AI 工廠和 AI 云。這兩類數(shù)據(jù)中心都是為滿足 AI 工作負(fù)載的獨(dú)特需求而定制的,其特點(diǎn)是都依賴于加速計(jì)算。
AI 工廠旨在處理大語(yǔ)言模型(LLM)和其他基礎(chǔ) AI 模型等大規(guī)模算法模型,這些模型是構(gòu)建更先進(jìn) AI 系統(tǒng)的基礎(chǔ)模組。因此,為了實(shí)現(xiàn)擁有數(shù)千個(gè) GPU 的集群可以無(wú)縫擴(kuò)展和資源的高效利用,強(qiáng)大的高性能網(wǎng)絡(luò)勢(shì)在必行。
AI 云擴(kuò)展了傳統(tǒng)云基礎(chǔ)設(shè)施的功能,以支持大規(guī)模生成式人工智能應(yīng)用程序。生成式 AI 超越了傳統(tǒng)的 AI 系統(tǒng),它基于其訓(xùn)練的數(shù)據(jù)創(chuàng)建新的內(nèi)容,例如圖像、文本和音頻。管理?yè)碛袛?shù)千名用戶的 AI 云需要高級(jí)管理工具和網(wǎng)絡(luò)基礎(chǔ)設(shè)施,以便高效處理各種工作負(fù)載。
AI 和分布式計(jì)算
AI 工作負(fù)載具有計(jì)算密集型,尤其是涉及 ChatGPT 和 BERT 等大型復(fù)雜模型的工作負(fù)載。為了加速模型訓(xùn)練和對(duì)大量數(shù)據(jù)集的處理,AI 從業(yè)者已轉(zhuǎn)向分布式計(jì)算。這種方法涉及將工作負(fù)載分配到多個(gè)通過(guò)高速、低延時(shí)網(wǎng)絡(luò)連接的服務(wù)器節(jié)點(diǎn)上。
分布式計(jì)算是 AI 取得成功的關(guān)鍵,而網(wǎng)絡(luò)的可擴(kuò)展性和處理越來(lái)越多節(jié)點(diǎn)的能力至關(guān)重要。高度可擴(kuò)展的網(wǎng)絡(luò)使 AI 研究人員能夠利用更多的計(jì)算資源,從而更快、更出色地提升性能。
在為 AI 數(shù)據(jù)中心構(gòu)建網(wǎng)絡(luò)架構(gòu)時(shí),必須優(yōu)先創(chuàng)建以分布式計(jì)算為核心的集成解決方案。需要數(shù)據(jù)中心架構(gòu)師必須認(rèn)真考慮網(wǎng)絡(luò)設(shè)計(jì),根據(jù)他們計(jì)劃部署的 AI 工作負(fù)載的獨(dú)特需求定制解決方案。
NVIDIA Quantum-2 InfiniBand 和 NVIDIA Spectrum-X 是兩個(gè)專為應(yīng)對(duì) AI 數(shù)據(jù)中心的網(wǎng)絡(luò)挑戰(zhàn)而設(shè)計(jì)的網(wǎng)絡(luò)平臺(tái),每個(gè)平臺(tái)都有自己獨(dú)特的功能和創(chuàng)新。
InfiniBand 提升 AI 性能
InfiniBand 技術(shù)一直是大規(guī)模復(fù)雜分布式科學(xué)計(jì)算部署應(yīng)用的驅(qū)動(dòng)力。它已成為 AI 工廠網(wǎng)絡(luò)的事實(shí)標(biāo)準(zhǔn)。憑借超低延遲,InfiniBand 已成為加速當(dāng)今主流高性能計(jì)算(HPC)和 AI 應(yīng)用的關(guān)鍵。高效 AI 系統(tǒng)所需的許多關(guān)鍵網(wǎng)絡(luò)功能均原生于 NVIDIA Quantum-2 InfiniBand 平臺(tái)。
InfiniBand 的網(wǎng)絡(luò)計(jì)算是將基于硬件的計(jì)算引擎集成到網(wǎng)絡(luò)中,利用 NVIDIA Scalable Hierarchical Aggregation and Reduction Protocol(SHARP)(一種網(wǎng)絡(luò)內(nèi)聚合機(jī)制)。SHARP 支持多個(gè)并發(fā)集合操作,可將數(shù)據(jù)帶寬翻倍,以增強(qiáng)集群性能,卸載大量復(fù)雜的計(jì)算到網(wǎng)絡(luò)上來(lái)。
InfiniBand 自適應(yīng)路由能夠以最佳方式分散流量,從而緩解擁塞并提高資源利用率。在子網(wǎng)管理器的管理下,InfiniBand 會(huì)根據(jù)網(wǎng)絡(luò)條件選擇無(wú)擁塞的路由,從而在不影響數(shù)據(jù)包到達(dá)順序的情況下最大限度地提高效率。
InfiniBand 擁塞控制架構(gòu)可確保確定性帶寬和延遲。它使用三個(gè)階段來(lái)管理?yè)砣瑥亩乐?AI 工作負(fù)載中遇到性能瓶頸。
這些固有的優(yōu)化使 InfiniBand 能夠滿足 AI 應(yīng)用的需求,最終實(shí)現(xiàn)卓越的性能和效率。
在以太網(wǎng)中探索 AI 部署
為 AI 基礎(chǔ)架構(gòu)部署以太網(wǎng)產(chǎn)品首先需要滿足以太網(wǎng)協(xié)議的特定需求。但是,隨著時(shí)間的推移,為了滿足各種網(wǎng)絡(luò)場(chǎng)景的需求,以太網(wǎng)融入了非常廣泛而復(fù)雜的功能。
因此,開(kāi)箱即用的傳統(tǒng)以太網(wǎng)并非專為高性能而設(shè)計(jì)。使用傳統(tǒng)以太網(wǎng)絡(luò)搭建的 AI 云只能實(shí)現(xiàn)部署了優(yōu)化過(guò)以太網(wǎng)絡(luò)的 AI 云所能實(shí)現(xiàn)的一小部分性能。
在多個(gè) AI 作業(yè)同時(shí)運(yùn)行的多租戶環(huán)境中,性能隔離對(duì)于防止性能降低至關(guān)重要。如果出現(xiàn)鏈路故障,傳統(tǒng)以太網(wǎng)可能會(huì)導(dǎo)致 AI 集群性能減半。這是因?yàn)閭鹘y(tǒng)以太網(wǎng)主要針對(duì)日常企業(yè)工作流程進(jìn)行了優(yōu)化,而不是為了滿足那些依賴于 NVIIDA Collective Communication Library(NCCL)的高性能 AI 應(yīng)用程序的需求而設(shè)計(jì)的。
這些性能問(wèn)題是由傳統(tǒng)以太網(wǎng)的固有因素造成的,包括:
-
分立的交換機(jī) Buffer 架構(gòu),這可能會(huì)導(dǎo)致帶寬不公平
-
負(fù)載均衡缺乏針對(duì) AI 工作負(fù)載生成的大型流進(jìn)行了二次優(yōu)化
-
缺乏性能隔離而導(dǎo)致相鄰噪聲問(wèn)題嚴(yán)重
Spectrum-X 網(wǎng)絡(luò)平臺(tái)解決了這些問(wèn)題以及更多其他問(wèn)題。Spectrum–X 基于標(biāo)準(zhǔn)以太網(wǎng)協(xié)議構(gòu)建,支持 RDMA over Converged Ethernet(RoCE)協(xié)議,可提高 AI 的性能。Spectrum-X 網(wǎng)絡(luò)平臺(tái)利用 InfiniBand 原生的最佳實(shí)踐,并為以太網(wǎng)帶來(lái)了自適應(yīng)路由和擁塞控制等創(chuàng)新。
Spectrum-X 是唯一一款能夠?yàn)槎嘧鈶羯墒?AI 云提供高效帶寬和性能隔離的以太網(wǎng)平臺(tái),這得益于 Spectrum-4 和 NVIDIA BlueField-3 DPU。
總結(jié)
AI 時(shí)代已然來(lái)臨,而網(wǎng)絡(luò)是其成功的基石。為了充分發(fā)揮 AI 的潛力,數(shù)據(jù)中心架構(gòu)師必須仔細(xì)考慮網(wǎng)絡(luò)設(shè)計(jì),并根據(jù) AI 工作負(fù)載的獨(dú)特需求定制這些設(shè)計(jì)。解決網(wǎng)絡(luò)問(wèn)題是釋放 AI 技術(shù)潛力和推動(dòng)數(shù)據(jù)中心行業(yè)創(chuàng)新的關(guān)鍵。
NVIDIA Quantum InfiniBand 憑借超低延時(shí)、可擴(kuò)展性能和先進(jìn)的功能集,成為 AI 工廠的理想選擇。而 NVIDIA Spectrum-X 則憑借專為 AI 打造的技術(shù)創(chuàng)新,為構(gòu)建基于以太網(wǎng)的 AI 云的組織提供了突破性解決方案。
掃描下方二維碼,查看更多有關(guān)NVIDIA Spectrum-X 的信息。

掃描下方二維碼,查看更多有關(guān)NVIDIA Quantum-2 InfiniBand 的信息。

?更多精彩內(nèi)容 新的 MLPerf 推理網(wǎng)絡(luò)部分展現(xiàn) NVIDIA InfiniBand 網(wǎng)絡(luò)和 GPUDirect RDMA 的強(qiáng)大能力
借助 NVIDIA Spectrum 以太網(wǎng)最大限度地提高存儲(chǔ)網(wǎng)絡(luò)性能
使用 NVIDIA Spectrum-X 網(wǎng)絡(luò)平臺(tái)加速生成式 AI 工作負(fù)載
原文標(biāo)題:適用于數(shù)據(jù)中心和 AI 時(shí)代的網(wǎng)絡(luò)
文章出處:【微信公眾號(hào):NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
-
英偉達(dá)
+關(guān)注
關(guān)注
23文章
4086瀏覽量
99173
原文標(biāo)題:適用于數(shù)據(jù)中心和 AI 時(shí)代的網(wǎng)絡(luò)
文章出處:【微信號(hào):NVIDIA_China,微信公眾號(hào):NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
1分鐘帶你了解數(shù)據(jù)中心供電架構(gòu) #電子元器件 #數(shù)據(jù)中心 #供電架構(gòu)
CPO技術(shù)加速未來(lái)數(shù)據(jù)中心網(wǎng)絡(luò)發(fā)展
華為星河AI高算效數(shù)據(jù)中心網(wǎng)絡(luò)亮相ODCC 2025
睿海光電以高效交付與廣泛兼容助力AI數(shù)據(jù)中心800G光模塊升級(jí)
華為面向拉美地區(qū)發(fā)布全新星河AI數(shù)據(jù)中心網(wǎng)絡(luò)方案
中型數(shù)據(jù)中心應(yīng)用平臺(tái)與差分晶體振蕩器參數(shù)對(duì)照中型數(shù)據(jù)中心應(yīng)用平臺(tái)與差分晶體振蕩器參數(shù)對(duì)照
中型數(shù)據(jù)中心中的差分晶體振蕩器應(yīng)用與匹配方案
小型數(shù)據(jù)中心晶振選型關(guān)鍵參數(shù)全解
華為面向亞太地區(qū)發(fā)布全新星河AI數(shù)據(jù)中心網(wǎng)絡(luò)方案
華為面向中東中亞地區(qū)發(fā)布全新星河AI數(shù)據(jù)中心網(wǎng)絡(luò)
是德科技推出用于大規(guī)模AI數(shù)據(jù)中心的系列解決方案
適用于數(shù)據(jù)中心和 AI 時(shí)代的網(wǎng)絡(luò)
評(píng)論