AI 技術日益復雜,訓練與推理領域的新進展對數據中心提出了更高的要求。隨著數據中心算力的迅速提升,數據中心基礎設施逐漸受到了和算法和模型無關的基礎物理條件的限制,如電力供應、散熱能力以及空間限制等,制約了 AI 工廠的物理擴展。為了持續增長,在構建新的數據中心時,需要考慮通過遠程互連技術將這些計算資源池化在一起,實現協同服務于單一訓練任務或分離式推理工作負載。
傳統上,當采用基于通用商業芯片構建的遠程互連以太網來連接多個數據中心時,首要目標是確保數據能夠準確送達目的地。由于傳輸距離較長,延遲較高,導致網絡擁塞的概率顯著增加,其后果可能很嚴重。
為緩解這一挑戰并防止丟包,通用以太網供應商采用了深度數據包緩存作為解決方案,以此來吸收網絡流量的大規模突發,并已部署了這種方案。這種深度緩沖交換機雖適用于遠程服務提供商和電信應用,卻在 AI 應用中出現了問題。
特別是,基于深度緩沖交換機的高延遲是其天然的弊病,此外,當緩沖被填滿時,就必須進行排空。對于 AI 工作負載而言,這種情況發生的不可預測性,會導致大量的網絡抖動或數據傳輸波動。高延遲和這種網絡突發流量吸收技術帶來的不確定性,會影響訓練和分離式推理的性能,因為這些任務本質上是同步的,需要網絡提供穩定且可預期的傳輸表現。
本文介紹了面向跨區域網絡的NVIDIA Spectrum-XGS 以太網技術是如何實現不同數據中心之間的互連,并提供滿足 AI 應用所需的高性能。
什么是跨區域網絡?
跨區域網絡是一種新型的 AI 計算網絡互連架構,可被視為一個新維度,獨立于現有的縱向擴展和橫向擴展網絡。借助于跨區域網絡的 Spectrum-XGS 以太網,不同規模和不同距離的多個數據中心能夠被整合為一個統一的大型 AI 工廠,首次實現了在跨地域的多個獨立的數據中心之間運行大規模單 AI 訓練與推理任務所需的網絡高性能。

圖 1. AI 所需的三種網絡類型是縱向擴展、橫向擴展和跨區域擴展
NVIDIA Spectrum-XGS 以太網如何實現跨區域網絡擴展?
NVIDIA Spectrum-XGS 以太網是 NVIDIA Spectrum-X 以太網網絡平臺的一項新技術。它采用了同樣的 Spectrum-X 以太網交換機和 ConnectX-8 SuperNIC 硬件組合,以及和數據中心內橫向擴展網絡相同的軟件棧與通信庫。
借助 Spectrum-XGS 以太網,AI 工廠之間可實現長距離連接,如 500 米以上的連接,這意味著實現園區內不同建筑之間的連接,或者跨越數十乃至數百英里,實現跨城市、跨州乃至跨國之間的連接。為了支持這種跨區域擴展的連接需求,保障高效帶寬與性能隔離的算法也必須持續發展。
距離感知算法在跨區域網絡擴展中的作用是什么?
長距離傳輸數據面臨的主要挑戰之一是延遲的增加,即使數據以光的形式在光纖中傳播也是如此。數據在玻璃纖維中每傳輸 1 米需要 5 納秒,意味著每傳輸 1 公里需要 5 微秒。盡管這些數值看似微小,但在 GPU 之間的通信中,每微秒都至關重要。
Spectrum-XGS 以太網采用了改進的基于遙測技術的擁塞控制與動態路由算法,專門根據通信設備之間的距離進行了優化。在每次連接建立時,網絡會知道相互連接的兩臺設備是在數據中心內,還是跨越數據中心。
這有助于交換機確定動態路由負載均衡的最佳策略,并通知 SuperNIC 調整面向擁塞控制的數據注入速率。在網絡層面,這使得 Spectrum-XGS 以太網能夠高效處理通信,并避免額外延遲。
Spectrum-XGS 以太網技術在跨區域網絡方面具有多項顯著優勢,包括:
集成、統一的網絡架構:Spectrum-X 以太網橫向擴展和 Spectrum-XGS 以太網跨區域擴展均基于相同的硬件、軟件和通信庫。可以工作負載和網絡操作的統一管理,這是通用以太網無法實現的。
基于遙測的端到端擁塞控制:統一架構還支持全局網絡可視化。借助來自數據中心內外網絡的全面遙測數據,無需深度緩沖交換即可實現基于遙測的擁塞控制。
智能、自動調節負載均衡:Spectrum-X 以太網 AI 網絡具有距離感知和 NVIDIA 集合通信庫(NCCL)-感知功能,能夠感知和補償由位置而導致的不同網絡流量模式,并動態調整臨界值和限制,以確保最高的網絡性能。
更大限度地降低跨區域工作負載的延遲: Spectrum-XGS 以太網專為提供可預測的結果而進行了優化,這使網絡能夠感知和補償遠距離傳輸的數據流,最大限度地減少延遲損失,且不存在深度緩沖帶來的抖動風險。
彈性跨區域擴展能力:由于相同的硬件被用于橫向擴展和跨區域擴展,因此可以重新分配網絡資源以支持數據中心內或數據中心間的流量。通用的淺緩沖以太網交換機無法被用于遠程連接。
NVIDIA Spectrum-XGS 以太網有哪些性能優勢?
為展示 NVIDIA Spectrum-XGS 以太網對跨區域擴展性能的影響,NVIDIA 工程師在相距 10 公里的多點之間運行了 NCCL 測試,并將其結果與通用以太網進行了對比。如圖 2 所示,性能優勢十分顯著:

圖 2. 與通用以太網相比,NVIDIA Spectrum-XGS 以太網可將性能提升高達 1.9 倍
相較通用以太網,NVIDIA Spectrum-XGS 以太網可提供高達 1.9 倍的 NCCL All-Reduce 帶寬,特別是對于大消息,性能提升尤為顯著,而這正是 AI 訓練工作負載中的典型場景。NCCL 性能的提升有助于縮短 AI 應用的任務完成時間。
跨區域網絡如何提高AI 工廠的投資回報率?
NVIDIA Spectrum-XGS 以太網增強了 AI 基礎設施的靈活性。該技術使數據中心能夠在任意距離下實現高效通信,且不犧牲性能,從而構建出可在橫向擴展架構與跨區域網絡擴展之間共享的通用平臺。基于 Spectrum-XGS 以太網的多個以太網數據中心能夠被輕松整合為一個統一的整體,突破了地理位置的限制。
基于 Spectrum-XGS 構建的以太網數據中心能夠被無縫整合為單一系統運行,無論相距多遠。這使得關鍵任務型 AI 基礎設施可以高效池化數據中心資源,持續為復雜 AI 工作負載提供價值。
-
以太網
+關注
關注
41文章
5997瀏覽量
180796 -
數據中心
+關注
關注
18文章
5647瀏覽量
75008 -
AI
+關注
關注
91文章
39755瀏覽量
301350
原文標題:如何利用跨區域網絡將分布式數據中心連接成大型 AI 工廠
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
NVIDIA Spectrum-X以太網硅光技術助力AI工廠網絡創新
基于以太網芯片的應用層方案
NVIDIA擴大與微軟合作推動AI超級工廠建設
NVIDIA Spectrum-X 以太網交換機助力 Meta 和 Oracle 加速網絡性能
移植網絡PHY芯片驅動,如何融入 rt-thread 的網絡體系,并添加新的以太網類型的報文?
AD9574以太網 千兆以太網時鐘發生器技術手冊
NVIDIA推出全新硅光網絡交換機
Spectrum推出可由以太網控制的超高速GHz數字化儀
NVIDIA Spectrum-XGS以太網如何實現跨區域網絡擴展
評論