2026年CES大會見證了NVIDIA Rubin問世,而微軟Azure數據中心(國際版)憑借前瞻戰略已實現全面對接。通過在散熱與網絡領域的超前布局,Azure(國際版)將系統化方法與Rubin架構深度整合,在AI超級工廠中消除了擴展瓶頸。這種從硬件到編排層的協同設計,確保了算力資源的高效利用,助力客戶在加速計算時代實現更快的部署與創新影響。
在2026年消費電子展(CES)上,NVIDIA Rubin 平臺重磅問世,而與之同時展現和驗證的,還有 Microsoft Azure(國際版)的部署就緒能力。微軟的遠瞻性數據中心戰略正是為這類時刻而設計,使 NVIDIA 的下一代系統可以直接嵌入我們的基礎設施。早在數年之前,我們就已超前預判行業趨勢,使基礎設施預先滿足了其對電力、散熱、內存和網絡的需求。而我們與 NVIDIA 的長期合作確保了 Rubin 能夠直接融入 Microsoft Azure(國際版)的前瞻性平臺設計。
01為未來而設計
Microsoft Azure(國際版)的 AI 數據中心專為加速計算的未來而設計。這使得 NVIDIA Vera Rubin NVL72 機架能夠無縫集成到 Microsoft Azure(國際版)最大的下一代 AI 超級工廠中,從威斯康星到亞特蘭大,無論是現有的 Fairwater 站點還是未來的新建項目,都能支持這一特性。
最新的 NVIDIA AI 基礎設施需要對電力、冷卻和性能優化進行重大升級,而Microsoft Azure(國際版)在 Fairwater 站點以及多年來多次升級周期中積累的經驗表明,我們有能力隨著技術的進步,靈活地增強并擴展 AI 技術基礎設施。
02更成熟的Azure 交付規模與性能
微軟在設計和部署可擴展 AI 基礎設施方面擁有多年經驗,并廣受市場驗證。隨著每一次AI 技術的重大進步,這些基礎設施也同樣在演進。通過與 NVIDIA 每一代加速計算基礎設施保持同步,微軟也在迅速整合 NVIDIA 的創新技術并實現大規模交付。
我們于早期大規模部署的 NVIDIA Ampere 和 Hopper GPU,通過 NVIDIA Quantum-2 InfiniBand 網絡連接,對 GPT-3.5 等模型的孵化與誕生也發揮了重要作用,并有其他集群創造了超級計算性能記錄,這證明了,相較于其他公司,我們能夠更快地讓下一代系統上線,并獲得更高的實際性能。
我們展示了 NVIDIA GB200 NVL72 和 NVIDIA GB300 NVL72 平臺的首次及最大規模實現,這些平臺以機架形式整合起了一套單一超級計算機,能顯著提升 AI 模型的訓練速度,幫助 Microsoft Azure(國際版)始終成為尋求先進 AI 技術能力的客戶首選。
03Azure 的系統化方法
Microsoft Azure(國際版)的設計旨在讓計算、網絡、存儲、軟件和基礎設施作為一個集成平臺協同工作。其構建的持久優勢,實現了成本與性能隨時間推移而持續累積的突破。
最大化 GPU 的利用率需要對這一系統中的每一層進行優化。除了 Microsoft Azure(國際版)能夠盡早采用 NVIDIA 新的加速計算平臺外,Microsoft Azure(國際版)的優勢還源自周邊平臺,例如高吞吐量的 Blob 存儲、受實際生產模式影響的鄰近放置組 (Proximity Placement Groups) 和區域級設計,以及針對大規模集群低開銷調度優化的 CycleCloud 和 AKS 等編排層。
Azure Boost 和其他卸載引擎解決了 IO、網絡和存儲瓶頸,使模型能夠平穩擴展。更快的存儲饋送更大的集群,更強的網絡維持其運行,而優化的編排則保持端到端性能的穩定。第一方創新強化了這一閉環:液冷熱交換單元可滿足嚴苛的散熱需求,Azure 硬件安全模塊(HSM)芯片卸載安全工作,Azure Cobalt 則為通用計算和 AI 相關任務提供卓越的性能和效率。這些集成共同確保了整個系統的高效擴展,使 GPU 投資發揮最大價值。
憑借這種系統化方法,Microsoft Azure(國際版)已全面對接 Rubin 平臺。我們正在交付的新系統及端到端平臺,在設計之初就已精準匹配 Rubin 的各項技術需求。
04運行 NVIDIA Rubin 平臺
NVIDIA Vera Rubin 超級芯片將提供每芯片 50 PF 的 NVFP4 推理性能,以及每機架 3.6 EF 的 NVFP4 性能,相比 NVIDIA GB200 NVL72 機架系統實現了五倍的性能躍升。
Microsoft Azure(國際版)現已納入了 Rubin 所需的核心架構假設:
?NVIDIA NVLink 的演進:Vera Rubin NVL72 系統中預期的第六代 NVIDIA NVLink 互聯帶寬達到約 260 TB/s 的縱向擴展帶寬,Microsoft Azure(國際版)的機架架構已經過重新設計,旨在充分發揮這些帶寬和拓撲優勢。
?高性能橫向擴展網絡:Rubin AI 基礎設施依賴于由 Microsoft Azure(國際版)網絡基礎設施提供的超快 NVIDIA ConnectX-9 1,600 Gb/s 網絡,該基礎設施專為支持大規模 AI 工作負載而構建。
?HBM4/HBM4e 散熱與密度規劃:Rubin 內存棧需要更窄的溫控區間和更高的機架密度;Microsoft Azure(國際版)的冷卻、電力范圍和機架幾何結構已經完成升級,以應對相同的約束。
?SOCAMM2 驅動的內存擴展:Rubin 超級芯片采用新的內存擴展架構;Microsoft Azure(國際版)平臺已經集成并驗證了類似的內存擴展行為,以在大規模環境下持續為模型提供數據。
?擴展 GPU 芯片尺寸及多芯片封裝:Rubin 轉向更大規模的 GPU 占用空間和多芯片布局。Microsoft Azure(國際版)的供應鏈、機械設計和編排層已針對這些物理和邏輯擴展特性進行了預調優。
Microsoft Azure(國際版)在設計 Rubin 等下一代加速計算平臺時的方法已在數年間得到證實,包括以下重要里程碑:
在多代 GPU 中運行全球最大的商業 InfiniBand 部署。
構建了可靠性層和擁塞管理技術,相比競爭對手釋放了更高的集群利用率和更大的任務規模,這體現在我們能夠發布行業領先的大規模基準測試結果上。例如,競爭對手從未復制過的多機架 MLPerf 運行。
從底層開始與 Grace Blackwell 和 Vera Rubin 共同設計的 AI 數據中心,旨在最大化集群層面的性能和單位成本性能。
05創新設計讓 Azure 脫穎而出
?Pod 交換架構:為了實現快速服務,Microsoft Azure(國際版)的 GPU 服務器托盤設計為可快速更換,無需大量重新布線,從而提高了運行時間。
?冷卻抽象層:Rubin 的多芯片、高帶寬組件需要復雜的散熱余量,但Fairwater 已經能夠應對這一挑戰,避免了昂貴的改造周期。
?下一代電力設計:Vera Rubin NVL72 要求不斷增加的功率密度,而Microsoft Azure(國際版)多年的電力重新設計(液冷循環修訂、CDU 擴展和高安培母線槽)確保了即時部署能力。
?AI 超級工廠模塊化:與其他超大規模云廠商不同,微軟構建的是區域級超級計算機而非單一的巨型站點,這使得新SKU 在全球范圍內的推出更加可控。
06將協同設計轉化為用戶利益
NVIDIA Rubin 平臺標志著加速計算向前邁出了重要一步,而 Microsoft Azure(國際版)的 AI 數據中心和超級工廠已經完成了能夠充分利用這一優勢的工程設計。
多年來在互聯、內存系統、散熱、封裝和機架規模架構方面與 NVIDIA 的協同設計,意味著 NVIDIA Rubin 可以直接集成到 Microsoft Azure(國際版)平臺而無需返工。NVIDIA Rubin 的核心假設也已經反映在我們的網絡、電力、冷卻、編排和 Pod 交換設計原則中。這種協同一致為客戶帶來了即時利益,讓他們在構建下一個大規模 AI 時代時,能夠實現更快的部署、更快的擴展和更早的影響力。
-
微軟
+關注
關注
4文章
6741瀏覽量
107846 -
NVIDIA
+關注
關注
14文章
5592瀏覽量
109711 -
Azure
+關注
關注
1文章
130瀏覽量
13685
原文標題:微軟Azure數據中心超前布局,全面對接NVIDIA下一代算力架構
文章出處:【微信號:mstech2014,微信公眾號:微軟科技】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
邁向吉瓦級AI工廠的能源變革:英偉達Rubin平臺電源架構解析
NVIDIA DGX SuperPOD為Rubin平臺橫向擴展提供藍圖
Supermicro宣布支持即將推出的NVIDIA Vera Rubin NVL72與HGX Rubin NVL8,并擴大機柜制造產能,提供更佳的液冷AI解決方案
微軟全新AI超級工廠Fairwater在亞特蘭大落成
科通技術亮相2025上海國際數據中心及云計算產業展覽會
微軟最新AI技術數據中心即將啟用
OpenAI Sora 2模型上線微軟Azure AI Foundry國際版
微軟Azure數據中心國際版全面對接NVIDIA Rubin平臺
評論