在本次獨家問答中,Vicor 認為,數據中心AI 機架的 ±400VDC配電是不可避免的。
你將了解的內容:
對更高計算密度的需求;
向新一代 AI/ML 超級計算的 ±400VDC配電發展;
向 ±400VDC分布式電源過渡的挑戰和解決方案。
盡管底層硅芯片的性能有了巨大的飛躍,但人工智能 (AI) 訓練仍在推動數據中心電力的突破。斯坦福大學最新的 AI 指數報告顯示,最先進的 AI 模型越來越大,現已達到高達 1 萬億個參數及 15 萬億個 Tokens。
因此,模型訓練需要更多的時間和資源(長達 100 天以及 380 億 petaFLOPS 或 PFLOPS),而訓練成本會繼續上揚(高達 1.92 億美元)。訓練一個這樣的模型需要多少電力?超過 2500 萬瓦。
亞馬遜、谷歌、Meta 和微軟等科技巨頭正在轉向核能,以滿足訓練和運行 AI 所需的巨大電力需求。但將大量可靠電力送入其龐大的數據中心只成功了一半。真正的問題出現在服務器機架本身的內部,其中電力電子產品正在與處理器、存儲器和網絡硬件競爭有限的空間。隨著功率密度的提高,有效管理這種內部配電正在成為一個關鍵問題。
數據中心的底層架構如何改變,才能走出 AI 電力困境?
首先,系統設計者正在大力提高計算密度,其在 EIA 標準的 19 英寸寬的數據中心服務器機架或 OCP 標準的 21 英寸寬的數據中心服務器機架中,可以采用每升 petaFLOPS 測量。單個 petaFLOP 相當于每秒 1 千萬億次浮點運算。
一個相關問題是:“為什么較高的計算密度有助于降低訓練這些大型 AI 模型的運營成本?”簡而言之,這是因為處理器之間的內存帶寬和非最佳時延是性能的瓶頸。大型模型訓練需要大量的低時延內存以及無阻塞“全對全”網絡架構(在 AI 集群或“超級群組”內支持數十個處理器的共享訪問)。
讓機架中的處理器、內存和網絡交換機物理距離更近,不僅可增加帶寬,而且還可縮短處理器之間的整體通信時延,從而可縮短 AI 模型的訓練時間。具體來說,由單個機架定義的較短距離有助于使用無源銅線纜替代有源光收發器,有源光收發器因嵌入的 Retimer 及 DSP,不僅成本更高,而且還非常耗電。
一款典型的 800G QSFP-DD 和 OSFP 收發器的功耗約為 15W。因為這些超級計算機使用數以萬計的光收發器,因此移除所有這些組件節省的電源和成本非常可觀,每個機架可節省高達 20kW 的電力。
從風冷轉向液冷機架級 AI 訓練系統,可實現計算密度的 4 倍增長。
采取哪些額外的措施在計算密度與電力及成本節省之間實現平衡?
新一代 AI 超級計算機已從風扇強制風冷發展至液冷。我再問自己一個問題:“這如何助力提高計算密度?”在上一代產品中,有八個處理器的每個托盤配備有十個 80 毫米的風扇和一個大型散熱器,其總共需要八個機架單元 (RU) 或每個機架單元一個 GPU 的計算密度。
下一代則通過薄水塊冷板采用直接液冷,每個 RU 托盤有兩個 CPU 和四個 GPU。這相當于每個機架單元四個 GPU 的處理器密度,進而提高了 4 倍。
液冷還可消除噪聲并降低這些系統中高速旋轉的 12VDC風扇所消耗的大量電力。此外,通過保持封裝外殼及硅芯片結點較低的溫度,直接液冷可延長 AI 處理器的平均故障間隔時間。據報道,該時間在風冷 AI 訓練系統中相對較短,會增加停機時間和運營成本。與風冷計算機系統相比,液冷計算機系統通常還能實現更高的時鐘頻率。這兩種結果均可減少 AI 模型的訓練時間和成本。
還有哪些方法可提高數據中心的計算密度?電力發揮著怎樣的作用?
在以往及當代 AI 服務器機架中,采用三相 480VAC(有時為 416VAC)機架配電,會將多達 30% 的機架空間用于 AC-DC 整流、針對 54VDC的 DC-DC 轉換,以及電池備份單元 (BBU)、電容器架和/或不間斷電源 (UPS)。
為了提高計算密度并高效應對功耗達 140kW 或更高的機架狀況,超大規模企業現在主張向新一代 AI 超級計算機機架的 ±400VDC配電發展。
將 AC-DC 整流和電池備份 (BBU) 功能從 AI 訓練機架中移除,有助于提高計算密度。
愿景是將整流、BBU 和 UPS 功能從 48 個 RU 機架中移除,騰出空間用于增設計算和網絡托盤。假設機架尺寸為:600 毫米寬、1068 毫米深和 2236 毫米高,這可實現 36 個 CPU 和 72 個 GPU 的計算密度,總計每 48 個 RU 約為 720 petaFLOPS。這種新的系統架構可將每升訓練性能的計算密度提高到約 0.5 petaFLOPS。
最重要的是,對更低成本、更高 AI 訓練性能的需求將推動計算密度發展,進而促進 ±400VDC配電的采用。
AI 服務器機架的 ±400VDC 配電如何降低系統功耗及成本?
數據中心現有的 480VAC配電通常會將 BBU 和 UPS 功能集中起來,提供大型 BBU/UPS 單元,其可通過配電單元 (PDU) 支持多個 AI/ML 機架。
這些獨立的二合一單元接收交流電,因此它們必須轉換為直流電,才能保持電池充電。此外,BBU/UPS 單元還必須將電池輸出轉換回 AC,而這種雙路轉換過程(先是 AC-DC,然后是 DC-AC)會降低電源利用效率并增加硬件成本。采用 ±400VDC配電,BBU 和 UPS 無需 AC-DC 整流功能。
AI 數據中心有哪些與 ±400VDC 配電相關的挑戰?
400VDC電壓并非安全超低電壓 (SELV) 等級,因此會帶來必須處理的安全監管問題。此外,為了保留 800VDC供電的運算選項,必須為每個機架鋪設三根導線(?400V、GND、+400V),這會增加成本。
Vicor BCM6135 系列電源模塊支持 800VDC及 400VDC至 54、50 或 48VDC的高效電壓轉換。
假設每個 AI 機架為 140kW,則這在 400VDC時為 350A,在 800VDC時為 175A。高達 350A 的電流可能需要 500MCM 規格的銅線纜(75°C 時,380A 的載流量),而 175A 的電流則可能需要 3/0AWG 的銅線(75°C 時,200A 的載流量)。用于 400VDC配電的 500MCM 規格的銅線纜每英尺成本約為 14 美元,而用于 800VDC配電的 3/0AWG 銅線纜則每英尺成本約為 5 美元。在大型數據中心,這種幾乎 3 倍的線纜成本差異是很大的。
成本增量有利于 800VDC配電,但 800V 生態系統沒有 400V 生態系統成熟,因為電動汽車使用 400VDC。然而,汽車制造商正在迅速向 800V 電池及 DC-DC 轉換器過渡,因此成本問題是發展變化的。
最大的挑戰之一是處理機架內的高強度電流。假設使用 1:8 固定比率 DC-DC 轉換器將 400VDC標稱電壓轉換為 50VDC標稱電壓,在 140kW 時,轉換會在 50VDC下產生 2,800A 的電流。這需要一根橫截面約為 1600 平方毫米的鍍銀銅母線,才能滿足風冷母線所需的載流量需求。該橫截面的 2.1 米長母線可能有 5μΩ 的電阻,假設機架功耗持續為 140kW,在 20°C、2,800A 下,母線的功耗可能高達 45W。
潛在的解決方案是什么,電力電子產品在這一轉變過程中發揮著怎樣的作用?
然而,不僅可使用現有機架內液冷基礎設施對垂直母線進行液冷,而且還可顯著縮小其風冷橫截面,最高可縮小 5 倍(電阻和功耗會隨溫度升高而增加)。這意味著可節省大量的成本和重量。
母線液冷還能更好地控制母線上的最大壓降。這不僅可縮小中間母線轉換器的輸入電壓范圍,而且還可降低 CPU/GPU 加速器計算模塊和網絡 ASIC 交換模塊的負載點穩壓負擔。請注意,在處理數千安培的載流量,以確保最小熱損耗時,選擇 50VDC連接器也會變得更加重要。
OCP 開放機架 V3 規范和 ORv3 高功率機架 (HPR) 規范是業界為解決當前及新一代 AI 超級計算機電源及熱工程帶來的工程挑戰而做出的努力。設計新一代 AI 超級計算機系統仍將涉及導航一系列復雜的工程及經濟權衡。
具有低熱阻與共面表面(可直接與液冷冷板配套)的高密度電源模塊將在實現 AI 超級計算機數據中心機架的高壓 DC 配電過程中發揮重要作用。
-
數據中心
+關注
關注
16文章
5547瀏覽量
74718 -
AI
+關注
關注
90文章
38413瀏覽量
297697 -
Vicor
+關注
關注
4文章
229瀏覽量
60479
原文標題:數據中心電力分解
文章出處:【微信號:Vicor,微信公眾號:Vicor】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
德州儀器如何滿足AI數據中心日益增長的電力需求
MPN541382-PV:替代VICOR停產與ADI、TI等品牌電源模塊的方案
氮化硼TIM材料解決AI數據中心的能效困境 | 晟鵬科技
氮化硼有“涼”方,解決AI數據中心的能效困境 | 晟鵬科技
睿海光電以高效交付與廣泛兼容助力AI數據中心800G光模塊升級
加速AI未來,睿海光電800G OSFP光模塊重構數據中心互聯標準
國民技術發布面向AI數據中心的3 kW數字電源參考設計方案
國民技術發布面向AI數據中心的3 kW數字電源參考設計方案
Vicor推出DCM3717和DCM3735 DC-DC電源模塊
適用于數據中心和AI時代的800G網絡
Vicor在臺灣推廣48V電源模塊:模塊化設計的市場競爭優勢
納微助力長城電源打造超高功率密度模塊電源,掀起AI數據中心“芯”革命
設計基于VICOR電源模塊的電源濾波器

Vicor電源模塊突破數據中心AI電力困境
評論