面向 GB200 NVL72 的液冷 PSU 設計:在極小空間內實現 15kW+ 功率輸出的拓撲優化
算力革命與超高功率密度電源的物理邊界
隨著生成式人工智能(Generative AI)和大語言模型(LLM)參數規模向萬億級別跨越,數據中心基礎設施的計算密度和能源消耗正經歷前所未有的指數級增長。NVIDIA 發布的 GB200 NVL72 機架級超大規模計算平臺,標志著數據中心架構從單節點服務器向“單機架即計算機”(Exascale Computer in a Single Rack)的根本性轉變 。
在 GB200 NVL72 的架構中,系統集成了 36 個 Grace CPU(采用 Neoverse V2 核心)和 72 個 Blackwell 架構的 GPU,配備了高達 13.4 TB 的 HBM3e 內存,并提供了 576 TB/s 的內存帶寬 。通過規模空前的 NVLink 交換系統(包含 9 個 NVLink Switch Trays),這 72 個 GPU 能夠以 130 TB/s 的全對全(All-to-all)無延遲帶寬作為一個統一的巨型 GPU 運行,從而提供高達 1.44 Exaflops 的 FP4 稀疏算力和 5,760 TFLOPS 的 FP32 算力 。
這種極端的算力堆疊直接打破了傳統數據中心的能源分配模型。現代高密度 AI 負載要求集群在訓練或推理期間維持極高的利用率,GB200 NVL72 機架的額定熱設計功耗(TDP)攀升至 120kW 至 132kW 之間,其峰值電氣設計功耗(EDPp,通常為 TDP 的 1.5 倍)更是高達 192kW 。在如此龐大的能量吞吐下,傳統的 12V 集中式配電架構由于 I2R 銅損呈平方級增長,已無法在有限的物理空間內完成電能的有效傳輸 。因此,數據中心全面轉向了 OCP(Open Compute Project)主導的 ORv3 54V(兼容 48V)高壓直流母線架構 。
在配電網絡(PDN)的演進中,留給電源供應單元(PSU)的物理空間被急劇壓縮。GB200 NVL72 整個機架的尺寸被嚴格限制在 2236mm(高)× 600mm(寬)× 1068mm(深)以內,其中絕大部分空間被 18 個 1U 高度的計算托盤(Compute Trays)、9 個交換托盤以及包含 5000 多根精密銅纜的 NVLink 銅纜背板所占據 。為機架提供電力的 Power Shelves(電源擱板)僅有 8 個 1U 高度的槽位可用 。傾佳電子力推BASiC基本半導體SiC碳化硅MOSFET單管,SiC碳化硅MOSFET功率模塊,SiC模塊驅動板,PEBB電力電子積木,Power Stack功率套件等全棧電力電子解決方案。?

基本半導體代理商傾佳電子楊茜致力于推動國產SiC碳化硅模塊在電力電子應用中全面取代進口IGBT模塊,助力電力電子行業自主可控和產業升級!
為了在 1U 的極致扁平空間內滿足 132kW 的基礎供電并實現 N+N 或 N+1 的系統級冗余,傳統的 3kW 或 5.5kW 電源模塊已無法滿足密度要求。電源行業正加速向單模塊 15kW 甚至 18kW 的輸出功率邁進 。例如,根據 OCP ORv3 標準,1OU 電源擱板的尺寸僅為 28.287 英寸長、21.142 英寸寬和 1.811 英寸高,卻需要容納多個并聯的整流模塊以提供 18kW 的直流輸出 。在此物理約束下,15kW PSU 的功率密度必須突破 100 W/in3,部分先進參考設計甚至達到了 137 W/in3 。要實現這一目標,僅靠傳統的硅(Si)基半導體和風冷散熱已觸及物理極限,必須在三相交錯拓撲、寬禁帶(WBG)半導體、磁集成技術以及頂部散熱(TSC)液冷結構等多個維度進行跨學科的深度協同與重構 。
| 參數項 | GB200 NVL72 機架級規格 | GB200 Grace Blackwell 超級芯片規格 |
|---|---|---|
| FP4 算力 (稀疏/稠密) | 1.44 Exaflops / 720 Petaflops | - |
| FP64 / FP64 Tensor Core | 2,880 TFLOPS | 80 TFLOPS |
| FP32 算力 | 5,760 TFLOPS | 160 TFLOPS |
| GPU 內存與帶寬 | 13.4 TB HBM3E / 576 TB/s | 372 GB HBM3E / 16 TB/s |
| CPU 核心與架構 | 2,592 核心 / Arm Neoverse V2 | 72 核心 / Arm Neoverse V2 |
| CPU 內存與帶寬 | 17 TB LPDDR5X / 14 TB/s | 480 GB LPDDR5X / 512 GB/s |
| NVLink 交換帶寬 | 130 TB/s (72-GPU 全對全) | 3.6 TB/s |
| 機架整體尺寸 | 2236mm x 600mm x 1068mm | 1U 計算托盤內嵌 2 顆 |
| 機架工作與峰值功耗 | 125kW - 135kW (額定) / 192kW (峰值) | 約 2.5kW - 2.7kW (單節點評估) |
表 1:NVIDIA GB200 NVL72 與單顆超級芯片的核心電氣與計算規格對比
先進高頻變換拓撲:從三相交流到 54V 直流的鏈路解構
在 15kW 的輸出功率等級下,單相交流輸入會導致嚴重的電網三相不平衡,并產生無法接受的中性線電流與輸入諧波。因此,符合電網規范的 15kW PSU 必須采用三相三線制或三相四線制交流輸入(如 380V/400V/480Vac)。電源架構由前級的三相功率因數校正(PFC)和后級的隔離型直流-直流(DC-DC)降壓變換器構成,這不僅是對電能的重塑,更是對效率與體積的極致博弈。

三相交錯無橋圖騰柱 PFC(3-Phase Interleaved Totem-Pole PFC)
傳統的三相有源前端(AFE)或交錯 Boost PFC 高度依賴于輸入側的全波整流橋。在 15kW 滿載工況下,輸入交流電流高達數十安培,傳統的硅整流二極管前向壓降(Vf?)會產生近百瓦的靜態導通損耗,這部分熱量在 1U 密閉空間內極難散去,直接封死了電源達到 97.5%(80+ Titanium/Ruby 級別)效率的可能 。
為了消除整流橋的導通損耗,無橋圖騰柱(Bridgeless Totem-Pole)PFC 成為必然選擇。該拓撲將高頻開關管與低頻整流管混合排列,交流輸入直接連接到開關橋臂的中點 。在 15kW 的高功率應用中,單相圖騰柱 PFC 面臨著極高的電感電流紋波和電磁干擾(EMI)挑戰。因此,現代設計采用了三相交錯(3-Phase Interleaved)架構 。交錯控制使得三個獨立的高頻橋臂以 120 度的相位差并行工作,不僅成比例地降低了單相器件的電流應力,還通過紋波對消效應(Ripple Cancellation)極大減小了輸入側和輸出母線側的濾波電容體積 。
在控制策略的維度上,AI 服務器的負載具有極端的動態跳躍性。為了在全負載范圍內維持最高效率,控制器(如采用 ARM Cortex-M 或 DSP 核心的實時微控制器,例如 G32R501 芯片)執行混合調制策略(Hybrid TCM/CCM Control Strategy)。
重載工況下的連續導通模式(CCM): 當 GB200 處于全速模型訓練時,PFC 運行于 CCM 模式。此時電感電流不歸零,電流紋波較小,從而有效控制了功率開關管(SiC MOSFET)的導通損耗(Irms2?×RDS(on)?)和高頻電感的磁芯飽和風險 。
輕載工況下的三角電流模式(TCM)或臨界導通模式(CrCM): 當 AI 節點處于待機或輕載推理時,開關損耗(Psw?)成為主導。此時控制環路切換至 TCM 模式,允許電感電流出現負向反沖,利用負電流抽走開關管輸出電容(Coss?)中的電荷,強制實現零電壓開通(Zero Voltage Switching, ZVS)。配合切相控制(Phase Shedding,即在輕載時主動關閉一個或兩個交錯橋臂),可消除冗余橋臂的驅動損耗與開關損耗,使得 15kW PSU 即使在 10% 負載下也能維持 96.5% 以上的轉換效率 。
高頻三相交錯全橋 LLC 諧振變換器與極限同步整流
PFC 級的輸出通常為 400V 至 800V 的高壓直流母線(DC-Link),需通過 DC-DC 級降壓并隔離至 54V 以供給下游的計算背板。對于 15kW 的功率吞吐,傳統的相移全橋(PSFB)由于變壓器漏感導致的占空比丟失和硬開關特征,無法滿足高頻高密度的要求 。
全橋 LLC 諧振變換器通過引入諧振電感(Lr?)、勵磁電感(Lm?)和諧振電容(Cr?)構成諧振腔,使得初級側開關管能夠實現全負載范圍內的 ZVS,次級側整流管實現零電流關斷(ZCS),從根本上消除了開關損耗 。為了承載 15kW 輸出(54V 側額定電流約 277A,峰值可達 300A 以上),單一諧振腔面臨著無法承受的次級電流有效值。因此,采用 Δ?Δ 或星型連接的三相交錯 LLC 成為最優解。三相交錯通過 120 度的相位交錯,不僅均衡了熱分布,更在次級側實現了完美的電流紋波對消,使得昂貴且占體積的大容量 MLCC(多層陶瓷電容器)的使用量降低 60% 以上 。
為了進一步壓縮變壓器體積,必須提升開關頻率。得益于第四代高壓氮化鎵(GaN)功率 IC(如集成驅動與保護的 GaNSafe 器件),其不存在反向恢復電荷(Qrr?=0)且開關速度極快,使得 LLC 的諧振頻率可以從傳統的 100kHz 推升至 300kHz 甚至 1.2MHz 。
在極高頻率和 270A+ 的次級電流下,次級同步整流(Synchronous Rectification, SR)的精確控制成為決定整個電源生死的關鍵。極小的死區時間誤差或不對稱的諧振電流,都會導致體二極管導通(引發嚴重發熱)或橋臂直通(引發爆炸)。為此,設計中引入了專用的高性能 SR 控制器(如 NXP 的 TEA1795T 或 TI 的 UCC24630)。這些集成電路具備專用的 VDS? 檢測引腳和極低的關斷延遲(Turn-off Latency < 30ns),能夠動態跟蹤變壓器次級波形的畸變,自適應調整驅動信號的寬度。尤其在 GB200 GPU 出現從 20% 到 150%(5A/us 甚至更高)的負載電流階躍瞬態時 ,SR 控制器能夠立刻啟動高速關斷電路,有效防止能量從 54V 母線向初級側倒灌的反向電流 。
高頻磁集成與矩陣變壓器設計
在 1U 尺寸的 15kW 電源中,磁性元件(PFC 電感、LLC 諧振電感和主變壓器)占據了最大的體積份額 。傳統的繞線式磁件在高頻下會由于趨膚效應(Skin Effect)和鄰近效應(Proximity Effect)產生極大的交流銅損(Rac? 顯著高于 Rdc?)。
為了實現 100 W/in3 以上的功率密度,15kW 電源廣泛采用基于印刷電路板(PCB)的平面變壓器(Planar Transformer)與矩陣磁集成技術 。通過將初級和次級繞組交替層疊(Interleaved Winding)于多層厚銅 PCB 中,不僅完美解決了高頻電流的集膚深度問題,還能精確且穩定地控制 LLC 拓撲所需的漏感(作為諧振電感 Lr? 使用,消除獨立電感體積)。
在三相交錯 LLC 中,進一步采用矩陣變壓器(Matrix Transformer)結構,將多個小型磁芯陣列化組合。通過巧妙的磁路設計,使相鄰變壓器磁腿中的高頻磁通量在相位相差的激勵下產生磁通抵消(Flux Cancellation)。這一物理現象極大地降低了核心磁芯的峰值磁通密度(Bmax?),從而成倍縮減了鐵氧體磁芯的截面積并降低了高頻鐵損。結合特定的原副邊法拉第屏蔽層(Faraday Shield)設計,該磁集成方案還能削減初次級之間的寄生電容,使得共模噪聲(Common-mode Noise)降低近 18 dB,從源頭上縮小了輸入端 EMI 濾波器的體積 。
寬禁帶半導體引擎:SiC MOSFET 的底層物理與參數解析
實現高頻、高壓、高功率密度電力電子變換的核心基石是寬禁帶(WBG)半導體材料 。在 15kW 三相輸入(如 480Vac)的應用中,前級圖騰柱 PFC 橋臂承受的峰值電壓和電壓應力常超過 700V 至 800V,這超出了 GaN 晶體管的經濟安全工作區,使得 650V 或 1200V 級碳化硅(SiC)MOSFET 成為絕對的主力 。
碳化硅材料憑借比傳統硅(Si)高 10 倍的擊穿電場強度和高 3 倍的熱導率,允許器件使用更薄的漂移區,從而在承受極高耐壓的同時維持極低的導通電阻(RDS(on)?)。以基本半導體(BASiC Semiconductor)的第三代(B3M 系列)SiC MOSFET 為例,其微觀器件結構與動態參數揭示了 WBG 半導體如何賦能 GB200 的極致供電網絡 。
溝槽柵與平面柵的耐溫博弈:熱穩定性考量
當前 SiC MOSFET 的晶圓制造工藝主要分為平面柵(Planar)和溝槽柵(Trench)兩大陣營。溝槽柵工藝(如英飛凌的 M1H 或羅姆的 G4 世代)通過將柵極刻蝕在半導體內部,消除了 JFET 區域的電阻,從而在室溫(25℃)下獲得了更低的品質因數(FOM)。然而,在 15kW 電源內部極高的熱流密度下,這種結構在高溫表現上存在隱患。
根據詳盡的靜態測試數據對比(參見表 2),對于 1200V/40mΩ 級別的器件:采用溝槽工藝的 Infineon IMZA120R040M1H,其 RDS(on)? 在結溫(Tj?)從 25℃ 升高到 175℃ 時,從 39mΩ 劇增至 77mΩ;ROHM 的 SCT3040KR(溝槽柵)也從 40mΩ 飆升至 78mΩ,阻抗惡化近一倍 。這種高溫下急劇退化的特性直接導致器件在持續大負載工作時電流額定值迅速下降,增加了熱失控(Thermal Runaway)的風險 。
相反,基本半導體 B3M 系列(B3M040120Z)采用優化的平面柵技術路線,其在 25℃ 時的導通電阻為 40mΩ,而在 175℃ 極端高溫下,僅溫和地上升至 70mΩ 。在 GB200 NVL72 這種滿載運行的緊湊型機架中,PSU 內部局部環境溫度極高,B3M 這種更加平緩的溫度系數意味著更穩定的導通損耗控制和更寬泛的安全工作區(SOA),為系統帶來了不可或缺的魯棒性 。
| 品牌與型號 | 工藝結構 | 標稱 RDS(on)? (@25℃) | 高溫 RDS(on)? (@175℃) | VGS(th)? (@25℃) | 品質因數 FOM (mΩ?nC) |
|---|---|---|---|---|---|
| BASIC (B3M040120Z) | 平面柵 | 40 mΩ | 70 mΩ | 2.7 V | 3400 |
| CREE (C3M0040120K) | 平面柵 | 40 mΩ | 68 mΩ | 2.7 V | 3960 |
| Infineon (IMZA120R040M1H) | 溝槽柵 | 39 mΩ | 77 mΩ | 4.2 V | 1521 |
| onsemi (NTH4L040N120M3S) | 平面柵 | 40 mΩ | 80 mΩ | 2.9 V | 3000 |
| ROHM (SCT3040KR) | 溝槽柵 | 40 mΩ | 78 mΩ | 4.0 V | 4280 |
表 2:業界主流 1200V 40mΩ 級 SiC MOSFET 核心靜態參數與高溫溫漂對比
寄生電容優化與兆赫茲級的動態損耗控制
在圖騰柱 PFC 高頻橋臂和 LLC 諧振變換的快速換流過程中,器件的動態電容(Ciss?、Coss?、Crss?)直接決定了開關瞬態損耗(Eon?、Eoff?)。通過精密的元胞布局和高階外延摻雜技術,B3M 系列極大地改善了米勒電容(Crss?,僅為 6 pF),提高了 Ciss?/Crss? 的比值。這種參數結構的優化不僅加快了充放電速度,更是在橋式拓撲中建立起極強的抗串擾(Crosstalk)能力,有效防止了由極高的 dv/dt 誘發的寄生導通風險 。
如表 3 所示的 800V/40A 雙脈沖測試(Double Pulse Test)結果表明,BASIC B3M040120Z 的關斷延遲時間(Td(off)?)僅為 35.52 ns,關斷損耗(Eoff?)為 162 μJ,開關邊沿極其陡峭(dv/dt 接近 60 kV/μs)。特別是在應對 PFC 橋臂硬開關(CCM 模式)或寄生體二極管續流時,B3M 表現出了極具優勢的反向恢復特性,其反向恢復電荷(Qrr?)被壓榨至僅僅 0.28 μC 。由于幾乎消除了少數載流子積聚問題,SiC MOSFET 使得 15kW PSU 的高頻化不再受限于開關熱障,從而支持整個電源模塊在 1U 空間內實現體積的大幅瘦身。
| 動態參數 (測試條件:VDS?=800V,ID?=40A) | BASIC (B3M040120Z) | CREE (C3M0040120K) | Infineon (IMZA120R040M1H) |
|---|---|---|---|
| 開通延時 Td(on)? (ns) | 12.4 | 14.7 | 14.4 |
| 上升時間 Tr? (ns) | 29.8 | 27.2 | 14.08 |
| 開通損耗 Eon? (μJ) | 663 | 630 | 600 |
| 關斷延時 Td(off)? (ns) | 35.52 | 50.87 | 39.36 |
| 關斷下降時間 Tf? (ns) | 10.8 | 13.4 | 14.0 |
| 關斷損耗 Eoff? (μJ) | 162 | 230 | 170 |
| 反向恢復電荷 Qrr? (μC) | 0.28 | 0.26 | 0.25 |
表 3:室溫 (25°C) 下雙脈沖動態開關性能橫向對比
經時擊穿(TDDB)與數據中心級的嚴苛可靠性
AI 數據中心的算力底座要求“永遠在線”(Always-on),任何 PSU 模塊的非預期宕機都可能導致正在進行的大模型訓練 Checkpoint 丟失或推理服務中斷 。這要求底層的 SiC MOSFET 具備極高的柵極氧化層本征可靠性 。
基本半導體針對其 B3M/B2M 系列進行了極其嚴苛的經時擊穿(Time-Dependent Dielectric Breakdown, TDDB)壽命外推預測。在 175℃ 的極限環境溫度下,通過向柵極施加極高電場應力(如 Eox?=9.2MV/cm,相當于 VGS?=46V)加速老化,數據證明該系列氧化層沒有發生早期失效。根據 TDDB 物理模型推演,在推薦的正常驅動電壓(VGS?=18V~20V)下,器件的失效前平均時間(MTTF)超過了 108 甚至 2×109 小時(大于 1.1 萬年至 22 萬年)。疊加針對高溫反偏(HTRB)、高溫高濕反偏(H3TRB)超過標準 4 倍時長(2500小時,1320V 應力)的加嚴測試,確保了即便在 GB200 液冷機柜 45℃ 進水溫度以及內部復雜熱應力交變環境下,器件的漏電流(IDSS?)和閾值電壓漂移仍牢牢控制在不足 5% 的安全范圍內 。
頂部散熱(Top-Side Cooling):打破封裝熱阻與寄生電感雙重壁壘
在確立了高效率拓撲與 SiC/GaN 半導體的電氣基礎后,如何將高頻開關產生的高密度熱量導入冷卻系統,成為 15kW PSU 設計中最棘手的工程難題。
在傳統的 TO-247(通孔插裝)或 D2PAK、TOLL 等底層表面貼裝(Bottom-Side Cooling, BSC)封裝中,熱流的傳導方向是向下的。熱量必須從半導體裸片(Die)向下穿越銅引線框架、焊料層,再強行穿過電源印制電路板(PCB,包括銅箔與絕緣 FR4 玻纖樹脂),最終到達底部的散熱器或冷板 。即使采用高導熱的金屬基板(IMS)或嵌銅 PCB,這種冗長的導熱路徑也會產生巨大的結到環境熱阻(Rth(j?a)?)。在 15kW 輸出下,單顆 SiC MOSFET 的發熱量可達數十瓦,PCB 介質層的熱阻會導致嚴重的局部熱點(Hotspots),進而引發熱失控 。
TOLT、T2PAK 等 TSC 封裝的革命性優勢
為了徹底移除 PCB 這一“熱絕緣體”,半導體行業(如 Wolfspeed、Infineon、onsemi、WeEn 等)在近年來大規模商用了頂部散熱(Top-Side Cooling, TSC)封裝技術,典型的代表如 TOLT(TO-Leaded Top-side cooling)、T2PAK 和 Q-DPAK 等 。
TSC 封裝在內部引線框架結構上進行了大膽的倒置倒裝設計(Die-up orientation),半導體裸片直接貼裝在封裝頂部裸露的金屬散熱焊盤上 。這種機械結構的翻轉帶來了三個決定系統功率密度的顛覆性優勢:
極速縮短熱傳導路徑,熱阻減半:頂部金屬直接涂抹熱界面材料(TIM)并貼合液冷冷板。熱量完全不經過 PCB,結到外殼(頂面)的熱阻(RθJC?)實現了極大幅度的下降。根據實驗驗證,相較于傳統的底層散熱 SMD 封裝,TOLT 或類似的 TSC 封裝將整個熱阻網絡降低了約 50% 。這使得 15kW 電源能夠在 1U 的扁平空間內,僅僅依靠單面冷板就能夠壓制數十顆高頻開關管的溫升。
解鎖 PCB 雙面利用率,極限壓縮物理體積:在傳統 BSC 設計中,PCB 的背面被巨大的散熱器占據,幾乎無法布置任何元器件。采用 TSC 封裝后,冷板置于器件上方,電源 PCB 的底層空間被完全釋放。電源工程師得以將厚重的磁性元器件、龐大的直流母線電容以及 TSC 功率器件布置在頂層,而將復雜的 DSP 實時控制器、低壓信號隔離驅動器(如 STGAP2SICS)、以及輔助電源模塊密集地布局在底層 。這種三維立體的空間利用率,是 15kW 電源模塊功率密度突破 100 W/in3 的物理保障 。
電源回路寄生電感的極致控制:傳統 TO-247 封裝擁有極長的引腳,會引入高達十幾個甚至幾十納亨(nH)的寄生電感。在高頻、高 di/dt 的開關瞬間,根據 V=L?di/dt 公式,這些電感會產生嚴重的電壓過沖(Voltage Overshoot)和高頻震蕩(Ringing)。TOLT 和 T2PAK 屬于低外形尺寸(Low-profile)的表面貼裝器件,引腳極短,并且大多配備了獨立的開爾文源極(Kelvin Source)引腳以解耦驅動回路與功率回路 。據高頻熱電耦合仿真與實測證實,基于 TSC 封裝的電源環路總寄生電感(Lloop,G?)可被輕易控制在 7nH 至 15nH 的極低水平 。這不僅賦予了 SiC/GaN 器件更平滑的開關軌跡,也極大減輕了針對高頻 EMI 濾波電路的設計壓力。
液冷冷板集成系統:微通道傳熱與熱機應力解耦
當高效拓撲、寬禁帶半導體與 TSC 封裝將熱量全部匯聚于電源模塊頂部后,最終決定 GB200 機柜能否穩定釋放 132kW 狂暴算力的關鍵,落在了冷卻分配單元(CDU)與模塊內部液冷冷板(Cold Plate)的流體力學與熱力學設計上 。
傳統的風冷數據中心通常依靠高速風扇強制空氣對流。然而,對于 15kW 的 1U 電源,空氣的熱容量和導熱系數實在太低,風扇必須以極高的轉速運行,不僅帶來震耳欲聾的噪聲,還會消耗高達整個數據中心電力 40% 的能源用于維持冷卻(PUE 極高)。液體(如去離子水與乙二醇的混合液)具有比空氣高數十倍的導熱系數和數千倍的體積比熱容 。因此,GB200 NVL72 徹底拋棄了系統級風扇,采用全封閉的直接芯片級(Direct-to-chip, DLC)與電源級液冷循環架構 。
強化換熱:微通道與微針翅冷板設計
15kW 電源的頂部被一塊精密加工的金屬冷板所覆蓋,所有發熱劇烈的元件(包括 TSC 封裝的 SiC/GaN 器件和矩陣變壓器的磁芯表面)都緊貼其下 。根據牛頓冷卻定律(Newton's law of cooling):
q=hA(Ts??Tf?)
要帶走 15kW 變換過程中產生的數百瓦熱損耗(以 97.5% 效率計算,熱損耗約為 375W)并保持較低的表面溫度(Ts?),必須從換熱面積(A)和對流換熱系數(h)入手 。
現代冷板摒棄了傳統的粗通水管路,內部采用高精度的微通道(Mini-channels)或微針翅(Pin-fin)結構 。例如,采用蛇形流道(Serpentine flow channel)或梳狀分流道,將流體的宏觀流動切割成無數微細流束,極大地放大了固液接觸面積 A 。同時,狹窄的通道迫使冷卻液以高雷諾數(Reynolds number)流過,徹底破壞了熱邊界層,使對流換熱系數 h 呈幾何級數躍升 。
這種極致的換熱能力,使得 Powerland 等先進制造商的 15kW 液冷電源能夠支持高達 45°C 的溫水進水冷卻(Warm Water Cooling)。溫水冷卻不僅省去了數據中心昂貴的壓縮機制冷(Chiller),允許直接使用冷卻塔或自然環境空氣(Free Cooling)將熱量排入大氣,極大地降低了 PUE 和碳足跡 ,而且在 45°C 的惡劣進液條件下,電源依然無需做任何降額(De-rating)處理,能夠全天候滿負荷輸出 15kW 能量 。
界面熱機解耦:Liquid Gap Filler 的應用
冷板與 TSC 功率器件之間的物理接觸并非絕對平滑,存在微觀的粗糙度和高度公差。必須填入熱界面材料(TIM)以排空絕熱的空氣隙 。
在早期的高密度設計中,常使用高導熱的硅膠墊片(Gap Pads)。然而,墊片往往需要數十磅的機械壓力才能發生形變以實現低接觸熱阻 。在 15kW PSU 內部,多個 SiC MOSFET 呈陣列狀排列,巨大的螺絲壓緊力會傳遞至下方的 PCB 絕緣層。考慮到 PCB 在承載 270A 巨幅交變電流時本身就會產生內部焦耳熱和膨脹,額外的硬性機械壓力極易導致 PCB 發生不可逆的翹曲(Warpage),拉斷層間過孔,甚至擠裂脆弱的半導體裸片 。
因此,面向 GB200 的高可靠性要求,液態導熱間隙填充材料(Liquid Gap Filler)被廣泛采納 。這種聚合物在點膠時呈現流體狀態,能夠以極低的壓力完美填充冷板與 TOLT 器件頂部的所有不規則微隙,隨后在常溫或加溫下固化成具有一定彈性的導熱層。它不僅實現了遠優于厚墊片的極低熱阻,更在機械力學上徹底解耦了冷板的剛性應力與 PCB 的形變應力,確保了系統在成百上千次高頻熱循環(Thermal Cycling)后的力學完整性 。
CDU 架構、盲插與容錯防漏液機制
在 GB200 NVL72 機架級別,多臺 15kW 電源并聯插入背部的匯流排(Busbar)上,并與機柜級流體歧管(Manifolds)相連。整個系統由機架內的 4U 尺寸、容量高達 250kW 的冷卻液分配單元(CDU)驅動,采用冗余的雙熱插拔水泵維持流體循環 。
由于 54V 母線和水路緊密耦合,任何微小的冷卻液滲漏都將導致災難性的拉弧或短路。因此,15kW 液冷電源不僅采用了具備自密封防滴漏功能的液冷盲插接頭(Blind-mate fluid connectors),方便運維人員在不停機狀態下進行熱插拔(Hot Swap)替換,更在機箱內部署了高靈敏度的漏液檢測傳感器網絡 。
這些傳感器實時監測模塊底部的液體積聚情況或濕度異常,并將數據接入 OCP 標準的電源控制管理協議(如 PMBus 或是 DMTF Redfish API)中 。一旦發生泄漏微兆,微控制器能夠以毫秒級的速度封鎖 PFC 和 LLC 驅動脈沖,主動切斷內部斷路器(E-Fuse),并通過機架管理控制器(RMC)關斷該電源支路的水閥,從而將故障物理隔離,確保整個 192kW 算力機架的安全運行不受影響 。
結論:軟件定義與全數字化前饋控制的最終閉環
要在這個高度集成的 1U 空間內,使三相 PFC、高頻 LLC、微通道冷板與碳化硅晶體管和諧共舞,最后不可或缺的是全數字化的高階控制大腦 。
在 AI 大模型訓練(如使用 Mixture-of-Experts 架構)或高吞吐量推理過程中,GB200 超級芯片的負載不是平穩的,而是呈現劇烈的脈沖式階躍特性(例如,電流在數微秒內從數十安培暴增至滿載)。這種極端的 di/dt 瞬態沖擊對 15kW 電源構成了嚴峻考驗。通過部署高性能的實時多核 DSP(如基于 C2000 或類似架構的數字電源控制器),15kW PSU 實施了具有預測能力的前饋控制(Feed-forward Control)策略 。控制器能夠以納秒級的 ADC 采樣率監測 54V 母線電壓的微小跌落,并在下一個開關周期立即提高 PFC 占空比并調低 LLC 諧振頻率。這種快速的能量前瞻性注入,結合并聯系統高精度的下垂均流(Droop Current Sharing)算法,使得 4 臺并聯的 15kW 電源能夠像單一實體一樣穩定輸出 60kW 級的不間斷直流能量 。
面向 NVIDIA GB200 NVL72 的 15kW+ 液冷 PSU 設計,并不是對傳統服務器電源的簡單按比例放大。它是一場融合了寬禁帶半導體底層材料科學(SiC 零反向恢復與高溫穩定性)、三相無橋交錯拓撲電磁學(ZVS 軟開關與矩陣磁集成)、三維結構工程學(TSC 頂部散熱與液態界面材料)以及工程熱物理學(微通道高雷諾數換熱)的系統級顛覆。正是這些跨學科突破的緊密交織,才使得人類能夠將 15kW 的澎湃動力塞入僅僅 1U 的狹小金屬匣中,為未來通向通用人工智能(AGI)的百億億次計算宏偉藍圖,筑牢了不可撼動的能量基石。
審核編輯 黃宇
-
電源
+關注
關注
185文章
18925瀏覽量
264202 -
PSU
+關注
關注
0文章
55瀏覽量
12513
發布評論請先 登錄
從AI模型到智算中心視角看真正的超節點系統
英偉達Rubin平臺引入微通道冷板技術,100%全液冷設計
Supermicro宣布支持即將推出的NVIDIA Vera Rubin NVL72與HGX Rubin NVL8,并擴大機柜制造產能,提供更佳的液冷AI解決方案
1.6 kW Titanium PSU:高效服務器電源解決方案
明德源能數據中心(N+1)2架構200kW一體化UPS重磅發布
電壓放大器在芯片散熱驅動液冷系統實驗中的應用
200W 以上功放芯片應用介紹和發展趨勢
Supermicro開始大批量交付NVIDIA Blackwell Ultra系統和機架即插即用數據中心級解決方案
偉創力專為英偉達打造的電源架系統有何亮點
可編程電源有哪些溫度控制措施?
總功率超198kW,AI服務器電源對元器件提出了哪些要求?
高密度ARM服務器的散熱設計
200 kVA/L逆天功率密度!穩定輸出600kW!這款逆變器是怎么做到的?
面向 GB200 NVL72 的液冷 PSU 設計:在極小空間內實現 15kW+ 功率輸出的拓撲優化
評論