時間來到了2025年末,DeepSeek發(fā)布了最新的V3.2模型,今年可謂是AI算力狂飆的一年,從生成式AI到醫(yī)學(xué)成像遠程AI問診等應(yīng)用,AI模型參數(shù)越來越大,各大大廠的大模型訓(xùn)練都在搶GPU。但是算力的盡頭是能源,像英偉達GB200這樣超級芯片帶來超算的同時產(chǎn)生巨大的能量消耗,迫使單機柜功率從10kW向100kW甚至更高邁進,其背后的能源基礎(chǔ)設(shè)施也面臨著極限壓力。如果說GPU是AI的大腦,那么電流就是流淌的血液,沒有精準(zhǔn)的監(jiān)測,算力巨人隨時可能因供血異常而倒下。

100kW是什么?
過去一個標(biāo)準(zhǔn)42U AI服務(wù)器機柜的功率通常在3kW-5kW左右,相當(dāng)于2臺家用掛式空調(diào)同時運行。現(xiàn)在的AI算力中心,AI大模型的訓(xùn)練需要多個GPU協(xié)同工作,隨著NVIDIA Blackwell(如GB200 NVL72)等架構(gòu)的問世,從下表(來源NVIDIA官網(wǎng))可以看出,僅Blackwell單個GPU功耗就達1200W以上,如果部署NVL36或者NVL72(72張GB200),整柜系統(tǒng)的TDP將直接飆升至70kW - 140kW(72×1.4kW=100.8kW)。用直觀的對比,一個100kW的機柜,其耗電量可以支撐50個普通家庭的日常用電。
特性 | Hopper | Blackwell | Blackwell Ultra |
制造工藝 | TSMC 4N | TSMC 4NP | TSMC 4NP |
晶體管數(shù)量 | 800 億 | 2080 億 | 2080 億 |
每個 GPU 的模具 | 122 NVFP4 | 稀疏性能 – 10 | 20 PetaFLOPS | 15 | 20 PetaFLOPS |
FP8 稠密型 | 稀疏性能 | 2 | 4 PetaFLOPS | 5 | 10 PetaFLOPS | 5 | 10 PetaFLOPS |
注意力加速 (SFU EX2) | 5 TeraExponentials/s | 10.7 TeraExponentials/s | |
最大 HBM 容量 | 80 GB HBM (H100) | 192 GB HBM3E | 288 GB HBM3E |
最大 HBM 帶寬 | 3.35 TB/s (H100) | 8 TB/s | 8 TB/s |
NVLink 帶寬 | 900 GB/s | 1,800 GB/s | 1,800 GB/s |
最大功耗 (TGP) | 高達 700W | 高達 1,200W | 高達 1,400W |
NVIDIA GPU 芯片比較
以前用交流電(AC)直接進機柜就行,現(xiàn)在 100kW 的功率如果還用低壓交流電,電流將高達幾百安培,線纜會像大腿一樣粗。為了減小損耗,AI 數(shù)據(jù)中心正全面轉(zhuǎn)向48V甚至更高壓的直流(DC)供電。在如此高功率、大電流、直流化的環(huán)境下,電流的微小波動都會被放大,任何一次電流檢測的失真,其代價都可能是百萬美金級的算力宕機。
AI算力配套設(shè)施各部位的電流檢測需求與技術(shù)選型
在100kW以上AI能源鏈路中,在液冷環(huán)境(這個必須)、高頻 DC/DC、GPU VRM以及7×24小時連續(xù)運行等機房運行條件下,電流檢測分布在“發(fā)電、配電、用電”的每一個節(jié)點,根據(jù)不同的環(huán)境需求,需要匹配最合適的檢測技術(shù):
能源供應(yīng)端
這是電能進入數(shù)據(jù)中心的第一道門,像GB200 NVL72這種130kW級AI機柜的主流供電是800V DC,母線電流I≈130000/800≈160A,訓(xùn)練負載突變時,達到200-300A并不罕見,于很多采用光伏+儲能+變電站組合供電,有的AI算力中心已經(jīng)部署在深山隧道里,而不是常見的普通機房。這種供電方式測量范圍極廣,并要求高可靠性和電氣隔離,所以霍爾電流傳感器成為主流,安裝方便,而羅氏線圈(Rogowski Coil) 針對交流大電流檢測,體積輕便,無磁飽和風(fēng)險,適合臨時監(jiān)測或空間極其狹小的變壓器輸出端。
UPS(不間斷電源)與直流屏
這部分屬于電源保障端,相當(dāng)于AI機房的“速效救心丸”,電力切換瞬間電流波動極大,因此要求傳感器具有較高的動態(tài)響應(yīng)和溫漂控制能力,選型上,閉環(huán)霍爾傳感器是首選,不缺錢的話可以選擇磁通門。閉環(huán)霍爾傳感器因其零磁通特性和高精度,響應(yīng)時間也很小,能確保在停電切換時系統(tǒng)不掉線。
PDU機柜配電單元
此部分是配電端,是100kW以上大功率進入機柜后的分流器,一個機柜可能有幾十個插槽,需要監(jiān)測每一路負載。選型主要有芯片級霍爾傳感器和分流器,如AN1V體積小,直接PCB安裝,適合高密度監(jiān)控。分流器成本低精度也高適合安裝在幾十安培的小電流支路上。

服務(wù)器電源(PSU)與 DC/DC 轉(zhuǎn)換器
此部分直接為GPU和CPU等高消耗部件供電,要求極高帶寬和低損耗,選型上可有:電流互感器(CT)用于交流側(cè)的高頻電流檢測;精密電阻(Shunt)+ 隔離放大器針對極小電流的精確采樣;功率級霍爾芯片:隨著GPU功率暴增,越來越多的電源模塊開始選用集成式霍爾方案,以解決分流器發(fā)熱導(dǎo)致的PUE超標(biāo)問題。
一張表總結(jié)電流監(jiān)測選型
| 部署位置 | 檢測對象 | 典型需求 | 推薦方案 | 理由 |
| 儲能/變電 | 總輸入電流 | 量程大、安全性 | 開口霍爾/羅氏線圈 | 安裝靈活,大電流+隔離強 |
| UPS/直流屏 | 備電電流 | 動態(tài)響應(yīng)、零漂移 | 閉環(huán)霍爾 | 響應(yīng)快,保護核心資產(chǎn) |
| 智能PDU | 支路電流 | 體積小、多路采集 | 芯片級霍爾/分流器 | 節(jié)省機柜空間 |
| 服務(wù)器電源 | 輸出電流 | 低損耗、數(shù)字化 | 集成霍爾芯片 | 降低發(fā)熱,優(yōu)化PUE |

總結(jié)
沒有最好,只有最合適,AI算力中心電流監(jiān)測選型方案也是一樣,在選擇合適方案之后,仍需注意幾點:
- 量程上要留足余量,比如額定電流160-200A,峰值300A,那么選擇量程300-500A的傳感器型號;
- 隔離耐壓是底線,800 V DC 系統(tǒng)隔離耐壓 ≥3kV RMS,爬電距離要滿足 IEC 62368;
- 看的是“長期漂移”,不是實驗室精度數(shù)據(jù),NVL72是7×24小時跑模型,不是實驗板。溫漂、老化、磁飽和裕量,這些比 0.1% 的標(biāo)稱精度更重要。
-
電流檢測
+關(guān)注
關(guān)注
14文章
692瀏覽量
42671 -
人工智能
+關(guān)注
關(guān)注
1817文章
50093瀏覽量
265251 -
霍爾電流傳感器
+關(guān)注
關(guān)注
3文章
428瀏覽量
15691 -
AI算力
+關(guān)注
關(guān)注
1文章
143瀏覽量
9855
發(fā)布評論請先 登錄
labview里的反饋節(jié)點如何讓每一次執(zhí)行循環(huán)都初始化一次?
請問有應(yīng)用于大功率(100kW以上)的數(shù)字電源參考設(shè)計電路嗎?
為什么每一次采樣出來得出的數(shù)字結(jié)果都差了3LSB?
上海推出新高功率光纖激光器 多橫模輸出功率可達100kW
億華通宣布大功率氫燃料電池發(fā)動機獲得國家驗收 功率可達100KW
AEG每一次的突破,只為帶來更人性的呵護
算力即國力,比克電池如何為AI時代“蓄能
【漲知識】“算力”是個啥“力”?
蒼穹之心:ER-QA-03A石英加速度計如何守護每一次飛行?
算力即電力:當(dāng)單機柜功率突破100kW,誰在守護AI心臟的每一次跳動?
評論