時間來到了2025年末,DeepSeek發(fā)布了最新的V3.2模型,今年可謂是AI算力狂飆的一年,從生成式AI到醫(yī)學(xué)成像遠(yuǎn)程AI問診等應(yīng)用,AI模型參數(shù)越來越大,各大大廠的大模型訓(xùn)練都在搶GPU。但是算力的盡頭是能源,像英偉達(dá)GB200這樣超級芯片帶來超算的同時產(chǎn)生巨大的能量消耗,迫使單機(jī)柜功率從10kW向100kW甚至更高邁進(jìn),其背后的能源基礎(chǔ)設(shè)施也面臨著極限壓力。如果說GPU是AI的大腦,那么電流就是流淌的血液,沒有精準(zhǔn)的監(jiān)測,算力巨人隨時可能因供血異常而倒下。

100kW是什么?
過去一個標(biāo)準(zhǔn)42U AI服務(wù)器機(jī)柜的功率通常在3kW-5kW左右,相當(dāng)于2臺家用掛式空調(diào)同時運(yùn)行。現(xiàn)在的AI算力中心,AI大模型的訓(xùn)練需要多個GPU協(xié)同工作,隨著NVIDIA Blackwell(如GB200 NVL72)等架構(gòu)的問世,從下表(來源NVIDIA官網(wǎng))可以看出,僅Blackwell單個GPU功耗就達(dá)1200W以上,如果部署NVL36或者NVL72(72張GB200),整柜系統(tǒng)的TDP將直接飆升至70kW - 140kW(72×1.4kW=100.8kW)。用直觀的對比,一個100kW的機(jī)柜,其耗電量可以支撐50個普通家庭的日常用電。
特性 | Hopper | Blackwell | Blackwell Ultra |
制造工藝 | TSMC 4N | TSMC 4NP | TSMC 4NP |
晶體管數(shù)量 | 800 億 | 2080 億 | 2080 億 |
每個 GPU 的模具 | 122 NVFP4 | 稀疏性能 – 10 | 20 PetaFLOPS | 15 | 20 PetaFLOPS |
FP8 稠密型 | 稀疏性能 | 2 | 4 PetaFLOPS | 5 | 10 PetaFLOPS | 5 | 10 PetaFLOPS |
注意力加速 (SFU EX2) | 5 TeraExponentials/s | 10.7 TeraExponentials/s | |
最大 HBM 容量 | 80 GB HBM (H100) | 192 GB HBM3E | 288 GB HBM3E |
最大 HBM 帶寬 | 3.35 TB/s (H100) | 8 TB/s | 8 TB/s |
NVLink 帶寬 | 900 GB/s | 1,800 GB/s | 1,800 GB/s |
最大功耗 (TGP) | 高達(dá) 700W | 高達(dá) 1,200W | 高達(dá) 1,400W |
NVIDIA GPU 芯片比較
以前用交流電(AC)直接進(jìn)機(jī)柜就行,現(xiàn)在 100kW 的功率如果還用低壓交流電,電流將高達(dá)幾百安培,線纜會像大腿一樣粗。為了減小損耗,AI 數(shù)據(jù)中心正全面轉(zhuǎn)向48V甚至更高壓的直流(DC)供電。在如此高功率、大電流、直流化的環(huán)境下,電流的微小波動都會被放大,任何一次電流檢測的失真,其代價都可能是百萬美金級的算力宕機(jī)。
AI算力配套設(shè)施各部位的電流檢測需求與技術(shù)選型
在100kW以上AI能源鏈路中,在液冷環(huán)境(這個必須)、高頻 DC/DC、GPU VRM以及7×24小時連續(xù)運(yùn)行等機(jī)房運(yùn)行條件下,電流檢測分布在“發(fā)電、配電、用電”的每一個節(jié)點,根據(jù)不同的環(huán)境需求,需要匹配最合適的檢測技術(shù):
能源供應(yīng)端
這是電能進(jìn)入數(shù)據(jù)中心的第一道門,像GB200 NVL72這種130kW級AI機(jī)柜的主流供電是800V DC,母線電流I≈130000/800≈160A,訓(xùn)練負(fù)載突變時,達(dá)到200-300A并不罕見,于很多采用光伏+儲能+變電站組合供電,有的AI算力中心已經(jīng)部署在深山隧道里,而不是常見的普通機(jī)房。這種供電方式測量范圍極廣,并要求高可靠性和電氣隔離,所以霍爾電流傳感器成為主流,安裝方便,而羅氏線圈(Rogowski Coil) 針對交流大電流檢測,體積輕便,無磁飽和風(fēng)險,適合臨時監(jiān)測或空間極其狹小的變壓器輸出端。
UPS(不間斷電源)與直流屏
這部分屬于電源保障端,相當(dāng)于AI機(jī)房的“速效救心丸”,電力切換瞬間電流波動極大,因此要求傳感器具有較高的動態(tài)響應(yīng)和溫漂控制能力,選型上,閉環(huán)霍爾傳感器是首選,不缺錢的話可以選擇磁通門。閉環(huán)霍爾傳感器因其零磁通特性和高精度,響應(yīng)時間也很小,能確保在停電切換時系統(tǒng)不掉線。
PDU機(jī)柜配電單元
此部分是配電端,是100kW以上大功率進(jìn)入機(jī)柜后的分流器,一個機(jī)柜可能有幾十個插槽,需要監(jiān)測每一路負(fù)載。選型主要有芯片級霍爾傳感器和分流器,如AN1V體積小,直接PCB安裝,適合高密度監(jiān)控。分流器成本低精度也高適合安裝在幾十安培的小電流支路上。

服務(wù)器電源(PSU)與 DC/DC 轉(zhuǎn)換器
此部分直接為GPU和CPU等高消耗部件供電,要求極高帶寬和低損耗,選型上可有:電流互感器(CT)用于交流側(cè)的高頻電流檢測;精密電阻(Shunt)+ 隔離放大器針對極小電流的精確采樣;功率級霍爾芯片:隨著GPU功率暴增,越來越多的電源模塊開始選用集成式霍爾方案,以解決分流器發(fā)熱導(dǎo)致的PUE超標(biāo)問題。
一張表總結(jié)電流監(jiān)測選型
| 部署位置 | 檢測對象 | 典型需求 | 推薦方案 | 理由 |
| 儲能/變電 | 總輸入電流 | 量程大、安全性 | 開口霍爾/羅氏線圈 | 安裝靈活,大電流+隔離強(qiáng) |
| UPS/直流屏 | 備電電流 | 動態(tài)響應(yīng)、零漂移 | 閉環(huán)霍爾 | 響應(yīng)快,保護(hù)核心資產(chǎn) |
| 智能PDU | 支路電流 | 體積小、多路采集 | 芯片級霍爾/分流器 | 節(jié)省機(jī)柜空間 |
| 服務(wù)器電源 | 輸出電流 | 低損耗、數(shù)字化 | 集成霍爾芯片 | 降低發(fā)熱,優(yōu)化PUE |

總結(jié)
沒有最好,只有最合適,AI算力中心電流監(jiān)測選型方案也是一樣,在選擇合適方案之后,仍需注意幾點:
- 量程上要留足余量,比如額定電流160-200A,峰值300A,那么選擇量程300-500A的傳感器型號;
- 隔離耐壓是底線,800 V DC 系統(tǒng)隔離耐壓 ≥3kV RMS,爬電距離要滿足 IEC 62368;
- 看的是“長期漂移”,不是實驗室精度數(shù)據(jù),NVL72是7×24小時跑模型,不是實驗板。溫漂、老化、磁飽和裕量,這些比 0.1% 的標(biāo)稱精度更重要。
-
電流檢測
+關(guān)注
關(guān)注
14文章
700瀏覽量
42782 -
人工智能
+關(guān)注
關(guān)注
1819文章
50192瀏覽量
266330 -
霍爾電流傳感器
+關(guān)注
關(guān)注
3文章
436瀏覽量
15725 -
AI算力
+關(guān)注
關(guān)注
1文章
153瀏覽量
9988
發(fā)布評論請先 登錄
請問有應(yīng)用于大功率(100kW以上)的數(shù)字電源參考設(shè)計電路嗎?
為什么每一次采樣出來得出的數(shù)字結(jié)果都差了3LSB?
上海推出新高功率光纖激光器 多橫模輸出功率可達(dá)100kW
AEG每一次的突破,只為帶來更人性的呵護(hù)
Axiom 100kW電機(jī)控制器開源分享
算力即國力,比克電池如何為AI時代“蓄能
【漲知識】“算力”是個啥“力”?
蒼穹之心:ER-QA-03A石英加速度計如何守護(hù)每一次飛行?
算力焦慮的另一面:被忽視的“電力底座”ups電源升級戰(zhàn)
曙光數(shù)創(chuàng)解鎖高密算力的核心鑰匙
龍騰半導(dǎo)體超結(jié)MOSFET重新定義AI算力電源
數(shù)據(jù)中心電能質(zhì)量“隱形殺手”:APView350如何守護(hù)算力心臟?
算力即電力:當(dāng)單機(jī)柜功率突破100kW,誰在守護(hù)AI心臟的每一次跳動?
評論