摘要: 在十萬卡集群與萬億參數模型時代,基礎設施的穩定性直接決定了模型訓練的邊際成本。當單次訓練成本高達千萬美元時,監控系統不再是簡單的報警,而是衡量算力價值的精算師。基于一線智算運維實踐,探討如何打破數據中心、服務器與網絡之間的數據壁壘,構建具備業務感知能力的下一代智算監控體系。
一、 核心痛點:為什么傳統監控在智算時代失效了?
在通用計算時代,我們習慣用 SLA 來衡量穩定性。但在 AI 大模型訓練場景下,這個指標失效了。大模型訓練是木桶效應的極致放大,傳統監控的局限性暴露:
木桶效應帶來的全局脆弱性 在一個擁有 數萬張 GPU 的集群中,通常采用并行策略進行訓練。此時,任意一張 GPU 的顯存出現 ECC 錯誤,或是任意一根光纖的抖動導致數據重傳,都會引發整個集群訓練的停滯。局部微小故障,即意味著全局算力的癱瘓。
煙囪式架構導致的可觀測性盲區 傳統的監控是割裂的:動環團隊只看水溫和電壓,網絡團隊只管端口狀態與帶寬,系統團隊只盯 CPU 負載和磁盤 IO。當訓練速度無故下降 10% 時,三個團隊的監控面板全綠,能夠自證清白,但業務受損的根因卻無從查起。
智算監控的下半場,必須打破這種割裂,實現面向訓練/推理任務的可觀測性。
二、 理念重塑:構建以 訓練/推理 為中心的監控體系
打破煙囪,核心是構建一個以訓練/推理任務為頂點,向下穿透所有軟硬件層級。監控體系需要在以下四個維度實現升維突破:
監控對象的升維:從資源池到 訓練/推理 的任務 摒棄孤立的 GPU 利用率、網絡帶寬等傳統指標。確立以 單次訓練/推理 迭代時間為新黃金指標,并將其精準拆解為計算、通信、數據加載、排隊等各階段耗時。
端到端追蹤:跨層級的關聯 為每一次訓練/推理迭代生成全局唯一的追蹤 ID,貫穿任務調度、單卡計算到跨節點網絡通信的全鏈路。通過毫秒級的時間同步與統一的元數據(任務、Pod、GPU、交換機端口、機架、電源),實現跨層根因定位。
告警機制的升維:從故障阻斷到性能劣化告警 不再局限于 端口 Down、GPU 宕機等硬性故障。新一代告警需聚焦性能劣化:迭代時間 P99 線同比增加 10%、集群有效算力利用率(MFU)微降 5%。這需要依托動態基線與 AI 算法,在性能受損初期精準捕獲異常。
預測與推演:基于數字孿生的前置風控 基于歷史數據,構建硬件退化(如 GPU 顯存壽命、光模塊光衰)與訓練/推理 性能波動的關聯模型。在進行作業調度或網絡拓撲變更前,可在數字孿生系統中進行仿真推演,預測其對全局訓練/推理效率的影響。
三、 底層重構:物理層的核心技術架構
在萬卡集群中軟硬件的邊界正在模糊。監控必須深入芯片寄存器、光電信號微觀層面。
1. 算力層:深入芯片內部的健康探針
隨著新一代芯片架構的演進,單臺服務器內部已是一個復雜的拓撲網絡。
靜默錯誤的捕獲與預測: 傳統監控只看 Crash。智能監控必須深入 GPU 寄存器,監控單比特錯誤的翻轉速率。雖然 SBE 會被 ECC 糾正,但其高頻出現往往是雙比特錯誤(DBE)的前兆。結合 Xid Errors 與 Row Remap 計數,構建 GPU 健康度衰退模型。
片間互聯的可觀測性: 在高速 SerDes 鏈路中,信號完整性至關重要。需重點關注 NVLink Replay Error 和 Recovery Data Error。如果發現某條鏈路 Replay 次數異常,即便表層監控顯示帶寬打滿,其實際有效吞吐量可能已經崩盤。
2. 網絡層:微秒級擁塞與光鏈路的預測性維護
在 RDMA/RoCEv2 網絡中,網絡質量不僅取決于交換機,更取決于光。
光鏈路的預測性維護: 400G/800G 光模塊對溫度和電壓極度敏感。監控不能停留在 有光/無光狀態,深挖 Pre-FEC BER。當其呈現線性惡化趨勢時,系統應在徹底損壞前,自動通知調度器排空該節點,實現無感運維。
擁塞的精細化鑒別: 面對 PFC Storm 與 CNP,監控系統具備識別能力:精準識別這是因為接收端處理慢導致的反壓,還是網絡多打一造成的擁塞,并完成修復。
3. 基礎設施層:算力與環境的深度綁定
當機柜功率密度突破 100kW,液冷與電網監控正式成為算力監控的一部分。
精細化熱點追蹤: 建立進出水溫差與流速的實時關聯。若某 CDU 回流水溫正常但流速下降,且對應 GPU 溫度飆升,系統應迅速預警過濾器堵塞或局部漏液風險。
功耗與算力的時序對齊: 將 PDU 電流波形與 GPU Kernel Launch 活動進行微秒級對齊。這一極致的監控能力,能敏銳捕捉到電源模塊的瞬態響應不足,從而識別出導致 GPU 莫名降頻的隱性原因。
四、 產品設計:告別報警風暴,走向智能自愈
智算監控的核心價值在于提供 MTTI(Mean Time To Innocence,平均自證清白時間) 和精準的 RCA(Root Cause Analysis,根因分析)。
拓撲感知的全景交互圖
痛點: 告警顯示 Switch-A Port-3 丟包,運維人員還需對照表核對受影響的服務器。
設計: 產品需內置動態物理拓撲圖數據庫。點擊任意報警節點,系統立刻高亮受影響的計算節點、正在運行的任務流水號以及物理光纖編號,實現所見即所得。
專家經驗代碼化:自動化的故障確診 系統需將資深運維專家的排障邏輯沉淀為判定樹。
當監控同時捕獲 某節點 RDMA 帶寬波動 + 同時間段 PCIe AER 錯誤增多+ 該 GPU 溫度異常偏高。
系統自動判定為 Riser 卡接觸不良或過熱,直接輸出 RCA 結論并生成工單建議重新插拔/更換該槽位 Riser 卡,而不是向用戶發送三條毫無關聯的獨立告警。
五、 結語:監控即算力
在 AI Infra 領域,監控系統正在經歷從單純 Observer 向 Controller 的演進。未來的智算監控,將通過 eBPF 技術深潛內核, Telemetry 毫秒級抓取交換機狀態,海量底層傳感器感知。
智算監控下半場的本質,是將視角從資源供應商徹底切換到訓練/推理 任務消費者。它要求整個體系必須能精確回答一個問題:
我的萬卡集群,此刻每一分錢的硬件投資,究竟轉化出了多少有效的訓練/推理 的吞吐量
為了給出答案必須打通從底層芯片、光電鏈路、液冷機柜,到上層并行策略、任務編排的數據孤島。這不僅僅是一個運維基礎設施的升級,更是一項運營 AI 生產力的系統性工程。
審核編輯 黃宇
-
AI
+關注
關注
91文章
40419瀏覽量
302014 -
算力
+關注
關注
2文章
1582瀏覽量
16807
發布評論請先 登錄
海瑞思全流程密封檢測方案為算力基礎設施筑牢安全防線
中科曙光scaleX萬卡超集群重塑超大規模算力基礎設施
從云端集中到邊緣分布:邊緣智算如何重塑算力網絡布局
錨定中央 “人工智能+” 部署!天數智算以全棧產品力,解鎖行業智能化新可能??
曙光數創穩居2024年中國算力中心基礎設施液冷溫控設備市場份額第一
從CPU、GPU到NPU,美格智能持續優化異構算力計算效能
科士達全棧解決方案亮相2025 ODCC,驅動綠色AI智算基礎設施革新
智算監控的下半場:從基礎設施報警到算力精算師
評論