在“人工智能+”行動深入推進的當下,算力基礎設施已成為國家戰略競爭力的核心,而超大規模集群的運維管控難題卻日益凸顯。中科曙光scaleX萬卡超集群打造的智能管理體系,正以“能管住-管得穩-用得好”的進階邏輯,重塑超大規模算力基礎設施的運行范式,讓萬級節點協同從行業痛點變為高效常態。
集群管理的基石,始于數字孿生構建的“鏡像世界”。曙光將物理集群的業務、節點、網絡、供配電等全鏈路映射至數字空間,實現全域透明可視與精準管控。在此基礎上,智能運維助手以“實時分析-智能診斷-根因定位-故障恢復”四步流程,為運維人員提供一體化視圖,讓集群狀態“看得見、摸得著”。
三層閉環架構的智能化運維平臺,推動集群從“可觀測”升級為“可決策、可執行”。
在數據可觀測層,全量采集指標與日志等數據,通過CMDB清晰呈現資產拓撲;在知識與算法層,結構化沉淀專家經驗,以“規則+數據”雙驅動實現精準異常檢測;在場景自動化層,針對常見和關鍵場景,定義標準化流程,通過自動化工具實現故障自愈與復盤。
這套體系最終將集群長期可用性鎖定在99.99%,意味著30天內不可用時間不足4分鐘,將“故障”變成系統自動化處理的日常狀態。
穩定性是底線,算力效率是核心競爭力。scaleX萬卡超集群已實現單集群支撐15000+節點、服務12萬+用戶,每秒并發調度萬級任務,背后離不開三大關鍵調度能力。數據親和性算法優先“讓任務找數據”,規避冗余遷移;智能調度引擎動態匹配任務與資源,平衡優先級、公平性與成本;多元融合調度則兼容HPC、AI、云原生任務,兼顧吞吐與隔離,配合存算傳緊耦合優化,使AI加速卡利用率提升55%。
值得關注的是,這套管理體系與硬件創新深度協同。依托單機柜640卡的超高密度設計、浸沒相變液冷技術及自主研發的高速網絡scaleFabric,管理系統可充分釋放5EFlops總算力,同時將PUE控制在1.04,實現高效能與低能耗的統一。作為“AI計算開放架構”成果,scaleX萬卡超集群兼容多品牌加速卡,適配400+主流大模型,覆蓋大模型訓練、金融風控等多元場景。
曙光用技術實踐證明,超大規模智算集群的終極目標,不是節點數量的堆砌,而是構建自感知、自診斷、自修復、自優化的智能算力基礎設施,期待與更多產業伙伴攜手,突破算力瓶頸,共建中國AI計算開放的新生態。
-
集群
+關注
關注
0文章
142瀏覽量
17661 -
中科曙光
+關注
關注
5文章
495瀏覽量
18909 -
算力
+關注
關注
2文章
1530瀏覽量
16741
原文標題:特寫|萬卡集群:管得好,才能算得強
文章出處:【微信號:sugoncn,微信公眾號:中科曙光】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
中科曙光scaleX萬卡超集群亮相中國制造“十四五”成就展
燧原科技榮獲2025年超大規模智算集群創新應用實踐成果
總算力5EFLOPS!可擴展至10萬卡,國產算力集群部分性能超越NVL576
部分能力超越2027年NVL576,中科曙光發布scaleX萬卡超集群
中科曙光scaleX萬卡超集群重塑超大規模算力基礎設施
評論