伦伦影院久久影视,天天操天天干天天射,ririsao久久精品一区 ,一本大道香蕉大久在红桃,999久久久免费精品国产色夜,色悠悠久久综合88,亚洲国产精品久久无套麻豆,亚洲香蕉毛片久久网站,一本一道久久综合狠狠老

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

中科曙光scaleX萬卡超集群重塑超大規模算力基礎設施

中科曙光 ? 來源:中科曙光 ? 2026-01-30 15:43 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在“人工智能+”行動深入推進的當下,算力基礎設施已成為國家戰略競爭力的核心,而超大規模集群的運維管控難題卻日益凸顯。中科曙光scaleX萬卡超集群打造的智能管理體系,正以“能管住-管得穩-用得好”的進階邏輯,重塑超大規模算力基礎設施的運行范式,讓萬級節點協同從行業痛點變為高效常態。

集群管理的基石,始于數字孿生構建的“鏡像世界”。曙光將物理集群的業務、節點、網絡、供配電等全鏈路映射至數字空間,實現全域透明可視與精準管控。在此基礎上,智能運維助手以“實時分析-智能診斷-根因定位-故障恢復”四步流程,為運維人員提供一體化視圖,讓集群狀態“看得見、摸得著”。

三層閉環架構的智能化運維平臺,推動集群從“可觀測”升級為“可決策、可執行”。

在數據可觀測層,全量采集指標與日志等數據,通過CMDB清晰呈現資產拓撲;在知識與算法層,結構化沉淀專家經驗,以“規則+數據”雙驅動實現精準異常檢測;在場景自動化層,針對常見和關鍵場景,定義標準化流程,通過自動化工具實現故障自愈與復盤。

這套體系最終將集群長期可用性鎖定在99.99%,意味著30天內不可用時間不足4分鐘,將“故障”變成系統自動化處理的日常狀態。

穩定性是底線,算力效率是核心競爭力。scaleX萬卡超集群已實現單集群支撐15000+節點、服務12萬+用戶,每秒并發調度萬級任務,背后離不開三大關鍵調度能力。數據親和性算法優先“讓任務找數據”,規避冗余遷移;智能調度引擎動態匹配任務與資源,平衡優先級、公平性與成本;多元融合調度則兼容HPC、AI、云原生任務,兼顧吞吐與隔離,配合存算傳緊耦合優化,使AI加速卡利用率提升55%。

值得關注的是,這套管理體系與硬件創新深度協同。依托單機柜640卡的超高密度設計、浸沒相變液冷技術及自主研發的高速網絡scaleFabric,管理系統可充分釋放5EFlops總算力,同時將PUE控制在1.04,實現高效能與低能耗的統一。作為“AI計算開放架構”成果,scaleX萬卡超集群兼容多品牌加速卡,適配400+主流大模型,覆蓋大模型訓練、金融風控等多元場景。

曙光用技術實踐證明,超大規模智算集群的終極目標,不是節點數量的堆砌,而是構建自感知、自診斷、自修復、自優化的智能算力基礎設施,期待與更多產業伙伴攜手,突破算力瓶頸,共建中國AI計算開放的新生態。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 集群
    +關注

    關注

    0

    文章

    149

    瀏覽量

    17679
  • 中科曙光
    +關注

    關注

    5

    文章

    507

    瀏覽量

    18957
  • 算力
    +關注

    關注

    2

    文章

    1596

    瀏覽量

    16814

原文標題:特寫|萬卡集群:管得好,才能算得強

文章出處:【微信號:sugoncn,微信公眾號:中科曙光】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    中科曙光scaleX40節點革新AI存協同

    在當前時代,以Token(詞元)為代表的需求已成為行業核心剛需,而穩定、高效的運轉,
    的頭像 發表于 03-28 15:46 ?1485次閱讀

    中科曙光集群刷新414.7億原子DFT精度模擬紀錄

    近日,中科曙光scaleX集群聯合龍訊曠騰Ma
    的頭像 發表于 03-20 15:05 ?351次閱讀

    摩爾線程與中國移動研究院等,聯合發布128高密節點參考設計,定義超大規模底座新標準

    隨著全球智集群規模跨入“時代”并向“十萬”巔峰演進,傳統單機八
    發表于 03-17 08:40 ?806次閱讀

    中科曙光scaleX集群筑牢超大規模硬核底座

    3月5日,2026年《政府工作報告》為產業劃下重點:深化拓展“人工智能+”,實施超大規模集群、
    的頭像 發表于 03-10 14:35 ?671次閱讀

    中科曙光scaleX集群專項測試任務已突破300項

    國家互聯網核心節點上線試運行并啟動邀測計劃以來,一場依托國產“”AI的創新驗證正全面
    的頭像 發表于 03-06 16:16 ?836次閱讀

    中科曙光3套scaleX集群落地國家互聯網鄭州核心節點

    2月5日,由中科曙光提供的3套集群系統在國家
    的頭像 發表于 02-09 10:32 ?614次閱讀

    中科曙光scaleX集群背后的持續創新

    集群的發展浪潮正以超乎想象的速度襲來,未來五年,十萬級的集群將成為標配。但一個核心挑戰
    的頭像 發表于 01-19 14:49 ?708次閱讀

    中科曙光scaleX集群亮相中國制造“十四五”成就展

    12月29日,由中國國家博物館與工業和信息化部新聞宣傳中心聯合主辦的“筑基強國路—中國制造‘十四五’成就展”正式開幕。經專家評審委員會嚴格遴選,中科曙光scaleX
    的頭像 發表于 12-30 15:49 ?604次閱讀

    燧原科技榮獲2025年超大規模集群創新應用實踐成果

    近日,中國信息通信研究院(以下簡稱“中國信通院”)成功召開2025AI云產業發展大會。中國通信標準化協會理事長聞庫、中國信通院副院長王志勤出席會議并致辭。中國工程院院士鄭緯民作主旨報告。會議期間,發布了超大規模集群創新應用實
    的頭像 發表于 12-29 09:59 ?458次閱讀
    燧原科技榮獲2025年<b class='flag-5'>超大規模</b>智<b class='flag-5'>算</b><b class='flag-5'>集群</b>創新應用實踐成果

    總算5EFLOPS!可擴展至10,國產集群部分性能超越NVL576

    中國在高性能計算領域的又一次重大突破。 ? 中科曙光高級副總裁李斌表示,面對人工智能基礎設施對性能、效率、可靠性、可擴展性等方面的極致需求,ScaleX
    的頭像 發表于 12-24 09:24 ?4909次閱讀

    部分能力超越2027年NVL576,中科曙光發布scaleX集群

    系統首次以真機形式亮相。 “scaleX集群,是曙光發揮大型計算機系統研制經驗優勢,面向萬
    發表于 12-18 18:30 ?1125次閱讀
    部分能力超越2027年NVL576,<b class='flag-5'>中科</b><b class='flag-5'>曙光</b>發布<b class='flag-5'>scaleX</b><b class='flag-5'>萬</b><b class='flag-5'>卡</b><b class='flag-5'>超</b><b class='flag-5'>集群</b>

    中科曙光scaleX640節點亮相2025世界計算大會

    11月20日,在以“計算物,湘約未來——智驅動新質生產”為主題的長沙世界計算大會上,中科曙光sc
    的頭像 發表于 11-21 17:30 ?1120次閱讀

    640節點問世:國產實現關鍵一躍

    單機柜級640節點ScaleX640,為如火如荼的競爭注入了新的變量。 ? 這款被命名為Scal
    的頭像 發表于 11-11 09:26 ?2394次閱讀

    琶洲實驗室與中科曙光達成多項合作共識

    新、智能計算產品事業部副總經理胡曉東等相關領導,圍繞超大規模集群推理技術、大模型OS、人工智能集群高速互聯技術三大核心領域展開深度研討,
    的頭像 發表于 08-28 11:27 ?1688次閱讀

    AI原生架構升級:RAKsmart服務器在超大規模模型訓練中的突破

    近年來,隨著千億級參數模型的崛起,AI訓練對的需求呈現指數級增長。傳統服務器架構在應對分布式訓練、高并發計算和顯存優化等場景時逐漸顯露瓶頸。而RAKsmart為超大規模模型訓練提供了全新的
    的頭像 發表于 04-24 09:27 ?859次閱讀