AI算力集群正加速向萬卡、十萬卡級規模迭代,高速互連網絡作為算力高效釋放的“神經樞紐”,其性能、擴展性與穩定性直接決定集群整體效能。大規模集群組網需兼顧高帶寬、低延遲與無損傳輸,同時要適配算力指數級增長的擴展需求,還要控制組網成本與故障風險,現有方案難以全面平衡這些核心訴求。
中科曙光歷經三年攻堅推出的scaleFabric,作為國內首款類InfiniBand原生無損RDMA高速網絡,精準直擊行業難點,為超大規模集群筑牢高效穩定的網絡底座。
性能對標國際主流,夯實組網硬實力
在技術指標和性能層面,scaleFabric帶寬與延遲指標對齊國際主流產品,交換芯片端口密度達80口400G,較同類產品提升25%,為scaleX萬卡超集群提供了高可擴展組網支撐。更關鍵的是,它沿用與IB一致的信用流控及鏈路層重傳機制,實現真正無損傳輸,相較RoCE網絡更適配超大規模智算場景,可做到即插即用,大幅降低用戶優化成本。
生態兼容+擴展突破,釋放核心實用價值
在應用生態上,scaleFabric提供原生RDMA verbs接口,完美兼容現有IB應用生態,讓并行計算、大模型訓推等應用無需修改代碼即可無縫遷移,實現應用無感適配。在超大規模擴展能力上,它突破IB協議五萬卡級的局限,單子網支持超十萬卡擴展,通過多軌技術,可實現百萬卡級集群部署,契合AI算力指數級增長需求,這一優勢已在scaleX萬卡超集群中得到驗證,支撐系統總算力突破5EFlops。
自主創新賦能,兼顧可靠與成本優勢
面對高端SerDes IP“卡脖子”困境,曙光自研112G PAM4高速SerDes IP,從底層保障復雜環境下的信號可靠性。針對光模塊故障痛點,研發毫秒級鏈路故障路由恢復技術,且恢復時間不隨網絡規模增長而延長,配合數字孿生運維系統,將集群可用性提升至99.99%。同時,依托端口密度優勢,其組網成本較IB降低約30%,打破高端網絡高成本桎梏。
scaleFabric的發布,不僅填補了國內原生RDMA網絡的技術空白,更開啟了IB網絡國產化替代的新篇章。曙光秉持開放架構理念,向合作伙伴共享技術成果,推動產業鏈協同創新,加速我國超算與智算產業自主化進程。
-
集群
+關注
關注
0文章
143瀏覽量
17664 -
高速網絡
+關注
關注
0文章
18瀏覽量
7088 -
中科曙光
+關注
關注
5文章
496瀏覽量
18910
原文標題:特寫|萬卡集群的“神經樞紐”
文章出處:【微信號:sugoncn,微信公眾號:中科曙光】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
海光 “鯨吞” 中科曙光,國產算力 “超級航母” 啟航!
破解RDMA網絡“黑盒”:輕量化會話追蹤工具
中科曙光推出國產自研原生RDMA高速網絡scaleFabric
評論