近日,商湯大裝置SenseCore與昇騰384超節點率先完成全面適配。
在功能、性能驗證上達到預期目標,為加速國產AI算力從“可用”邁向“好用”取得了重點突破,為大模型高效訓練與推理提供了堅實支撐。
超節點(SuperPod)是一種通過高速互聯技術,將多個GPU/NPU整合為統一計算單元的新型架構,解決AI大模型訓練中的算力協同與通信效率問題。
昇騰384超節點(Atlas 900 A3 SuperPoD)是華為推出的業界最大規模超節點方案,憑借創新的“全對等架構”,實現高速互聯總線的關鍵突破——把總線從服務器內部擴展到整機柜、甚至跨機柜,最終將CPU、NPU、DPU、存儲和內存等資源全部互聯和池化,形成一臺“超級計算機”,實現更大的算力密度和互聯帶寬。
商湯聯合華為昇騰,實現超節點適配多項創新
華為昇騰推出的這一全新方案架構,對軟件棧的升級和平臺調度優化提出了更高要求,讓它能“跑得快、跑得穩”。
作為AI云原生平臺,商湯大裝置SenseCore致力于為用戶提供敏捷、靈活、可靠的全棧AI基礎設施服務,以極致性價比推動大模型技術的高效落地與規模化應用。
基于商湯大裝置SenseCore與昇騰384超節點的特點,雙方團隊聯合攻關,在調度優化、系統穩定性以及故障恢復等方面提出多項行業創新:
調度優化:在調度能力上,除了支持POD內單機和多機調度、跨POD多機調度、親和性調度等基礎能力,SenseCore平臺配合模型并行策略實現了邏輯超節點自動劃分,使EP/TP等大通信策略可以充分利用靈衢網絡,提升模型訓練效率。
跨POD訓練穩定性:另外SenseCore團隊提交了多個MR修復多POD場景下master/work任務rank亂序問題,從根本上解決了跨POD訓練任務概率性失敗的問題。
多維度故障檢測與恢復:在故障檢測能力上覆蓋了從服務器硬件、高速互聯總線、RoCE網絡到任務、進程軟硬件多維度檢測,結合檢測能力實現Job/Pod/進程多級恢復機制,全面提升昇騰384超節點在訓練場景下的可靠性與容錯性。
此次商湯大裝置SenseCore與昇騰384超節點的成功適配,讓多租戶、大規模、彈性AI云服務成為可能。同時,商湯大裝置已經完成了某客戶的交付,具備了昇騰384超節點從液冷集群到AI平臺端到端的交付能力。
未來,雙方還將探索更多應用場景,包括大模型推理加速、智能體應用部署、面向垂直行業的大模型訓練與推理優化等,進一步加速基于SenseCore的昇騰384超節點在各行各業的應用落地。
商湯科技大裝置事業群CTO宣善明表示:“商湯大裝置非常重視并深度參與國產化算力生態建設。SenseCore成為首批完成昇騰384超節點適配的AI云平臺,不僅得益于SenseCore平臺的開放性、完善的功能和豐富的應用實踐,更是國產AI基礎設施融合發展的重要里程碑。SenseCore通過與昇騰的深度融合,充分釋放昇騰算力潛能,為產業界提供更加敏捷、智能、可靠的算力底座,商湯也將在此基礎上打造面向各行業的AI解決方案,共同推動千行百業的智能化升級”。
-
華為
+關注
關注
218文章
36149瀏覽量
262567 -
AI
+關注
關注
91文章
40793瀏覽量
302411 -
商湯
+關注
關注
0文章
94瀏覽量
4415
原文標題:商湯大裝置×華為昇騰384超節點:成功適配
文章出處:【微信號:SenseTime2017,微信公眾號:商湯科技SenseTime】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
最全!一文看懂華為昇騰芯片和超節點最新演進路線
迅龍軟件亮相華為計算部件伙伴大會,蟬聯昇騰APN兩項大獎
華為發布全新昇騰950PR,Atlas 350單卡算力接近3倍于H20
2026華為中國合作伙伴大會昇騰人工智能伙伴峰會圓滿落幕
華為昇騰深度適配智譜AI全新開源模型GLM-5
AI+FPGA助力昇騰生態新篇章|2025昇騰AI技術研討會·杭州站成功舉辦
潤和軟件AIRUNS訓推一體化平臺與昇騰910C芯片深度適配
國產AI芯片真能扛住“算力內卷”?海思昇騰的這波操作藏了多少細節?
華為發布全球最強算力超節點和集群
軟通動力亮相福建昇騰計算產業發展大會
中軟國際出席華為昇騰計算產業發展峰會
華為開發者大會2025(HDC 2025)亮點:華為云發布盤古大模型5.5 宣布新一代昇騰AI云服務上線
有關 AI 算力,華為昇騰刷新行業記錄
商湯科技聯合華為昇騰實現超節點適配多項創新
評論