近日,商湯大裝置SenseCore與昇騰384超節(jié)點(diǎn)率先完成全面適配。
在功能、性能驗(yàn)證上達(dá)到預(yù)期目標(biāo),為加速國(guó)產(chǎn)AI算力從“可用”邁向“好用”取得了重點(diǎn)突破,為大模型高效訓(xùn)練與推理提供了堅(jiān)實(shí)支撐。
超節(jié)點(diǎn)(SuperPod)是一種通過(guò)高速互聯(lián)技術(shù),將多個(gè)GPU/NPU整合為統(tǒng)一計(jì)算單元的新型架構(gòu),解決AI大模型訓(xùn)練中的算力協(xié)同與通信效率問(wèn)題。
昇騰384超節(jié)點(diǎn)(Atlas 900 A3 SuperPoD)是華為推出的業(yè)界最大規(guī)模超節(jié)點(diǎn)方案,憑借創(chuàng)新的“全對(duì)等架構(gòu)”,實(shí)現(xiàn)高速互聯(lián)總線的關(guān)鍵突破——把總線從服務(wù)器內(nèi)部擴(kuò)展到整機(jī)柜、甚至跨機(jī)柜,最終將CPU、NPU、DPU、存儲(chǔ)和內(nèi)存等資源全部互聯(lián)和池化,形成一臺(tái)“超級(jí)計(jì)算機(jī)”,實(shí)現(xiàn)更大的算力密度和互聯(lián)帶寬。
商湯聯(lián)合華為昇騰,實(shí)現(xiàn)超節(jié)點(diǎn)適配多項(xiàng)創(chuàng)新
華為昇騰推出的這一全新方案架構(gòu),對(duì)軟件棧的升級(jí)和平臺(tái)調(diào)度優(yōu)化提出了更高要求,讓它能“跑得快、跑得穩(wěn)”。
作為AI云原生平臺(tái),商湯大裝置SenseCore致力于為用戶提供敏捷、靈活、可靠的全棧AI基礎(chǔ)設(shè)施服務(wù),以極致性價(jià)比推動(dòng)大模型技術(shù)的高效落地與規(guī)模化應(yīng)用。
基于商湯大裝置SenseCore與昇騰384超節(jié)點(diǎn)的特點(diǎn),雙方團(tuán)隊(duì)聯(lián)合攻關(guān),在調(diào)度優(yōu)化、系統(tǒng)穩(wěn)定性以及故障恢復(fù)等方面提出多項(xiàng)行業(yè)創(chuàng)新:
調(diào)度優(yōu)化:在調(diào)度能力上,除了支持POD內(nèi)單機(jī)和多機(jī)調(diào)度、跨POD多機(jī)調(diào)度、親和性調(diào)度等基礎(chǔ)能力,SenseCore平臺(tái)配合模型并行策略實(shí)現(xiàn)了邏輯超節(jié)點(diǎn)自動(dòng)劃分,使EP/TP等大通信策略可以充分利用靈衢網(wǎng)絡(luò),提升模型訓(xùn)練效率。
跨POD訓(xùn)練穩(wěn)定性:另外SenseCore團(tuán)隊(duì)提交了多個(gè)MR修復(fù)多POD場(chǎng)景下master/work任務(wù)rank亂序問(wèn)題,從根本上解決了跨POD訓(xùn)練任務(wù)概率性失敗的問(wèn)題。
多維度故障檢測(cè)與恢復(fù):在故障檢測(cè)能力上覆蓋了從服務(wù)器硬件、高速互聯(lián)總線、RoCE網(wǎng)絡(luò)到任務(wù)、進(jìn)程軟硬件多維度檢測(cè),結(jié)合檢測(cè)能力實(shí)現(xiàn)Job/Pod/進(jìn)程多級(jí)恢復(fù)機(jī)制,全面提升昇騰384超節(jié)點(diǎn)在訓(xùn)練場(chǎng)景下的可靠性與容錯(cuò)性。
此次商湯大裝置SenseCore與昇騰384超節(jié)點(diǎn)的成功適配,讓多租戶、大規(guī)模、彈性AI云服務(wù)成為可能。同時(shí),商湯大裝置已經(jīng)完成了某客戶的交付,具備了昇騰384超節(jié)點(diǎn)從液冷集群到AI平臺(tái)端到端的交付能力。
未來(lái),雙方還將探索更多應(yīng)用場(chǎng)景,包括大模型推理加速、智能體應(yīng)用部署、面向垂直行業(yè)的大模型訓(xùn)練與推理優(yōu)化等,進(jìn)一步加速基于SenseCore的昇騰384超節(jié)點(diǎn)在各行各業(yè)的應(yīng)用落地。
商湯科技大裝置事業(yè)群CTO宣善明表示:“商湯大裝置非常重視并深度參與國(guó)產(chǎn)化算力生態(tài)建設(shè)。SenseCore成為首批完成昇騰384超節(jié)點(diǎn)適配的AI云平臺(tái),不僅得益于SenseCore平臺(tái)的開(kāi)放性、完善的功能和豐富的應(yīng)用實(shí)踐,更是國(guó)產(chǎn)AI基礎(chǔ)設(shè)施融合發(fā)展的重要里程碑。SenseCore通過(guò)與昇騰的深度融合,充分釋放昇騰算力潛能,為產(chǎn)業(yè)界提供更加敏捷、智能、可靠的算力底座,商湯也將在此基礎(chǔ)上打造面向各行業(yè)的AI解決方案,共同推動(dòng)千行百業(yè)的智能化升級(jí)”。
-
華為
+關(guān)注
關(guān)注
218文章
36003瀏覽量
262090 -
AI
+關(guān)注
關(guān)注
91文章
39774瀏覽量
301372 -
商湯
+關(guān)注
關(guān)注
0文章
91瀏覽量
4356
原文標(biāo)題:商湯大裝置×華為昇騰384超節(jié)點(diǎn):成功適配
文章出處:【微信號(hào):SenseTime2017,微信公眾號(hào):商湯科技SenseTime】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
最全!一文看懂華為昇騰芯片和超節(jié)點(diǎn)最新演進(jìn)路線
華為昇騰深度適配智譜AI全新開(kāi)源模型GLM-5
AI+FPGA助力昇騰生態(tài)新篇章|2025昇騰AI技術(shù)研討會(huì)·杭州站成功舉辦
潤(rùn)和軟件AIRUNS訓(xùn)推一體化平臺(tái)與昇騰910C芯片深度適配
國(guó)產(chǎn)AI芯片真能扛住“算力內(nèi)卷”?海思昇騰的這波操作藏了多少細(xì)節(jié)?
華為發(fā)布全球最強(qiáng)算力超節(jié)點(diǎn)和集群
華為與全球開(kāi)發(fā)者共贏昇騰生態(tài)
軟通動(dòng)力亮相福建昇騰計(jì)算產(chǎn)業(yè)發(fā)展大會(huì)
中軟國(guó)際出席華為昇騰計(jì)算產(chǎn)業(yè)發(fā)展峰會(huì)
重磅!華為昇騰384超節(jié)點(diǎn)真機(jī)登場(chǎng),中興攜廠商首秀GPU超節(jié)點(diǎn)實(shí)力
華為開(kāi)發(fā)者大會(huì)2025(HDC 2025)亮點(diǎn):華為云發(fā)布盤(pán)古大模型5.5 宣布新一代昇騰AI云服務(wù)上線
有關(guān) AI 算力,華為昇騰刷新行業(yè)記錄
華為昇騰人工智能伙伴峰會(huì)成功舉行
大華股份亮相華為中國(guó)合作伙伴大會(huì)2025 星漢×昇騰推動(dòng)行業(yè)創(chuàng)新發(fā)展
商湯科技聯(lián)合華為昇騰實(shí)現(xiàn)超節(jié)點(diǎn)適配多項(xiàng)創(chuàng)新
評(píng)論