
《悟空傳》里有一句話:“若天壓我,劈開那天;若地拘我,踏碎那地。”道盡了孫悟空打破束縛的決心。今天的中國AI乃至各行各業(yè),都無法忽視AI算力受到制約的無形枷鎖。
近年來,我國加快夯實(shí)算力基礎(chǔ)設(shè)施建設(shè),全國算力一體化網(wǎng)絡(luò)作為“東數(shù)西算”的核心組成部分,正加速鋪開,國產(chǎn)AI硬件在智算中心的占比,也在持續(xù)提升。
就在中國AI算力基礎(chǔ)逐漸穩(wěn)固的時(shí)候,大家越來越強(qiáng)烈意識(shí)到:如果說智算是國之重器,那么網(wǎng)絡(luò)就是撬動(dòng)這一重器的杠桿。
試想一下,萬卡集群的智算中心,滿負(fù)荷運(yùn)轉(zhuǎn)如何無阻塞互聯(lián)?
萬里跨域的“東數(shù)西算”樞紐,如何減少傳輸時(shí)的時(shí)延和抖動(dòng)?
多元異構(gòu)的國產(chǎn)AI算力集群,互聯(lián)瓶頸該怎么破?
這些問題,我們?cè)诘诰艑梦磥砭W(wǎng)絡(luò)發(fā)展大會(huì)上找到了答案。
網(wǎng)絡(luò)在AI基建投資中的占比僅約10%,但通過性能優(yōu)化與調(diào)優(yōu),網(wǎng)絡(luò)卻能撬動(dòng)30%的智算業(yè)務(wù)提升,減少千卡集群30萬/天的停機(jī)損失,降低運(yùn)維成本——新華三集團(tuán)高級(jí)副總裁、網(wǎng)絡(luò)產(chǎn)品線總裁喬剡在大會(huì)上的觀點(diǎn),精準(zhǔn)戳中產(chǎn)業(yè)痛點(diǎn)。

(新華三集團(tuán)高級(jí)副總裁、網(wǎng)絡(luò)產(chǎn)品線總裁 喬剡)
網(wǎng)絡(luò)不只是一根算力杠桿,更撐起了中國智算“我命由我不由天”的硬脊梁。可以說,新華三找到了智算產(chǎn)業(yè)的命門,此次大會(huì)上,也憑借“算力×聯(lián)接”雙領(lǐng)域的頭部?jī)?yōu)勢(shì),亮出了“以網(wǎng)強(qiáng)算”的系統(tǒng)性解決方案。
我們不妨就以此為契機(jī),來探討一下,網(wǎng)絡(luò)這根算力杠桿如何變成了中國AI的定海神針。

長期以來,智算中心預(yù)算多向GPU等算力硬件傾斜,網(wǎng)絡(luò)被視為輔助設(shè)施,投資占比僅約10%,但喬剡在采訪中揭示的行業(yè)真相,或許會(huì)顛覆大家的認(rèn)知:網(wǎng)絡(luò)性能優(yōu)化,對(duì)算力業(yè)務(wù)能力的提升幅度超過20%~30%。
“如果網(wǎng)絡(luò)調(diào)優(yōu)調(diào)得好,相當(dāng)于沒有成本,這就是網(wǎng)絡(luò)在AI基礎(chǔ)設(shè)施中的作用”,喬剡說道。
那么問題來了,要實(shí)現(xiàn)以小博大的杠桿效應(yīng),智算網(wǎng)絡(luò)需要跨越哪些難關(guān)呢?
從單集群建設(shè)的角度看,DeepSeek等輕量化大模型的普及,以及N卡受限后,超節(jié)點(diǎn)(Scale Up)思路的興起,推動(dòng)智算集群從百卡/千卡級(jí),向萬卡甚至十萬卡突破。單集群的規(guī)模躍升,考驗(yàn)著網(wǎng)絡(luò)承載能力。
喬剡在采訪中明確指出,當(dāng)前中小算力服務(wù)商、企業(yè)私域AI場(chǎng)景青睞“超節(jié)點(diǎn)”方案,需在緊湊空間內(nèi)實(shí)現(xiàn)數(shù)百GB級(jí)卡間帶寬;另一方面,互聯(lián)網(wǎng)大廠、大型智算中心仍依賴Scale Out橫向擴(kuò)展,需應(yīng)對(duì)200-400Gbps參數(shù)面帶寬、100Gbps數(shù)據(jù)面帶寬的傳輸需求。這兩種模式都對(duì)網(wǎng)絡(luò)提出“大容量、低時(shí)延、高可靠”的硬性要求。如果網(wǎng)絡(luò)端口容量不足、時(shí)延過高,或無法支持無阻塞通信,大量算力資源折損在網(wǎng)絡(luò)傳輸過程中,那么萬卡集群將淪為低效堆卡,成為算力釋放的瓶頸。
從算力應(yīng)用場(chǎng)景的角度看,算力結(jié)構(gòu)正從中心訓(xùn)練到邊緣推理,集群規(guī)模擴(kuò)大和場(chǎng)景延伸,帶來了更復(fù)雜的流量動(dòng)態(tài),以及多品牌異構(gòu)產(chǎn)品組成的多元算力集群接入需求,端網(wǎng)割裂造成的問題愈發(fā)凸顯。
傳統(tǒng)智算場(chǎng)景中,以網(wǎng)卡為分界線,“端”(GPU卡)與“網(wǎng)”屬于兩套獨(dú)立運(yùn)維體系:算卡歸服務(wù)器團(tuán)隊(duì)管理,網(wǎng)絡(luò)設(shè)備歸網(wǎng)絡(luò)團(tuán)隊(duì)負(fù)責(zé),二者缺乏協(xié)同機(jī)制。新華三集團(tuán)交換機(jī)產(chǎn)品線產(chǎn)品管理部部長陳伯超舉了一個(gè)例子:“GPU發(fā)送AI數(shù)據(jù)時(shí),不知道哪條網(wǎng)絡(luò)路徑最優(yōu);若鏈路突發(fā)故障,網(wǎng)卡仍按原路徑走,會(huì)導(dǎo)致數(shù)據(jù)丟失或重傳,嚴(yán)重拖慢訓(xùn)練進(jìn)度。”流量無法被端側(cè)感知、網(wǎng)側(cè)適配,可能造成網(wǎng)絡(luò)擁塞與算力浪費(fèi)。
從智算生態(tài)的角度看,中國解決AI算力“卡脖子”問題,必須打造異構(gòu)算力底座,而網(wǎng)絡(luò)封閉會(huì)阻礙多元算力協(xié)同。
在中美技術(shù)博弈的大背景下,國產(chǎn)GPU、網(wǎng)卡迎來快速發(fā)展機(jī)遇。各廠商芯片技術(shù)標(biāo)準(zhǔn)不一,適配的通信協(xié)議與優(yōu)化方案也千差萬別。喬剡在采訪中指出,若網(wǎng)絡(luò)僅適配單一品牌算力芯片,易陷入封閉生態(tài)的桎梏,難以滿足多廠商混合部署的應(yīng)用需求;而兼容性的缺失,則會(huì)嚴(yán)重影響不同算力設(shè)備間的數(shù)據(jù)通信效率。新華三秉持多元異構(gòu)的戰(zhàn)略,積極與眾多品牌廠商展開合作。然而,適配不同GPU廠商產(chǎn)品、兼容多樣化算力模型與應(yīng)用模式,也對(duì)底層技術(shù)提出了更高的挑戰(zhàn)。
不難看到,中國在智算方面的關(guān)鍵問題已經(jīng)變了。以前是發(fā)愁有沒有算力用,現(xiàn)在更頭疼的是怎么讓AI算力不浪費(fèi)、效率更高。解決這個(gè)難題,只懂計(jì)算還不夠,必須同時(shí)精通網(wǎng)絡(luò)。舉個(gè)例子,AI芯片極為敏感,對(duì)網(wǎng)絡(luò)時(shí)延、擁塞控制要求極高,只有懂得算和通信怎么配合,才能實(shí)現(xiàn)端網(wǎng)協(xié)同的實(shí)時(shí)路徑優(yōu)化,讓數(shù)據(jù)跑得又快又穩(wěn)。
新華三“算力×聯(lián)接”的雙賽道布局,使其更有可能以網(wǎng)絡(luò)為杠桿,撬動(dòng)巨大的算力潛能。于是,新華三迎難而上。

一個(gè)強(qiáng)大的網(wǎng)絡(luò)杠桿,能夠撬動(dòng)智算業(yè)務(wù)的更大潛能,而這需要產(chǎn)品與解決方案的硬實(shí)力,像金箍棒一樣經(jīng)得起實(shí)戰(zhàn)檢驗(yàn)。新華三的差異化就在于此。
一方面,新華三在聯(lián)接與計(jì)算上都處于行業(yè)TOP級(jí)領(lǐng)航者,構(gòu)建了覆蓋芯片、設(shè)備、方案、服務(wù)等在內(nèi)的智算網(wǎng)絡(luò)體系。而且,所有方案均基于實(shí)際落地經(jīng)驗(yàn),正如喬剡所說:“新華三不是賣PPT的公司,我們是實(shí)打?qū)嵉亟桓?a target="_blank">產(chǎn)品方案和服務(wù)。”
那么,未來網(wǎng)絡(luò)發(fā)展大會(huì)的比武場(chǎng)上,新華三帶來了哪些讓人眼前一亮的網(wǎng)絡(luò)產(chǎn)品與方案呢?
最基礎(chǔ)的是產(chǎn)品的硬核能力。

搭建好算力基礎(chǔ)設(shè)施,網(wǎng)絡(luò)設(shè)備必須得過硬。新華三在大會(huì)上推出的AI交換機(jī)H3C S9828-128EP,有128個(gè)800G端口,交換容量達(dá)到102.4T,單機(jī)容量在行業(yè)里是最領(lǐng)先的。并且,只用兩層架構(gòu),就能支持超10K個(gè)800G端口,這樣一來,設(shè)備用量能減少70%,光模塊用量能減少50%,不僅能降低智算中心的耗電量,還能讓設(shè)備更穩(wěn)定,維護(hù)起來也更簡(jiǎn)單,實(shí)實(shí)在在給智算客戶省錢省力。
除了這款適用于大規(guī)模集群的交換機(jī)產(chǎn)品,新華三還帶來了適用于不同場(chǎng)景的產(chǎn)品系列。其中,H3C S12500AI系列交換機(jī)采用DDC架構(gòu)設(shè)計(jì),滿足算力解耦的使用需求;使用國產(chǎn)芯片的H3C S9825-8C-G智算交換機(jī),能很好地適配國內(nèi)的算力生態(tài)環(huán)境,一亮相就引起了會(huì)場(chǎng)觀眾的關(guān)注。
除此之外,新華三的解決方案,讓網(wǎng)絡(luò)適配智算全場(chǎng)景,像大小隨心的金箍棒一樣靈活破局。
比如智算集群的場(chǎng)景下,端網(wǎng)協(xié)同成為釋放算力潛能、提升集群效率的關(guān)鍵技術(shù)路徑。喬剡介紹,新華三自主研發(fā)的端網(wǎng)協(xié)同方案,通過有序分配熵值與增強(qiáng)的CBRC算法,實(shí)現(xiàn)更智能的網(wǎng)絡(luò)調(diào)度;AD-DC智算版則為集群提供全生命周期保障,將萬卡集群上線周期從數(shù)周壓縮至數(shù)天,并支持自動(dòng)化性能驗(yàn)證與故障實(shí)時(shí)監(jiān)控。目前,該方案已在50余款新華三交換機(jī)及多家GPU、網(wǎng)卡廠商的聯(lián)合驗(yàn)證中落地。
端網(wǎng)協(xié)同方案解決了端網(wǎng)割裂問題,那么DDC(多元?jiǎng)討B(tài)聯(lián)接)架構(gòu)則實(shí)現(xiàn)算力與網(wǎng)絡(luò)解耦,為行業(yè)提供新一代算力調(diào)度能力。
具體來說,傳統(tǒng)方案ECMP存在負(fù)載不均問題,InfiniBand成本高且生態(tài)封閉。新華三自研的DDC架構(gòu),以信元轉(zhuǎn)發(fā)技術(shù)將數(shù)據(jù)切為512字節(jié)切片均勻分發(fā),徹底消除HASH極化,達(dá)成100%負(fù)載均衡,實(shí)現(xiàn)網(wǎng)絡(luò)帶寬充分利用,支持多元算力平滑接入,兼具性能、成本與開放性優(yōu)勢(shì),為多元異構(gòu)的智算底座筑基。
在“東數(shù)西算”這種廣域算力調(diào)度場(chǎng)景下,新華三攜手未來網(wǎng)絡(luò)集團(tuán)歷時(shí)四年,基于IPv6+與廣域RDMA打造確定性網(wǎng)絡(luò)存算拉遠(yuǎn)方案。在500公里尺度的跨域鏈路上,配套R(shí)DMA加速網(wǎng)關(guān)可將傳輸效率提升至原來的6倍。這使算力樞紐可以直接服務(wù)于其他省市政企客戶的推訓(xùn)業(yè)務(wù),實(shí)現(xiàn)普惠型算力供給;對(duì)于更長距離的業(yè)務(wù),則可通過IPv6+實(shí)現(xiàn)端到端優(yōu)化,滿足更多業(yè)務(wù)場(chǎng)景需要。確定性網(wǎng)絡(luò)讓綠色算力得以就近高效調(diào)用,穩(wěn)固國家算力供給。
到了邊緣場(chǎng)景,比如家庭、園區(qū)等,是AI算力接入終端設(shè)備的“最后一公里”,你我手中的AI設(shè)備、無人車、巡檢機(jī)器人等想要算的快、算的穩(wěn),新華三也帶來了解決方案。通過 Cloudnet云管網(wǎng)絡(luò)方案、SD-WAN等方案,讓邊緣算力部署變得更簡(jiǎn)單、高效。
上述產(chǎn)品和方案融合在一起,讓我們看到了新華三網(wǎng)絡(luò)在智算產(chǎn)業(yè)中,起到了定海神針一樣的作用,成為中國打破算力桎梏的一股關(guān)鍵力量。

新華三鑄造的網(wǎng)絡(luò)杠桿,讓國產(chǎn)GPU不再因兼容問題而頻繁撞墻,讓萬卡集群不再為互聯(lián)瓶頸而浪費(fèi)算力,讓“東數(shù)西算”不再受遼闊地域的傳輸限制。這根杠桿承得起大國智算的重托,也護(hù)得住千行百業(yè)的算力需求,成為行業(yè)智能化的底氣。
那么緊接著的問題就是,為什么新華三能提供更優(yōu)解?作為智算網(wǎng)絡(luò)服務(wù)商,新華三有幾個(gè)獨(dú)特的地方:
一是雙腿有力。
新華三是兩條腿走路,計(jì)算、聯(lián)接兩大領(lǐng)域的深耕,可以實(shí)現(xiàn)算網(wǎng)的深度融合創(chuàng)新,是其他純網(wǎng)絡(luò)或純計(jì)算廠商難以復(fù)制的壁壘。
比如交換機(jī)的工程化能力,讓新華三的網(wǎng)絡(luò)設(shè)備具備光模塊適配、液冷架構(gòu)兼容等細(xì)節(jié)設(shè)計(jì),從而突破物理極限。在計(jì)算領(lǐng)域,對(duì)GPU通信協(xié)議、AI訓(xùn)練流量模型的深刻理解,讓網(wǎng)絡(luò)不再是被動(dòng)傳輸?shù)墓艿溃梢詾閿?shù)據(jù)、算子和模型提供最優(yōu)路線。
二是心態(tài)開放。
強(qiáng)大如孫悟空也得跟人組隊(duì),才能取到真經(jīng),新華三智算網(wǎng)絡(luò)方案能兼容國產(chǎn)GPU與異構(gòu)算力,核心就在于“不搞封閉全家桶”的開放戰(zhàn)略。
不僅是心態(tài)上開放,也切實(shí)貢獻(xiàn)了力量。首創(chuàng)的DDC架構(gòu)的信元轉(zhuǎn)發(fā)技術(shù),讓各家國產(chǎn)AI芯片能在同一套網(wǎng)絡(luò)體系中協(xié)同作戰(zhàn),釋放最大威力,是國芯提高市占率的助力。與江蘇省未來網(wǎng)絡(luò)創(chuàng)新研究院聯(lián)合攻關(guān)確定性網(wǎng)絡(luò),與江蘇電信合作邊緣網(wǎng)關(guān)方案,與GPU廠商共建測(cè)試認(rèn)證體系……作為系統(tǒng)級(jí)廠商的新華三,把自己變成了生態(tài)樞紐,讓產(chǎn)業(yè)鏈各方在其網(wǎng)絡(luò)底座上各展神通,自然能打造出別具競(jìng)爭(zhēng)力的產(chǎn)品和解決方案。
三是實(shí)戰(zhàn)能打。
技術(shù)從實(shí)驗(yàn)室到產(chǎn)業(yè)有一條死亡之谷,無法被工程化、產(chǎn)品化的技術(shù)只能束之高閣。新華三的工程化能力,擅長將技術(shù)創(chuàng)新轉(zhuǎn)化成客戶易用、易部署的產(chǎn)品。
喬剡就提到,S9828-128EP交換機(jī)的液冷設(shè)計(jì),既要考慮散熱效率,又要兼容現(xiàn)有機(jī)房,所以在產(chǎn)品背后,新華三做了大量復(fù)雜的技術(shù)工作。而因?yàn)閷?shí)戰(zhàn)中能打,新華三可以“把困難留給自己,便利留給客戶”,用優(yōu)質(zhì)的產(chǎn)品與服務(wù)打動(dòng)客戶。
對(duì)于中國AI和智算產(chǎn)業(yè)來說,當(dāng)網(wǎng)絡(luò)從配套設(shè)施變成關(guān)鍵杠桿,當(dāng)新華三的技術(shù)方案支撐起從中心到邊緣的全場(chǎng)景算力釋放,才算真正握住了不被算力卡脖子的未來。

-
AI
+關(guān)注
關(guān)注
91文章
40474瀏覽量
302086 -
光模塊
+關(guān)注
關(guān)注
84文章
1661瀏覽量
64359 -
新華三
+關(guān)注
關(guān)注
0文章
201瀏覽量
15586 -
智算中心
+關(guān)注
關(guān)注
0文章
118瀏覽量
2570
發(fā)布評(píng)論請(qǐng)先 登錄
邊緣AI算力臨界點(diǎn):深度解析176TOPS香橙派AI Station的產(chǎn)業(yè)價(jià)值
什么是AI算力模組?
什么是AI算力模組?
AI智算網(wǎng)絡(luò)方案
【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+AI的未來:提升算力還是智力
睿海光電領(lǐng)航AI光模塊:超快交付與全場(chǎng)景兼容賦能智算時(shí)代——以創(chuàng)新實(shí)力助力全球客戶構(gòu)建高效算力底座
低軌衛(wèi)星物聯(lián)網(wǎng)通信終端:云翎智能如何打通“天地人”三域數(shù)據(jù)閉環(huán)?
一文看懂AI算力集群
5G-A網(wǎng)絡(luò)智算板的關(guān)鍵技術(shù)
商湯科技與新華醫(yī)院聯(lián)合發(fā)布“AI兒童全科醫(yī)生”
華為星河AI高算效數(shù)據(jù)中心網(wǎng)絡(luò)方案榮獲信通院智算網(wǎng)絡(luò)測(cè)評(píng)五星認(rèn)證
算力網(wǎng)絡(luò)的“神經(jīng)突觸”:AI互聯(lián)技術(shù)如何重構(gòu)分布式訓(xùn)練范式
新華三的網(wǎng)絡(luò)杠桿,撬動(dòng)AI智算新天地
評(píng)論