在2022年第六屆未來(lái)網(wǎng)絡(luò)發(fā)展大會(huì)上,來(lái)自產(chǎn)業(yè)界、學(xué)術(shù)界、研究機(jī)構(gòu)等領(lǐng)域的專家、行業(yè)領(lǐng)袖共同探討新型網(wǎng)絡(luò)技術(shù)的攻關(guān)與變革。
華為董事、科學(xué)家咨詢委員會(huì)主任徐文偉在主題演講中指出,超級(jí)算力是智能世界的關(guān)鍵需求,未來(lái)網(wǎng)絡(luò)技術(shù)將在三個(gè)方面為超級(jí)算力系統(tǒng)發(fā)展做出貢獻(xiàn):
采用正交架構(gòu)、分布式直連拓?fù)涞刃录夹g(shù),持續(xù)提升數(shù)據(jù)中心交換機(jī)設(shè)備容量、數(shù)據(jù)中心網(wǎng)絡(luò)規(guī)模,支持百萬(wàn)級(jí)海量算力節(jié)點(diǎn)大規(guī)模互聯(lián)。
將智能無(wú)損網(wǎng)絡(luò)技術(shù)應(yīng)用到AI訓(xùn)練、存儲(chǔ)、HPC等多種場(chǎng)景,把數(shù)據(jù)中心網(wǎng)絡(luò)時(shí)延從毫秒級(jí)降低到微秒級(jí),減少算力等待算據(jù)的空耗周期,將算力發(fā)揮到極致。
面向一體化大數(shù)據(jù)中心、東數(shù)西算等新場(chǎng)景,探索長(zhǎng)距智能無(wú)損網(wǎng)絡(luò)、多目標(biāo)算力路由等新技術(shù),支持全網(wǎng)負(fù)載均衡,提供集約化低碳算力服務(wù)。
展望未來(lái),算網(wǎng)融合架構(gòu)的探索需要產(chǎn)學(xué)研用的共同努力才能成功,華為將持續(xù)基礎(chǔ)理論研究和研發(fā)投入,與高校、實(shí)驗(yàn)室、產(chǎn)業(yè)界積極開(kāi)展合作,共同推進(jìn)未來(lái)網(wǎng)絡(luò)發(fā)展。
以下為演講全文。
一、 超級(jí)算力是智能世界2030的關(guān)鍵需求
超級(jí)算力是智能世界的關(guān)鍵需求。
展望2030年的智能世界,人工智能將無(wú)所不及,超級(jí)算力幫助我們更縱深地感知物理世界,更準(zhǔn)確地模擬現(xiàn)實(shí)世界、探索未知領(lǐng)域,加速千行百業(yè)的數(shù)字化和智能化,實(shí)現(xiàn)數(shù)字世界和物理世界的無(wú)縫融合。
預(yù)計(jì)到2030年,自動(dòng)駕駛車廠云端需要10 ExaFLOPS,氣象預(yù)測(cè)數(shù)據(jù)及算力需求增長(zhǎng)1000倍,VR/AR用戶數(shù)將超過(guò)10億,AI計(jì)算的算力將達(dá)到105 ZetaFlops,比2021年增長(zhǎng)500倍左右,算力就是未來(lái)國(guó)家的關(guān)鍵競(jìng)爭(zhēng)力。
二、 超級(jí)算力系統(tǒng)發(fā)展驅(qū)動(dòng)算網(wǎng)融合架構(gòu)創(chuàng)新
超級(jí)算力系統(tǒng)不但需要性能更強(qiáng)的CPU、GPU,以及更強(qiáng)大的AI算法、模型,還需要結(jié)合未來(lái)網(wǎng)絡(luò)技術(shù)的最新發(fā)展,以算網(wǎng)融合架構(gòu)助力超級(jí)算力系統(tǒng)發(fā)展。
未來(lái)網(wǎng)絡(luò)技術(shù)研究將在三個(gè)方面做出貢獻(xiàn):
采用正交架構(gòu)、分布式直連拓?fù)涞刃录夹g(shù),持續(xù)提升數(shù)據(jù)中心交換機(jī)設(shè)備容量、數(shù)據(jù)中心網(wǎng)絡(luò)規(guī)模,支持百萬(wàn)級(jí)海量算力節(jié)點(diǎn)大規(guī)模互聯(lián)。
將智能無(wú)損網(wǎng)絡(luò)技術(shù)應(yīng)用到AI訓(xùn)練、存儲(chǔ)、HPC等多種場(chǎng)景,把數(shù)據(jù)中心網(wǎng)絡(luò)時(shí)延從毫秒級(jí)降低到微秒級(jí),減少算力等待算據(jù)的空耗周期,將算力發(fā)揮到極致。
面向一體化大數(shù)據(jù)中心、東數(shù)西算等新場(chǎng)景,探索長(zhǎng)距智能無(wú)損網(wǎng)絡(luò)、多目標(biāo)算力路由等新技術(shù),支持全網(wǎng)負(fù)載均衡,提供集約化低碳算力服務(wù)。
三、系統(tǒng)架構(gòu)創(chuàng)新:首創(chuàng)DCN正交架構(gòu),實(shí)現(xiàn)超大容量,超高密度,線性擴(kuò)容
為了支持海量算力節(jié)點(diǎn)的大規(guī)模互聯(lián),我們需要大容量的數(shù)據(jù)中心交換機(jī)設(shè)備。傳統(tǒng)框式設(shè)備采用PCB背板走線實(shí)現(xiàn)板卡槽位之間信號(hào)連接,受限于高速信號(hào)鏈路衰減,走線長(zhǎng)度不能大于40英寸,在框式設(shè)備上只能支持8個(gè)線卡槽位。
華為在2012年推出的數(shù)據(jù)中心交換機(jī)CloudEngine12800設(shè)備,首創(chuàng)“直接正交架構(gòu)”,采用業(yè)務(wù)線卡和交換網(wǎng)板90度垂直互連的方式,背板0走線,減少了走線帶來(lái)的高速信號(hào)鏈路衰減,支持前后風(fēng)道,數(shù)據(jù)中心機(jī)房無(wú)需改造就可以滿足冷熱隔離的要求,整機(jī)支持24個(gè)40GE線速端口,并且支持線性擴(kuò)容,是當(dāng)時(shí)業(yè)界最高競(jìng)品的4倍。
同樣基于直接正交架構(gòu)的新一代數(shù)據(jù)中心交換機(jī)CloudEngine16816,支持16個(gè)業(yè)務(wù)線卡槽位,提供768個(gè)400GE端口。
實(shí)現(xiàn)正交架構(gòu)面臨高速信號(hào)傳輸、高密度和低損連接器和高效散熱的工程瓶頸。通過(guò)系統(tǒng)架構(gòu)創(chuàng)新和跨學(xué)科集成創(chuàng)新,我們突破了多個(gè)工程技術(shù)瓶頸,連續(xù)十年刷新數(shù)據(jù)中心核心交換機(jī)的業(yè)界容量極限。
四、 持續(xù)提升設(shè)備容量:互聯(lián)介質(zhì)技術(shù)、散熱技術(shù)、分布式架構(gòu)
在正交架構(gòu)的技術(shù)創(chuàng)新的基礎(chǔ)上,為了持續(xù)提升數(shù)據(jù)中心交換機(jī)的設(shè)備容量,我們還在研究更高速率的互聯(lián)介質(zhì)技術(shù)、更強(qiáng)的散熱技術(shù),并探索更多的設(shè)備新架構(gòu)。
在互聯(lián)架構(gòu)上,從PCB互連演進(jìn)到了當(dāng)前的Cable IO互連,未來(lái)將走向光IO互連。要實(shí)現(xiàn)架構(gòu)演進(jìn),關(guān)鍵是在互連介質(zhì)上要取得突破。我們也在業(yè)界推出對(duì)傳輸損耗的理論研究公式(如圖),從降低介電材料的Dk和Df以及改善導(dǎo)體材料的光滑度,趨膚效應(yīng)和導(dǎo)電率來(lái)改善介質(zhì)損耗與導(dǎo)體損耗。
在散熱技術(shù)上,我們基于過(guò)增元院士的“場(chǎng)協(xié)同原理”理論,持續(xù)優(yōu)化散熱速度場(chǎng)/溫度場(chǎng)的“協(xié)同數(shù)”Fc (如圖),進(jìn)一步研究從金屬到石墨烯到金剛石的散熱材料突破,挑戰(zhàn)固體導(dǎo)熱材料的極致性能。同時(shí),深入探索沸騰換熱微納表面的加工工藝,拉遠(yuǎn)散熱跨尺度/跨材料系統(tǒng)的集成工藝、復(fù)雜熱源散熱的拓?fù)鋬?yōu)化工藝的散熱工藝。力爭(zhēng)在散熱技術(shù)上獲得突破。
在設(shè)備架構(gòu)上,面向未來(lái),探索從正交架構(gòu)到直連拓?fù)涞姆植际浇粨Q機(jī)架構(gòu)的可能性,希望突破設(shè)備的容量與供電限制,通過(guò)OIO互聯(lián)技術(shù)完成高密度信號(hào)連接,實(shí)現(xiàn)單節(jié)點(diǎn)更大容量演進(jìn)。
五、系統(tǒng)架構(gòu)創(chuàng)新:直連拓?fù)鋵?shí)現(xiàn)單個(gè)DC的百萬(wàn)級(jí)節(jié)點(diǎn)聯(lián)接
為了支持海量算力節(jié)點(diǎn)的大規(guī)模互聯(lián),我們還需在數(shù)據(jù)中心交換機(jī)的組網(wǎng)拓?fù)渖线M(jìn)一步創(chuàng)新。目前主流組網(wǎng)拓?fù)錇镃LOS架構(gòu),以典型的128端口交換機(jī)測(cè)算,2級(jí)CLOS架構(gòu)最大支持8千個(gè)計(jì)算節(jié)點(diǎn)互聯(lián)。
為了實(shí)現(xiàn)更大規(guī)模的算力互聯(lián),3級(jí)CLOS架構(gòu)最大支持50萬(wàn)個(gè)計(jì)算節(jié)點(diǎn)互聯(lián),但跳數(shù)增加又帶來(lái)了時(shí)延增加等問(wèn)題。
華為創(chuàng)新地將直連拓?fù)湟氲?a target="_blank">以太網(wǎng)絡(luò)中,實(shí)現(xiàn)超大規(guī)模、低跳數(shù)的數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu),以128端口交換機(jī)測(cè)算,最高可支持400萬(wàn)計(jì)算節(jié)點(diǎn)互聯(lián),相比2級(jí)CLOS架構(gòu)提升了500倍,跳數(shù)不變。
直連拓?fù)涞亩嗦窂江h(huán)路問(wèn)題,需要Dijkstra(迪杰斯特拉)算法實(shí)現(xiàn)TI-LFA(拓?fù)錈o(wú)關(guān)的無(wú)環(huán)路備份路徑),存在復(fù)雜度高、重路由時(shí)間長(zhǎng)的問(wèn)題。華為創(chuàng)新引入圖論方法實(shí)現(xiàn)并行Dijkstra(迪杰斯特拉)算法,降低復(fù)雜度,將1萬(wàn)個(gè)節(jié)點(diǎn)的快速重路由時(shí)間從16.7分鐘降低到8s。
六、系統(tǒng)架構(gòu)創(chuàng)新:智能無(wú)損網(wǎng)絡(luò),挑戰(zhàn)零丟包互聯(lián)提升AI訓(xùn)練算力
AI訓(xùn)練場(chǎng)景中,多臺(tái)服務(wù)器向一臺(tái)服務(wù)器同時(shí)發(fā)送大量報(bào)文的情況經(jīng)常出現(xiàn),多打一(incast)網(wǎng)絡(luò)流量模型是常態(tài)。
當(dāng)報(bào)文大量排隊(duì)、緩存溢出后,丟包、重傳就會(huì)導(dǎo)致GPU等數(shù)據(jù)的現(xiàn)象,嚴(yán)重時(shí)CPU資源有50%的時(shí)間在空轉(zhuǎn)。
傳統(tǒng)的流量控制算法在緩存超過(guò)一定“水線”時(shí)通知發(fā)送端,降低流量發(fā)送速度,但水線值的設(shè)置既不能太溫柔、也不能太粗暴,還要根據(jù)計(jì)算任務(wù)的不同動(dòng)態(tài)調(diào)整,不可實(shí)施。
華為創(chuàng)造性地引入智能算法代替專家經(jīng)驗(yàn),用流量數(shù)據(jù)、流量模型進(jìn)行實(shí)時(shí)推理,得出最優(yōu)ECN水線值,實(shí)現(xiàn)實(shí)時(shí)、精準(zhǔn)的AI ECN流量控制。
為了確保算法可以自適應(yīng)任何流量場(chǎng)景和模型,除了百萬(wàn)級(jí)的真實(shí)業(yè)務(wù)樣本外,還加入了千萬(wàn)級(jí)的隨機(jī)樣本訓(xùn)練,可以保證在不同場(chǎng)景下無(wú)損算力互聯(lián)。
依據(jù)《ODCC無(wú)損網(wǎng)絡(luò)測(cè)試基準(zhǔn)》,ODCC 2020年進(jìn)行了實(shí)測(cè),采用智能無(wú)損網(wǎng)絡(luò)架構(gòu)改造后,能效比提升了25%~31%,這相當(dāng)于節(jié)省了25%的GPU投資,具有較大商業(yè)價(jià)值。
某重點(diǎn)實(shí)驗(yàn)室算力強(qiáng)大(4096個(gè)NPU+1024CPU),但AI訓(xùn)練場(chǎng)景下,網(wǎng)絡(luò)HASH不均導(dǎo)致有效吞吐低,IO500打榜中網(wǎng)絡(luò)吞吐僅達(dá)到約50%,影響AI計(jì)算效率。
全網(wǎng)采用智能無(wú)損網(wǎng)絡(luò)后,單任務(wù)場(chǎng)景網(wǎng)絡(luò)吞吐從50%提升到90%。在IO500總榜、IO500十節(jié)點(diǎn)榜以及AIPerf榜都排名第一,且得分大幅領(lǐng)先上屆冠軍。IO500總榜得分4倍于第二名
七、智能無(wú)損網(wǎng)絡(luò)在存儲(chǔ)、HPC場(chǎng)景的性能超越FC、持平IB
在存儲(chǔ)場(chǎng)景中,傳統(tǒng)的光纖通道(FC)網(wǎng)絡(luò)不匹配全閃存NVMe接口下的并行式大吞吐讀寫模式,帶寬和時(shí)延已成為性能瓶頸。以太在帶寬上相比FiberChannel具有明顯優(yōu)勢(shì),一家全球領(lǐng)先的大型銀行率先采用智能無(wú)損網(wǎng)絡(luò)替代FiberChannel,部署全閃存數(shù)據(jù)中心,生產(chǎn)系統(tǒng)存儲(chǔ)性能提升85%。
在HPC場(chǎng)景,智能無(wú)損網(wǎng)絡(luò)可以將集合通信的部分計(jì)算操作從服務(wù)器轉(zhuǎn)移到交換機(jī)網(wǎng)絡(luò)設(shè)備,減少了服務(wù)器集群間的通信量,從而大幅降低了HPC小字節(jié)場(chǎng)景下的網(wǎng)絡(luò)時(shí)延,提升了計(jì)算效率。
東莞大科學(xué)計(jì)算中心實(shí)驗(yàn)室需超大算力支持仿真與科學(xué)計(jì)算,使用智能無(wú)損網(wǎng)絡(luò)技術(shù)替代InfiniBand,計(jì)算性能持平,特定計(jì)算任務(wù)場(chǎng)景略有超越,我們還在持續(xù)優(yōu)化,爭(zhēng)取實(shí)現(xiàn)全面領(lǐng)先。
智能無(wú)損網(wǎng)絡(luò)性能超越IB的場(chǎng)景還有:氣象預(yù)報(bào)WRF、CESM等用例;汽車碰撞Pam-crash用例;AI計(jì)算AIPerf BenchMark套件用例。
八、從DCN到DCI到全國(guó)一體化大數(shù)據(jù)中心,堅(jiān)持系統(tǒng)架構(gòu)創(chuàng)新
繼DC內(nèi)部的智能無(wú)損網(wǎng)絡(luò)之后,我們?cè)谕侵悄軣o(wú)損網(wǎng)絡(luò)也有進(jìn)展,突破了iLossless-DCI算法,攻克100G以太網(wǎng)100公里0丟包難題,實(shí)現(xiàn)同城長(zhǎng)距無(wú)損,并主導(dǎo)IEEE長(zhǎng)距無(wú)損網(wǎng)絡(luò)相關(guān)的技術(shù)規(guī)范;一家全球領(lǐng)先的大型銀行在跨DC雙活同城數(shù)據(jù)同步中,采用長(zhǎng)距無(wú)損技術(shù)實(shí)現(xiàn)0丟包NoF+存儲(chǔ)網(wǎng)絡(luò),用100G以太替換8G FC,鏈路數(shù)減少90%,每年節(jié)省2000多萬(wàn)元;
下一步是全國(guó)一朵云、一張網(wǎng)的問(wèn)題,延續(xù)網(wǎng)絡(luò)架構(gòu)+軟件創(chuàng)新思路,探索多目標(biāo)路由來(lái)實(shí)現(xiàn)跨資源池一體化調(diào)度、探索廣域智能無(wú)損實(shí)現(xiàn)1000公里級(jí)400G算力網(wǎng)絡(luò)高吞吐。
九、全國(guó)一體化大數(shù)據(jù)中心,探索多目標(biāo)算力路由、廣域智能無(wú)損
面向全國(guó)一體化數(shù)據(jù)中心的場(chǎng)景,在控制面探索多目標(biāo)算力路由,在數(shù)據(jù)面探索廣域智能無(wú)損;
多目標(biāo)算力路由的思路是,通過(guò)新的網(wǎng)絡(luò)和軟件協(xié)同,將一個(gè)業(yè)務(wù)拆分為多個(gè)子任務(wù),用多目標(biāo)算力路由來(lái)實(shí)現(xiàn)跨數(shù)據(jù)中心資源池的統(tǒng)一調(diào)度、協(xié)同計(jì)算、算網(wǎng)融合;這種情況下,算力-運(yùn)力圖的劃分與組合眾多,多目標(biāo)算力路由是就是從眾多組合中找出業(yè)務(wù)綜合服務(wù)水平SLA與總和成本這兩個(gè)目標(biāo)上的最優(yōu);
這是典型的多目標(biāo)優(yōu)化問(wèn)題,也稱為帕累托(Pareto)最優(yōu)問(wèn)題,傳統(tǒng)的多目標(biāo)加權(quán)轉(zhuǎn)化方法覆蓋低,需要探索其他途徑如矢量分解結(jié)合演化計(jì)算來(lái)提升最優(yōu)Pareto覆蓋;
面向全國(guó)一張網(wǎng)場(chǎng)景,廣域智能無(wú)損網(wǎng)絡(luò)還需要解決廣域網(wǎng)絡(luò)距離長(zhǎng)反饋慢、路徑多、均衡難、業(yè)務(wù)吞吐低的難題,支持全國(guó)一體化大數(shù)據(jù)中心的發(fā)展;需要探索廣域網(wǎng)絡(luò)擁塞控制新算法、網(wǎng)絡(luò)負(fù)載均衡新技術(shù)、下一代鏈路流控協(xié)議等,以期獲得廣域高吞吐性能。
十、架構(gòu)創(chuàng)新、技術(shù)突破,實(shí)現(xiàn)未來(lái)算網(wǎng)融合目標(biāo)(2030)
面向未來(lái),要實(shí)現(xiàn)算網(wǎng)融合的目標(biāo),通過(guò)更大的聯(lián)接與算力,支撐面向未來(lái)的真人全息、自動(dòng)駕駛、XR等場(chǎng)景和隨時(shí)隨地10G Everywhere的需求
一方面,我們需要從架構(gòu)創(chuàng)新與技術(shù)突破方面努力實(shí)現(xiàn)單級(jí)設(shè)備容量的突破,端口速率從400G到3.2T,單片容量從25.6T到400T以上,系統(tǒng)容量從512T到10P以上
另外一方面,我們也需要支撐擴(kuò)展到百萬(wàn)級(jí)的數(shù)據(jù)中心規(guī)模,微秒級(jí)的時(shí)延和整網(wǎng)級(jí)甚至全國(guó)一張網(wǎng)的負(fù)載均衡能力。
十一、合作共贏加速未來(lái)網(wǎng)絡(luò)發(fā)展
要實(shí)現(xiàn)算網(wǎng)融合架構(gòu),加速未來(lái)網(wǎng)絡(luò)發(fā)展,需要靠各位院士、科學(xué)家、專家、上下游產(chǎn)業(yè)和客戶共同努力才能成功,同時(shí)我們也要重視網(wǎng)絡(luò)、ICT和數(shù)字人才的長(zhǎng)期培養(yǎng)。
一方面,華為我們自身也在基礎(chǔ)實(shí)驗(yàn)室建設(shè),基礎(chǔ)理論研究和研發(fā)方面加大投入;更重要的,我們希望和行業(yè)的科學(xué)家和專家共同探討未來(lái),和知名大學(xué)共同研究理論與技術(shù)。當(dāng)然我們尤其非常重視合作實(shí)驗(yàn)室創(chuàng)新驗(yàn)證,就像我們和未來(lái)網(wǎng)絡(luò)實(shí)驗(yàn)室有很多合作。
所以我們希望和大家共同努力,合作共贏加速未來(lái)網(wǎng)絡(luò)發(fā)展。謝謝!
-
華為
+關(guān)注
關(guān)注
218文章
36005瀏覽量
262113 -
AI
+關(guān)注
關(guān)注
91文章
39793瀏覽量
301443 -
大數(shù)據(jù)
+關(guān)注
關(guān)注
64文章
9063瀏覽量
143761
原文標(biāo)題:華為徐文偉:融合算網(wǎng)架構(gòu),共贏未來(lái)網(wǎng)絡(luò)
文章出處:【微信號(hào):Huawei_Fixed,微信公眾號(hào):華為數(shù)據(jù)通信】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
重磅上線!天數(shù)智算官網(wǎng)煥新出發(fā),AI算力賦能未來(lái)新生態(tài)?
重磅上線!天數(shù)智算官網(wǎng)煥新出發(fā),AI算力賦能未來(lái)新生態(tài)?
華為AI WAN解決方案推動(dòng)算力互聯(lián)網(wǎng)高質(zhì)量發(fā)展
中科曙光亮相2025中國(guó)超級(jí)算力大會(huì)
中國(guó)電信聯(lián)合華為發(fā)布邊云協(xié)同算網(wǎng)解決方案
華為聯(lián)合發(fā)布智能算網(wǎng)研究報(bào)告
華為斬獲2025中國(guó)算力大會(huì)年度重大突破成果獎(jiǎng)
借勢(shì) RISC-V與 AI 浪潮,元石智算打造算力新范式
華為AI WAN智算IP廣域網(wǎng)助力算力互聯(lián)網(wǎng)建設(shè)
華為推出面向AI WAN的智算IP廣域網(wǎng)解決方案
云南移動(dòng)攜手華為打造“九州”算力互聯(lián)網(wǎng)創(chuàng)新標(biāo)桿
協(xié)同創(chuàng)新 | 蘋芯科技參加滬克算力創(chuàng)新中心揭牌,共拓人工智能與算力協(xié)同新范式
華為超級(jí)算力系統(tǒng)發(fā)展驅(qū)動(dòng)算網(wǎng)融合架構(gòu)創(chuàng)新
評(píng)論