電子發(fā)燒友網(wǎng)報道(文/李彎彎)9月18日,在華為全聯(lián)接大會2025上,華為副董事長、輪值董事長徐直軍表示,盡管DeepSeek開創(chuàng)的模式大幅減少了算力需求,但邁向AGI和物理AI,算力始終是關(guān)鍵,尤其是對中國人工智能發(fā)展而言。此次大會上,徐直軍公布了未來三年昇騰芯片演進路線(Ascend 950、Ascend 960、Ascend 970將陸續(xù)推出)、鯤鵬處理器升級規(guī)劃,并同時發(fā)布了多款超節(jié)點和集群產(chǎn)品,以及面向超節(jié)點的新型互聯(lián)協(xié)議靈衢。

未來三年,將陸續(xù)推出三個系列共四款昇騰芯片
徐直軍表示,算力的基礎(chǔ)在于芯片,昇騰芯片作為華為AI算力戰(zhàn)略的基礎(chǔ),自2018年發(fā)布Ascend 310芯片、2019年發(fā)布Ascend 910芯片以來,不斷迭代升級。到2025年,Ascend 910C芯片隨Atlas 900超節(jié)點規(guī)模部署,已被大家熟知。
面向未來,華為對昇騰芯片有著明確的規(guī)劃。未來三年至2028年,華為將開發(fā)和規(guī)劃三個系列芯片,包括Ascend 950系列(含Ascend 950PR和Ascend 950DT兩顆芯片)、Ascend 960、Ascend 970系列,更多具體芯片也在規(guī)劃中。
徐直軍介紹,Ascend 950系列芯片正在開發(fā)且即將推出。該系列芯片架構(gòu)上,Ascend 950 PR和Ascend 950 DT共用Ascend 950 Die。與前一代相比,實現(xiàn)了多方面根本性提升。新增支持業(yè)界標準FP8/MXFP8/MXFP4等低數(shù)值精度數(shù)據(jù)格式,算力分別達1P和2P,提升訓練效率和推理吞吐,還特別支持華為自研的HiF8,在保持FP8高效的同時,精度接近FP16。向量算力大幅提升,通過提升向量算力占比、采用創(chuàng)新的新同構(gòu)設(shè)計(支持SIMD/SIMT雙編程模型,SIMD能像流水線處理“大塊”向量,SIMT便于處理“碎片化”數(shù)據(jù))、將內(nèi)存訪問顆粒度從512字節(jié)減至128字節(jié),實現(xiàn)更精細的內(nèi)存訪問,更好支持離散且不連續(xù)的內(nèi)存訪問。互聯(lián)帶寬相比Ascend 910C提升2.5倍,達2TB/s。結(jié)合推理不同階段需求,自研兩種HBM,HiBL 1.0和HiZQ 2.0,與Ascend 950 Die合封構(gòu)成不同芯片。
其中,Ascend 950PR面向推理Prefill階段和推薦業(yè)務(wù)場景。隨著Agent快速發(fā)展,輸入上下文變長,首Token輸出階段計算資源占用增多;電子商務(wù)、內(nèi)容平臺、社交媒體等業(yè)務(wù)對推薦算法準確度和時延要求提高,計算能力需求增大。推理Prefill階段和推薦算法計算密集,對計算并行能力要求高,對內(nèi)存訪問帶寬需求相對低,通過分級內(nèi)存解決方案,對本地內(nèi)存容量需求也不高。Ascend 950PR采用華為自研的低成本HBM HiBL 1.0,相比高性能、高價格的HBM3e/4e,能大幅降低推理Prefill階段和推薦業(yè)務(wù)投資。該芯片將于2026年一季度推出,首先支持標卡和超節(jié)點服務(wù)器產(chǎn)品形態(tài)。
Ascend 950DT更注重推理Decode階段和訓練場景。由于這兩個階段對互聯(lián)帶寬和訪存帶寬要求高,華為開發(fā)了HiZQ 2.0,使內(nèi)存容量達144GB,內(nèi)存訪問帶寬達4TB/s,互聯(lián)帶寬提升至2TB/s,同時支持FP8/MXFP8/MXFP4/HiF8數(shù)據(jù)格式,將于2026年Q4推出。
規(guī)劃中的Ascend 960在算力、內(nèi)存訪問帶寬、內(nèi)存容量、互聯(lián)端口數(shù)等規(guī)格上相比Ascend 950翻倍,大幅提升訓練、推理等場景性能,還支持華為自研的HiF4數(shù)據(jù)格式,這是業(yè)界最優(yōu)的4bit精度實現(xiàn),能進一步提升推理吞吐,推理精度優(yōu)于業(yè)界FP4方案,將于2027年四季度推出。
規(guī)劃中的Ascend 970規(guī)格還在討論中,總體方向是在各項指標上大幅升級,全面升級訓練和推理性能。初步考慮相比Ascend 960,F(xiàn)P4算力、FP8算力、互聯(lián)帶寬全面翻倍,內(nèi)存訪問帶寬至少增加1.5倍,計劃在2028年四季度推出。
徐直軍表示,總體上,華為將以幾乎一年一代算力翻倍的速度,圍繞更易用、更多數(shù)據(jù)格式、更高帶寬等方向持續(xù)演進昇騰芯片,滿足AI算力不斷增長的需求。相比Ascend 910B/910C,從Ascend 950開始的主要變化包括引入SIMD/SIMT新同構(gòu)提升編程易用性;支持更豐富數(shù)據(jù)格式;支持更大互聯(lián)帶寬;支持更大算力;內(nèi)存容量逐漸加倍,內(nèi)存訪問帶寬翻兩番。
發(fā)布多款超節(jié)點和集群產(chǎn)品,并公布鯤鵬處理器演進路線
在大型AI算力基礎(chǔ)設(shè)施建設(shè)技術(shù)方向上,超節(jié)點已成為主導性產(chǎn)品形態(tài)和AI基礎(chǔ)設(shè)施建設(shè)新常態(tài)。超節(jié)點如同能學習、思考、推理的計算機,物理上由多臺機器組成,邏輯上以一臺機器學習、思考、推理。隨著算力需求增長,超節(jié)點規(guī)模持續(xù)快速增大。
今年3月,華為正式推出Atlas 900超節(jié)點,滿配支持384卡,384顆Ascend 910C芯片能像一臺計算機工作,最大算力達300 PFLOPS,目前仍是全球算力最大的超節(jié)點。華為云基于Atlas 900超節(jié)點構(gòu)建的CloudMatrix384超節(jié)點是常見云服務(wù)實例。Atlas 900超節(jié)點自上市以來,累計部署超300套,服務(wù)20多個客戶,涵蓋互聯(lián)網(wǎng)、電信、制造等多個行業(yè),開啟了華為AI超節(jié)點的征程。
結(jié)合已推出或正在研發(fā)的昇騰芯片,徐直軍在大會上發(fā)布了多款超節(jié)點和集群產(chǎn)品。

第一款新產(chǎn)品是Atlas 950超節(jié)點,基于Ascend 950DT打造。它支持8192張基于Ascend 950DT的昇騰卡,是Atlas 900超節(jié)點的20多倍。滿配由128個計算柜、32個互聯(lián)柜,共160個機柜組成,占地面積約1000平方米,柜間采用全光互聯(lián)。總算力大幅提升,F(xiàn)P8算力達8E FLOPS,F(xiàn)P4算力達16E FLOPS,互聯(lián)帶寬達16PB/s,超過全球互聯(lián)網(wǎng)峰值帶寬10倍有余,將于2026年四季度上市。
相比英偉達同樣明年下半年上市的NVL144,Atlas 950超節(jié)點優(yōu)勢明顯,卡規(guī)模是其56.8倍,總算力是其6.7倍,內(nèi)存容量是其15倍,達1152TB,互聯(lián)帶寬是其62倍,達16.3PB/s。即使與英偉達計劃2027年上市的NVL576相比,Atlas 950超節(jié)點在各方面依然領(lǐng)先。算力、內(nèi)存容量、內(nèi)存訪問速度、互聯(lián)帶寬等能力增強,為大模型訓練性能和推理吞吐帶來顯著提升。相比Atlas 900超節(jié)點,Atlas 950超節(jié)點訓練性能提升17倍,達4.91M TPS,推理性能提升26.5倍,達19.6M TPS。

第二款超節(jié)點產(chǎn)品是Atlas 960超節(jié)點,基于Ascend 960打造,最大可支持15488卡。由176個計算柜,44個互聯(lián)柜,共220個機柜組成,占地面積約2200平方米,將于2027年四季度上市。伴隨卡的規(guī)模升級,Atlas 960超節(jié)點優(yōu)勢進一步增強。基于Ascend 960,其總算力、內(nèi)存容量、互聯(lián)帶寬在Atlas 950基礎(chǔ)上再翻倍。FP8總算力將達30E FLOPS,F(xiàn)P4總算力將達60 EFLOPS,內(nèi)存容量達4460TB,互聯(lián)帶寬達34PB/s。大模型訓練和推理性能相比Atlas 950超節(jié)點,將分別提升3倍和4倍以上,達15.9M TPS和80.5M TPS。華為對為人工智能長期快速發(fā)展提供可持續(xù)且充裕算力充滿信心。
在大會上,徐直軍也談到鯤鵬處理器的演進路線。他表示,超節(jié)點不僅在AI領(lǐng)域有巨大價值,在通用計算領(lǐng)域同樣能帶來變革。鯤鵬處理器圍繞支持超節(jié)點,向更多核、更高性能等方向持續(xù)演進,通過自研雙線程靈犀核方便支持更多線程。2026年Q1,華為將推出Kunpeng 950處理器,有兩個版本,分別是96核/192線程和192核/384線程,支持通用計算超節(jié)點,安全方面新增四層隔離,成為鯤鵬首顆實現(xiàn)機密計算的數(shù)據(jù)中心處理器。2028年Q1,鯤鵬處理器將在芯片微架構(gòu)、先進封裝技術(shù)等領(lǐng)域突破關(guān)鍵技術(shù),再次推出兩個版本,高性能版本96核/192線程,單核性能提升50%+,面向AI host、數(shù)據(jù)庫等場景;高密版本不少于256核/512線程,面向虛擬化、容器、大數(shù)據(jù)、數(shù)倉等場景。
基于Kunpeng 950打造的TaiShan 950超節(jié)點是全球首個通用計算超節(jié)點,這也是徐直軍在此次大會上發(fā)布的第三款超節(jié)點產(chǎn)品。TaiShan 950超節(jié)點最大支持16節(jié)點,32個處理器,最大內(nèi)存48TB,同時支持內(nèi)存、SSD、DPU池化。這款產(chǎn)品不僅是通用計算領(lǐng)域技術(shù)升級,還能幫助金融系統(tǒng)破解核心難題。當前大型機、小型機替換核心挑戰(zhàn)是數(shù)據(jù)庫分布式改造,基于TaiShan 950超節(jié)點打造的GaussDB多寫架構(gòu),無需改造,性能提升2.9倍,可平滑替代大型機、小型機上的傳統(tǒng)數(shù)據(jù)庫。TaiShan 950加上分布式GaussDB有望取代各種應(yīng)用場景的大型機、小型機以及Oracle的Exadata數(shù)據(jù)庫服務(wù)器。在更廣泛場景中,TaiShan 950超節(jié)點表現(xiàn)也很亮眼,虛擬化環(huán)境內(nèi)存利用率提升20%,Spark大數(shù)據(jù)場景實時數(shù)據(jù)處理時間縮短30%,將于2026年一季度上市。

此外,華為還發(fā)布了集群產(chǎn)品Atlas 950 SuperCluster 50萬卡集群,由64個Atlas 950超節(jié)點互聯(lián)組成,將1萬多機柜中的52萬多片昇騰950DT組成整體,F(xiàn)P8總算力可達524 EFLOPS,上市時間與Atlas 950超節(jié)點同步,即2026年Q4。在集群組網(wǎng)上,支持UBoE與RoCE兩種協(xié)議,UBoE承載UB協(xié)議在以太網(wǎng)上,讓客戶利用現(xiàn)有以太交換機,相比傳統(tǒng)RoCE,UBoE組網(wǎng)靜態(tài)時延更低、可靠性更高,交換機和光模塊數(shù)量更節(jié)省,因此推薦UBoE。相比當前世界上最大的集群xAI Colossus,Atlas 950 SuperCluster規(guī)模是其2.5倍,算力是其1.3倍,是全世界最強算力集群,能高效穩(wěn)定支持人工智能持續(xù)創(chuàng)新。

2027年Q4,華為還將基于Atlas 960超節(jié)點,同步推出Atlas 960 SuperCluster,集群規(guī)模提升至百萬卡級,F(xiàn)P8總算力達到2 ZFLOPS,F(xiàn)P4總算力達到4 ZFLOPS,同樣支持UBoE與RoCE兩種協(xié)議,在UBoE協(xié)議加持下,性能與可靠性更優(yōu),靜態(tài)時延和網(wǎng)絡(luò)無故障時間優(yōu)勢進一步擴大,繼續(xù)推薦UBoE組網(wǎng),將持續(xù)加速客戶應(yīng)用創(chuàng)新,探索智能水平新高。
發(fā)布面向超節(jié)點的互聯(lián)協(xié)議靈衢,并開放靈衢2.0技術(shù)規(guī)范
大規(guī)模超節(jié)點推動智算和通算能力達到新高度,也對互聯(lián)技術(shù)提出重大挑戰(zhàn)。華為在定義和設(shè)計Atlas 950、Atlas 960兩個超節(jié)點技術(shù)規(guī)格時,遇到兩方面難題。一是如何實現(xiàn)長距離且高可靠互聯(lián),大規(guī)模超節(jié)點機柜多,柜間聯(lián)接距離長,當前電互聯(lián)和光互聯(lián)技術(shù)無法滿足需求,電互聯(lián)高速時聯(lián)接距離短,光互聯(lián)無法滿足可靠性需求。二是如何實現(xiàn)大帶寬且低時延互聯(lián),當前跨柜卡間互聯(lián)帶寬低,與超節(jié)點需求差距達5倍,跨柜卡間時延大,與Atlas 950/960設(shè)計需求仍有24%差距,且逼近物理極限,提升難度大。
華為憑借三十多年技術(shù)積累,通過系統(tǒng)性創(chuàng)新解決這些問題。為解決長距離且高可靠問題,在互聯(lián)協(xié)議各層引入高可靠機制,在光路引入百納秒級故障檢測和保護切換,重新定義和設(shè)計光器件、光模塊和互聯(lián)芯片,使光互聯(lián)可靠性提升100倍,互聯(lián)距離超200米,實現(xiàn)電的可靠和光的距離。為解決大帶寬且低時延問題,突破多端口聚合與高密封裝技術(shù),以及平等架構(gòu)和統(tǒng)一協(xié)議,實現(xiàn)TB級超大帶寬,2.1微秒超低時延。
為滿足Atlas 950/960超節(jié)點互聯(lián)技術(shù)要求,實現(xiàn)萬卡超節(jié)點像一臺計算機工作,華為開創(chuàng)超節(jié)點架構(gòu)和新型互聯(lián)協(xié)議,支撐萬卡級超節(jié)點架構(gòu)。萬卡級超節(jié)點架構(gòu)具備總線級互聯(lián)、平等協(xié)同、全量池化、協(xié)議歸一、大規(guī)模組網(wǎng)、高可用性六大特征。華為將這一面向超節(jié)點的新型互聯(lián)協(xié)議命名為“靈衢”,英文名稱UB(UnifiedBus)。
徐直軍在大會上正式發(fā)布靈衢、UnifiedBus這一面向超節(jié)點的互聯(lián)協(xié)議,并宣布開放靈衢2.0技術(shù)規(guī)范。靈衢研究始于2019年,因先進工藝不可獲得,需從多芯片突破,將更多計算資源聯(lián)接在一起。基于靈衢1.0的Atlas 900超節(jié)點自2025年3月交付,已商用部署300多套,技術(shù)得到充分驗證。靈衢2.0在靈衢1.0基礎(chǔ)上豐富功能、優(yōu)化性能、提升規(guī)模,具備開放條件。華為開放靈衢2.0技術(shù)規(guī)范,歡迎產(chǎn)業(yè)界伙伴基于靈衢研發(fā)產(chǎn)品和部件,共建開放生態(tài)。
靈衢既為超節(jié)點而生,也是構(gòu)建算力集群產(chǎn)品最優(yōu)互聯(lián)技術(shù)。此次發(fā)布的Atlas 950 SuperCluster和Atlas 960 SuperCluster集群產(chǎn)品都基于靈衢互聯(lián)協(xié)議,展現(xiàn)了華為在AI基礎(chǔ)設(shè)施領(lǐng)域的全面布局和創(chuàng)新能力。
發(fā)布評論請先 登錄
迅龍軟件亮相華為計算部件伙伴大會,蟬聯(lián)昇騰APN兩項大獎
華為發(fā)布全新昇騰950PR,Atlas 350單卡算力接近3倍于H20
2026華為中國合作伙伴大會昇騰人工智能伙伴峰會圓滿落幕
香橙派昇騰系列開發(fā)板如何部署OpenClaw
臺積電CoWoS平臺微通道芯片封裝液冷技術(shù)的演進路線
國產(chǎn)AI芯片真能扛住“算力內(nèi)卷”?海思昇騰的這波操作藏了多少細節(jié)?
華為發(fā)布全球最強算力超節(jié)點和集群
華為與全球開發(fā)者共贏昇騰生態(tài)
商湯科技聯(lián)合華為昇騰實現(xiàn)超節(jié)點適配多項創(chuàng)新
中軟國際出席華為昇騰計算產(chǎn)業(yè)發(fā)展峰會
重磅!華為昇騰384超節(jié)點真機登場,中興攜廠商首秀GPU超節(jié)點實力
華為開發(fā)者大會2025(HDC 2025)亮點:華為云發(fā)布盤古大模型5.5 宣布新一代昇騰AI云服務(wù)上線
有關(guān) AI 算力,華為昇騰刷新行業(yè)記錄
最全!一文看懂華為昇騰芯片和超節(jié)點最新演進路線
評論