電子發燒友網報道(文/吳子鵬)在人工智能(AI)時代,算力如同工業革命的電力,成為驅動社會運轉的“數字能源”,是AI從技術研發走向大規模應用的核心支撐。因此,在摩爾線程首屆MUSA開發者大會(MDC 2025)上,摩爾線程創始人、董事長兼CEO張建中表示:“算力即國力,我們希望能夠從芯片到集群,以‘加速計算’的能力,利用全功能GPU打造國之重器。”
MDC 2025上,摩爾線程集中發布了一系列技術與產品進展,包括新架構“花港”亮相、夸娥萬卡智算集群發布、下一代MTT C256超節點架構分享、搭載智能SoC芯片“長江”的AI算力本MTT AIBOOK發布等,算力應用場景覆蓋“云邊端”。本文重點聚焦云端算力基礎設施建設,從“Scale Up”“萬卡集群”角度,解讀摩爾線程最新產品對國產算力的賦能價值。
超節點的本質是極致優化的Scale Up,是算力縱向擴展的最高形態。它通過高速互聯技術,將數十至上百顆計算芯片緊密集成為邏輯統一的計算單元,對外表現為一臺“超級計算機”。因此,在超節點體系中,算力芯片與互聯技術是核心關鍵。
摩爾線程在MDC 2025上公布的“華山”芯片,基于“花港”架構打造,是專注于AI訓推一體與超大規模智能計算的芯片。作為新一代全功能GPU架構,“花港”在計算密度、能效、精度支持、互聯能力及圖形技術等方面實現全面突破,核心特性包括:
計算性能顯著提升:基于新一代指令集,算力密度提升50%,能效大幅優化;支持從FP4到FP64的全精度端到端計算,新增MTFP6/MTFP4及混合低精度支持。
異步編程與超大規模互聯:集成新一代異步編程模型,優化任務調度與并行機制;通過自研MTLink高速互聯技術,支持十萬卡以上規模智算集群擴展。
圖形與AI深度融合:內置AI生成式渲染架構,增強硬件光線追蹤加速引擎,完整支持DirectX 12 Ultimate,實現圖形渲染與智能計算的高度協同。
全棧自研與安全可信:架構基于全棧自主研發,擁有扎實的專利壁壘(截至2025年6月30日,公司累計授權專利514項,其中發明專利468項),具備全棧自研與自主可控的核心能力;通過四層硬件安全架構,提供從芯片到系統的可驗證安全守護。
從行業發展趨勢來看,低精度訓練推理是未來AI的主要場景,下一代MT Transformer Engine中將進一步利用MTFP8和MTFP4的優勢加速Attention部分,將Attention從BF16向FP8甚至FP6演進。為適配更高密度的Tensor Core,“花港”架構在硬件層面進行創新,對Attention中的SIMT部分完成革新性升級:原生支持矩陣rowmax計算,大幅提升混合精度SIMT吞吐量,增強在線量化反量化能力,并提供低精度訓練推理中隨機舍入等算法的硬件支持。
得益于“花港”架構的領先性能,“華山”芯片集成新一代異步編程與全精度張量計算單元,支持從FP4至FP64的全精度計算,為萬卡級智算集群提供穩定高效的算力支撐,是構建下一代“AI工廠”的堅實底座。“華山”芯片具備多項差異化創新:不僅支持MTLink 4.0,還開放兼容多種以太網協議,可適配更多Scale Up交換機;基于新一代Scale Up系統,目前“華山”芯片可支持高達1024個GPU集成的超節點;內置RAS 2.0,可實現ECC和SRAM校驗,保障芯片運行準確性;集成ACE 2.0新一代異步通信引擎,負責芯片內部通信調度,提升計算效率。
在Scale Up拓展的具體進展上,摩爾線程在MDC 2025上分享了面向下一代超大規模智算中心的MTT C256超節點架構規劃,聚焦高密硬件架構設計,旨在實現極致智算性能。
盡管摩爾線程未在MDC 2025上詳細介紹Scale Out相關內容,但從其最新發布的夸娥萬卡智算集群中,可看出其在該領域的強勁技術實力。作為Scale Out與Scale Up融合的最終成果,夸娥萬卡集群樹立了國產智算效率標桿,核心突破包括:浮點運算能力達到10 Exa-Flops,訓練算力利用率(MFU)在Dense大模型上達60%、在MOE大模型上達40%,有效訓練時間占比超90%,訓練線性擴展效率達95%,與國際主流生態高度兼容,且在多項能效指標上具備顯著優勢。
張建中表示,摩爾線程已具備千卡和萬卡集群的部署與運營能力,下一步目標是攻克十萬卡集群技術。
在訓練側,基于原生FP8能力完整復現頂尖大模型訓練流程,多項關鍵精度指標達到國際主流水平。技術層面實現核心優化:Flash Attention算力利用率超95%,突破FP8累加精度等關鍵技術瓶頸,充分釋放國產GPU在大模型訓練中的性能潛力。
在推理側,摩爾線程聯合硅基流動,經系統級工程優化與FP8精度加速,在DeepSeek R1 671B全量模型上實現性能突破:MTT S5000單卡Prefill吞吐突破4000 tokens/s、Decode吞吐突破1000 tokens/s,樹立國產推理性能新標桿。
需要說明的是,本文僅解讀了摩爾線程全功能GPU在AI計算領域的能力。此外,該公司全功能GPU的核心引擎還涵蓋3D圖形渲染、物理仿真與科學計算、智能視頻編解碼,這使得摩爾線程全功能GPU在AI科學計算、工業智能、數字孿生、具身智能、量子計算、6G通信、生物醫藥等領域擁有廣闊市場空間。
能夠實現全場景覆蓋,核心原因在于摩爾線程不僅擁有性能領先的全功能GPU,其自主研發的MUSA統一架構更是戰略基石。
MUSA(Meta-computing Unified System Architecture,元計算統一計算架構)是摩爾線程自主研發的全棧技術體系,覆蓋芯片架構、指令集、編程模型、軟件運行庫及驅動程序框架等核心環節。
MUSA不僅完整定義了從芯片設計到軟件生態的統一技術標準,更彰顯了公司堅持底層創新、踐行長期主義的戰略核心,為全功能GPU奠定了堅實技術根基。歷經五年深度研發與持續迭代,MUSA實現了軟件性能的指數級跨越。全新升級的MUSA 5.0標志著該架構步入成熟新階段,在全棧統一性、極致效能與生態開放性上取得關鍵突破,具體包括:
編程生態全面升級:原生支持MUSA C,深度兼容TileLang、Triton等編程語言,為開發者提供靈活高效的全棧開發體驗。
計算效能極致優化:核心計算庫muDNN實現GEMM/FlashAttention效率超98%,通信效率達97%,編譯器性能提升3倍,并集成高性能算子庫,顯著加速訓練與推理全流程。
開源生態持續擴大:計劃逐步開源計算加速庫、通信庫及系統管理框架等核心組件,向開發者社區開放深度優化的底層能力。
前沿特性拓展邊界:即將推出兼容跨代GPU指令架構的中間語言MTX、面向渲染+AI融合計算的編程語言muLang、量子計算融合框架MUSA-Q及計算光刻庫muLitho,持續拓展全功能GPU的算力應用邊界。
張建中指出,MUSA不僅支持國際通用的CPU系統,同時兼容國產CPU操作系統與開發環境;通過MUSA架構,開發者可采用同一套軟件支撐“云邊端”不同系列產品。“我們希望MUSA能為我國各領域科技開發者提供更優質的工具與裝置,助力他們踐行‘十五五’規劃,在各自領域貢獻力量。我相信中國科技自立自強之路將走得更快、更穩,摩爾線程將持續為美好世界加速。”

摩爾線程創始人、董事長兼CEO張建中
MDC 2025上,摩爾線程集中發布了一系列技術與產品進展,包括新架構“花港”亮相、夸娥萬卡智算集群發布、下一代MTT C256超節點架構分享、搭載智能SoC芯片“長江”的AI算力本MTT AIBOOK發布等,算力應用場景覆蓋“云邊端”。本文重點聚焦云端算力基礎設施建設,從“Scale Up”“萬卡集群”角度,解讀摩爾線程最新產品對國產算力的賦能價值。
從千卡到萬卡的躍升,下一步目標直指十萬卡
云端算力基礎設施的重要應用場景之一,是AI大模型的訓練與推理。以訓練任務為例,大模型企業通常采用Tensor并行(TP)、Pipeline并行(PP)、Data并行(DP)及專家并行(EP)等方式,拆分千億、萬億參數規模的大模型,進而完成部署與適配。其中,PP、DP等通信量較大的任務,通常選擇Scale Up方式應對,即盡可能部署在單個超節點內;而通信量相對較小的任務,則多采用Scale Out方式。超節點的本質是極致優化的Scale Up,是算力縱向擴展的最高形態。它通過高速互聯技術,將數十至上百顆計算芯片緊密集成為邏輯統一的計算單元,對外表現為一臺“超級計算機”。因此,在超節點體系中,算力芯片與互聯技術是核心關鍵。
摩爾線程在MDC 2025上公布的“華山”芯片,基于“花港”架構打造,是專注于AI訓推一體與超大規模智能計算的芯片。作為新一代全功能GPU架構,“花港”在計算密度、能效、精度支持、互聯能力及圖形技術等方面實現全面突破,核心特性包括:
計算性能顯著提升:基于新一代指令集,算力密度提升50%,能效大幅優化;支持從FP4到FP64的全精度端到端計算,新增MTFP6/MTFP4及混合低精度支持。
異步編程與超大規模互聯:集成新一代異步編程模型,優化任務調度與并行機制;通過自研MTLink高速互聯技術,支持十萬卡以上規模智算集群擴展。
圖形與AI深度融合:內置AI生成式渲染架構,增強硬件光線追蹤加速引擎,完整支持DirectX 12 Ultimate,實現圖形渲染與智能計算的高度協同。
全棧自研與安全可信:架構基于全棧自主研發,擁有扎實的專利壁壘(截至2025年6月30日,公司累計授權專利514項,其中發明專利468項),具備全棧自研與自主可控的核心能力;通過四層硬件安全架構,提供從芯片到系統的可驗證安全守護。

從行業發展趨勢來看,低精度訓練推理是未來AI的主要場景,下一代MT Transformer Engine中將進一步利用MTFP8和MTFP4的優勢加速Attention部分,將Attention從BF16向FP8甚至FP6演進。為適配更高密度的Tensor Core,“花港”架構在硬件層面進行創新,對Attention中的SIMT部分完成革新性升級:原生支持矩陣rowmax計算,大幅提升混合精度SIMT吞吐量,增強在線量化反量化能力,并提供低精度訓練推理中隨機舍入等算法的硬件支持。
得益于“花港”架構的領先性能,“華山”芯片集成新一代異步編程與全精度張量計算單元,支持從FP4至FP64的全精度計算,為萬卡級智算集群提供穩定高效的算力支撐,是構建下一代“AI工廠”的堅實底座。“華山”芯片具備多項差異化創新:不僅支持MTLink 4.0,還開放兼容多種以太網協議,可適配更多Scale Up交換機;基于新一代Scale Up系統,目前“華山”芯片可支持高達1024個GPU集成的超節點;內置RAS 2.0,可實現ECC和SRAM校驗,保障芯片運行準確性;集成ACE 2.0新一代異步通信引擎,負責芯片內部通信調度,提升計算效率。
在Scale Up拓展的具體進展上,摩爾線程在MDC 2025上分享了面向下一代超大規模智算中心的MTT C256超節點架構規劃,聚焦高密硬件架構設計,旨在實現極致智算性能。

盡管摩爾線程未在MDC 2025上詳細介紹Scale Out相關內容,但從其最新發布的夸娥萬卡智算集群中,可看出其在該領域的強勁技術實力。作為Scale Out與Scale Up融合的最終成果,夸娥萬卡集群樹立了國產智算效率標桿,核心突破包括:浮點運算能力達到10 Exa-Flops,訓練算力利用率(MFU)在Dense大模型上達60%、在MOE大模型上達40%,有效訓練時間占比超90%,訓練線性擴展效率達95%,與國際主流生態高度兼容,且在多項能效指標上具備顯著優勢。

張建中表示,摩爾線程已具備千卡和萬卡集群的部署與運營能力,下一步目標是攻克十萬卡集群技術。
MUSA 5.0的戰略基石價值:讓算力普惠各行各業
強勁的全功能GPU性能,疊加針對性的系統優化,使大模型開發者無論是開展訓練還是推理工作,都能獲得極致優化的效率:在訓練側,基于原生FP8能力完整復現頂尖大模型訓練流程,多項關鍵精度指標達到國際主流水平。技術層面實現核心優化:Flash Attention算力利用率超95%,突破FP8累加精度等關鍵技術瓶頸,充分釋放國產GPU在大模型訓練中的性能潛力。
在推理側,摩爾線程聯合硅基流動,經系統級工程優化與FP8精度加速,在DeepSeek R1 671B全量模型上實現性能突破:MTT S5000單卡Prefill吞吐突破4000 tokens/s、Decode吞吐突破1000 tokens/s,樹立國產推理性能新標桿。
需要說明的是,本文僅解讀了摩爾線程全功能GPU在AI計算領域的能力。此外,該公司全功能GPU的核心引擎還涵蓋3D圖形渲染、物理仿真與科學計算、智能視頻編解碼,這使得摩爾線程全功能GPU在AI科學計算、工業智能、數字孿生、具身智能、量子計算、6G通信、生物醫藥等領域擁有廣闊市場空間。

能夠實現全場景覆蓋,核心原因在于摩爾線程不僅擁有性能領先的全功能GPU,其自主研發的MUSA統一架構更是戰略基石。
MUSA(Meta-computing Unified System Architecture,元計算統一計算架構)是摩爾線程自主研發的全棧技術體系,覆蓋芯片架構、指令集、編程模型、軟件運行庫及驅動程序框架等核心環節。
MUSA不僅完整定義了從芯片設計到軟件生態的統一技術標準,更彰顯了公司堅持底層創新、踐行長期主義的戰略核心,為全功能GPU奠定了堅實技術根基。歷經五年深度研發與持續迭代,MUSA實現了軟件性能的指數級跨越。全新升級的MUSA 5.0標志著該架構步入成熟新階段,在全棧統一性、極致效能與生態開放性上取得關鍵突破,具體包括:
編程生態全面升級:原生支持MUSA C,深度兼容TileLang、Triton等編程語言,為開發者提供靈活高效的全棧開發體驗。
計算效能極致優化:核心計算庫muDNN實現GEMM/FlashAttention效率超98%,通信效率達97%,編譯器性能提升3倍,并集成高性能算子庫,顯著加速訓練與推理全流程。
開源生態持續擴大:計劃逐步開源計算加速庫、通信庫及系統管理框架等核心組件,向開發者社區開放深度優化的底層能力。
前沿特性拓展邊界:即將推出兼容跨代GPU指令架構的中間語言MTX、面向渲染+AI融合計算的編程語言muLang、量子計算融合框架MUSA-Q及計算光刻庫muLitho,持續拓展全功能GPU的算力應用邊界。
張建中指出,MUSA不僅支持國際通用的CPU系統,同時兼容國產CPU操作系統與開發環境;通過MUSA架構,開發者可采用同一套軟件支撐“云邊端”不同系列產品。“我們希望MUSA能為我國各領域科技開發者提供更優質的工具與裝置,助力他們踐行‘十五五’規劃,在各自領域貢獻力量。我相信中國科技自立自強之路將走得更快、更穩,摩爾線程將持續為美好世界加速。”
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。
舉報投訴
-
算力
+關注
關注
2文章
1528瀏覽量
16741 -
摩爾線程
+關注
關注
2文章
279瀏覽量
6450
發布評論請先 登錄
相關推薦
熱點推薦
中科曙光scaleX萬卡超集群重塑超大規模算力基礎設施
在“人工智能+”行動深入推進的當下,算力基礎設施已成為國家戰略競爭力的核心,而超大規模集群的運維管控難題卻日益凸顯。中科曙光scaleX萬
摩爾線程公布全功能GPU架構路線圖:以“花港”新架構與萬卡訓練集群,開啟自主算力新時代
MUSA統一架構為核心的全棧技術成果,全面展現公司在高端全功能GPU領域的關鍵突破與前瞻布局。 本次發布的核心成果包括: 1、新架構“花港”亮相:全功能GPU架構“花港”,支持FP4到FP64的全精度計算,
發表于 12-20 12:51
?1084次閱讀
華為發布全球最強算力超節點和集群
在華為全聯接大會2025(HUAWEI CONNECT 2025)上,華為發布最強算力超節點和集群,并表示將發展生態作為公司核心戰略,提升到
睿海光電800G光模塊助力全球AI基建升級
18%。
智算中心建設:與國內AI獨角獸合作,提供支持液冷散熱的800G模塊集群,助力其大模型訓練效率提升30%。
邊緣計算網絡:在北美某5G運營商邊緣
發表于 08-13 19:05
睿海光電領航AI光模塊:超快交付與全場景兼容賦能智算時代——以創新實力助力全球客戶構建高效算力底座
光模塊功耗和光纖部署復雜度,同時結合優化的前向糾錯(FCE)技術,確保誤碼率低于10?12,靈敏度穩定在-5dBm以內,充分滿足AI算力集群對長距離、低時延的嚴苛需求。
二、交付周期領
發表于 08-13 19:03
摩爾線程副總裁王華:AI工廠全棧技術重構算力基建,開啟國產 GPU 黃金時代
摩爾線程在世界人工智能大會(WAIC 2025)前夕舉辦以“算力進化,精度革命”為主題的技術分享會,創新性提出“AI工廠” 理念。這一系統性
摩爾線程與AI算力平臺AutoDL達成深度合作
近日,摩爾線程與國內領先的AI算力平臺AutoDL宣布達成深度合作,雙方聯合推出面向個人開發者的“摩爾
DeepSeek推動AI算力需求:800G光模塊的關鍵作用
數據傳輸速率,減少帶寬瓶頸,成為數據中心和AI集群架構優化的重點。光模塊速率的躍升不僅提升了傳輸效率,也為大規模并行計算任務提供了必要的帶寬保障。
800G光模塊如何解決DeepSeek大規模算
發表于 03-25 12:00
算力即國力!摩爾線程架構/芯片/超節點/萬卡集群四連發,助力打造AI國之重器
評論