在2025年世界人工智能大會(WAIC 2025)開幕前一天,國產GPU企業摩爾線程以“算力進化,精度革命”為主題帶來技術分享,隨后在7月26日-29日的展會期間,又憑借“云邊端”全棧AI產品和解決方案成為焦點,全方位展現了其在AI領域的技術實力與行業愿景。

一、“AI工廠”理念:重構大模型訓練基礎設施
張建中董事長CEO在技術分享會上提出了極具前瞻性的“AI工廠”理念,為AI基礎設施建設指明了新方向。他將“AI工廠”比作芯片晶圓廠,強調這是一個系統性的變革,需要從底層芯片架構、集群整體架構,到軟件算法調優和資源調度系統進行全面升級。

圖:摩爾線程創始人兼CEO張建中提出AI Foudry的概念(來源:電子發燒友網)
“AI工廠”的生產效率由五大核心要素決定,即加速計算通用性、單芯片有效算力、單節點效率、集群效率和集群穩定性,它們之間呈相乘關系,共同決定著“AI工廠”的產能。這一理念致力于推動AI訓練從千卡級向萬卡級乃至十萬卡級規模演進,實現生產力和創新效率的飛躍。
張建中強調,摩爾線程的“AI工廠”以全功能GPU為基石,通過先進架構、芯片算力、單節點效率、集群效率優化與可靠性等協同躍升的深度技術創新,將全功能GPU加速計算平臺的強大潛能轉化為工程級的訓練效率與可靠性保障。
二、全功能GPU:功能完備與精度完整
全功能GPU是摩爾線程“AI工廠”的核心支撐,也是其技術突破的關鍵所在。張建中介紹,摩爾線程自主研發的全功能GPU實現了單芯片同時支持AI計算加速、圖形渲染、物理仿真和科學計算、超高清視頻編解碼的技術突破,目前國內GPU只有摩爾線程具備這個能力。

圖:摩爾線程原生支持FP8 大模型訓練推理
在計算精度方面,摩爾線程的全功能GPU支持從FP 64至INT 8的完整精度譜系,尤其在FP8混合精度技術上表現突出,在主流前沿大模型訓練中實現20%-30%的性能躍升,為國產GPU的算力效率樹立了行業標桿。這種全精度支持使其能夠全面覆蓋從AI訓練、推理到科學計算的全場景需求,無論是大模型訓練還是復雜的科學計算任務,都能游刃有余。
三、MUSA架構:釋放芯片有效算力
自研的MUSA架構是摩爾線程提升芯片有效算力的核心武器。張建中詳細闡述了MUSA架構在計算、內存、通信三方面的突破。該架構采用創新的多引擎、可伸縮GPU架構,通過硬件資源池化及動態資源調度技術,構建了全局共享的計算、內存與通信資源池,突破了傳統GPU功能單一的限制。
在計算層面,摩爾線程的AI加速系統(TCE/TME)全面支持多種混合精度計算,作為國內首批實現FP 8算力量產的GPU廠商,其FP8技術通過一系列創新設計,將Transformer計算性能提升約30%。內存系統方面,實現了50%的帶寬節省和60%的延遲降低;通信領域,獨創的ACE異步通信引擎減少了15%的計算資源損耗,MT Link 2.0互聯技術提供了高出國內行業平均水平60%的帶寬。
四、MUSA全棧系統軟件:提升單節點效率
單節點效率的提升離不開優秀的軟件支持,摩爾線程的MUSA全棧系統軟件在這方面表現出色。張建中介紹,其核心創新包括任務調度優化,核函數啟動時間縮短50%;極致性能算子庫,GEMM算子算力利用率達98%,Flash Attention算子算力利用率突破95%;通信效能躍升,MCCL通信庫實現RDMA網絡97%帶寬利用率等。
這些軟件層面的優化使得單節點能夠充分發揮硬件的性能,減少資源浪費,提高計算效率,為“AI工廠”的高效運轉提供了堅實的軟件基礎。
五、KUAE大規模集群:系統工程級的突破
當單節點效率達到較高水平后,大規模集群的高效協作成為新的挑戰。摩爾線程自研的夸額(KUAE)計算集群通過5D大規模分布式并行計算技術,實現了上千節點的高效協作,推動AI基礎設施從單點優化邁向系統工程級突破。
KUAE集群創新采用5D并行訓練,整合數據、模型、張量、流水線和專家并行技術,全面支持Transformer等主流架構。同時,自主研發的Simumax工具能面向超大規模集群自動搜索最優并行策略,為模型縮短訓練周期提供科學依據。此外,創新的Check Point加速方案利用RDMA技術,將百GB級備份恢復時間從數分鐘壓縮至1秒,大幅提升了GPU有效算力利用率。
六、零中斷容錯技術:保障集群穩定性
在萬卡級AI集群中,硬件故障導致的訓練中斷會嚴重浪費算力。為此,摩爾線程創新推出零中斷容錯技術,這一技術成為保障“AI工廠”持續運轉的關鍵。
當故障發生時,該技術僅隔離受影響節點組,其余節點繼續訓練,備機無縫接入,全程無中斷。這使得KUAE集群有效訓練時間占比超99%,大幅降低了恢復開銷。同時,KUAE集群通過多維度訓練洞察體系實現動態監測與智能診斷,異常處理效率提升50%;結合集群巡檢與起飛檢查,訓練成功率提高10%,為大規模AI訓練提供了穩定保障。
七、展臺產品矩陣:“云邊端”全棧解決方案亮相
在WAIC展會的H1-A821展位,摩爾線程展示了豐富的“云邊端”全棧AI產品與解決方案,讓觀眾直觀感受到其技術的實際應用。

圖:WAIC 2025摩爾線程現場大受熱捧
夸娥(KUAE)作為以全功能GPU為硬件核心的軟硬一體化系統級算力解決方案,支持萬卡級規模擴展能力,為大模型預訓練提供穩定高效的算力支撐。其中,KUAE2是2024年底推出的第二代大規模智算融合中心產品,支持萬卡互聯,兼顧AI與科學計算。

全功能GPU OAM模組專為大規模智算集群設計,可支持萬億級參數大模型訓練與推理,且在國內率先支持FP8等全計算精度。AI大模型一體機MCCXD800X2是旗艦級GPU加速服務器,為大語言及多模態大模型、科學計算等前沿領域提供強大支持。
此外,還有訓推兼顧的AI大模型智算加速卡MTTS4000,適用于云電腦、云游戲等場景的云端渲染卡MTTS3000,首款國產GPU游戲顯卡MTTS80,以及可廣泛應用于多個行業的邊緣AI計算模組。這些產品形成了完整的計算加速產品矩陣,全面滿足不同場景的需求。
八、行業應用:全功能GPU賦能千行百業
摩爾線程的全功能GPU不僅在技術上領先,更在多個行業領域展現出強大的應用價值。在智能計算領域,其大模型訓練和推理解決方案性能優異,運行DeepSeekR1671B全量模型的單路解碼速度約100token/s,處于行業領先水平。
在科學計算領域,與國內頂尖科研機構打造了軟硬件協同的生命科學解決方案,憑借全功能GPU的全精度計算、強大兼容性和高性能優勢,可高效運行分子動力學、分子對接等科學計算軟件。該方案不僅突破傳統研究瓶頸,更在性能上達到行業領先水平,推動生命科學研究的國產化突破。
物理仿真方面,硒鉬科技研發的AI for Science大模型平臺,依托全功能GPU強大算力與均衡的訓推能力,在保持計算精度下實現百倍仿真效率躍升。其專有智能體系統自動化處理重復科研工作,推動科學研究向工程化、精準化新范式演進。
在空間智能領域,依托全功能GPU算力,摩爾線程聯合超圖共同構建了覆蓋訓練、推理到可視化的完整國產化鏈條,支持億級參數模型開發,并實現快速解譯和高清影像實時渲染,成為國內極少數的可滿足遙感大模型全流程需求的國產GPU解決方案。

在具身智能、創娛教育、智能制造、智慧醫療、智能駕駛、智能座艙等領域,摩爾線程的全功能GPU也都有出色的應用展示,為各行業的智能化升級注入新動能。
從“AI工廠”理念的提出到全棧產品的展示,摩爾線程在WAIC 2025上充分展現了其在全功能GPU領域的深厚積累和領先地位。隨著技術的不斷迭代和應用的持續拓展,摩爾線程正以系統級創新定義新一代AI基礎設施,為AGI時代的到來奠定堅實的算力基礎。
相關閱讀:
摩爾線程“AI工廠”:以系統級創新定義新一代AI基礎設施
疑似摩爾線程S90曝光,對標RTX4060
摩爾線程吳慶詳解 MUSA 軟件棧:以技術創新釋放 KUAE 集群潛能,引領 GPU 計算新高度
-
gpu
+關注
關注
28文章
5076瀏覽量
134285 -
摩爾線程
+關注
關注
2文章
251瀏覽量
6130
發布評論請先 登錄
摩爾線程亮相GOTC 2025全球開源技術峰會
科士達全棧解決方案亮相2025 ODCC,驅動綠色AI智算基礎設施革新

摩爾線程WAIC2025亮相:以“AI工廠”理念重塑算力生態 全棧產品開啟智能新紀元
評論