2026年2月12日,智譜AI發布Agentic Engineering時代最好的開源模型GLM-5,從“寫代碼”到“寫工程”的能力進一步演進。在Coding與Agent能力上取得開源SOTA表現,在真實編程場景的使用體驗逼近Claude Opus 4.5,更擅長復雜系統工程與長程Agent任務。昇騰一直同步支持智譜GLM系列模型,此次GLM-5模型一經開源發布,昇騰AI基礎軟硬件即實現0day適配,為該模型的推理部署和訓練復現提供全流程支持。
更大基座,更強智能
參數規模擴展:從355B(激活32B)擴展至744B(激活40B),預訓練數據從23T提升至28.5T,更大規模的預訓練算力顯著提升了模型的通用智能水平。
異步強化學習:構建全新的"Slime"框架,支持更大模型規模及更復雜的強化學習任務,提升強化學習后訓練流程效率;提出異步智能體強化學習算法,使模型能夠持續從長程交互中學習,充分激發預訓練模型的潛力。
稀疏注意力機制:首次集成DeepSeek Sparse Attention,在維持長文本效果無損的同時,大幅降低模型部署成本,提升Token Efficiency。
Coding能力:對齊Claude Opus 4.5
GLM-5在SWE-bench-Verified和Terminal Bench 2.0中,分別獲得77.4和55.7的開源模型最高分數,性能超過Gemini 3.0 Pro。

Agent能力:SOTA級長程任務執行
GLM-5在多個Agent測評基準中取得開源第一,在BrowseComp(聯網檢索與信息理解)、MCP-Atlas(工具調用和多步驟任務執行)和τ2-Bench(復雜多工具場景下的規劃和執行)均取得最優表現。

在衡量模型經營能力的Vending Bench 2中,GLM-5獲得開源模型中的最佳表現。Vending Bench 2要求模型在一年期內經營一個模擬的自動售貨機業務,GLM-5最終賬戶余額達到4432美元,經營表現接近Claude Opus 4.5,展現了出色的長期規劃和資源管理能力。

這些能力是 Agentic Engineering 的核心:模型不僅要能寫代碼、完成工程,還要能在長程任務中保持目標一致性、進行資源管理、處理多步驟依賴關系,成為真正的 Agentic Ready 基座模型。
基于昇騰實現GLM-5的混合精度高效推理
昇騰支持對GLM模型W4A8混合精度量化,744B超大參數模型基于Atlas 800 A3實現單機部署。
GLM-5為78層decoder-only大模型:前3層為Dense FFN,后75層為MoE(路由專家+共享專家),自帶一層MTP(Multi-Token Prediction)用于加速解碼過程。針對這一模型結構,昇騰對權重文件采用了W4A8量化,極大減少顯存占用,加速Decode階段的執行速度。同時采用了Lightning Indexer、Sparse Flash Attention等高性能融合算子,加速模型端到端的推理執行,并支持業界主流推理引擎vLLM-Ascend、SGLang和xLLM高效部署。
權重下載:
https://ai.atomgit.com/atomgit-ascend/GLM-5-w4a8
推理部署:
https://atomgit.com/zai-org/GLM-5-code/blob/main/example/ascend.md
昇騰W4A8量化,極大減少顯存占用
采用易擴展的MsModelSlim量化工具,全程輕松量化
按模塊區分量化比特與算法:例如Attention與MLP主體用W8A8,MoE專家用W4A8;gate等量化敏感層可按需回退,避免過大精度損失。

一鍵即可量化:支持GLM-5量化過程“預處理+子圖融合+分層線性量化”的完整流水線,安裝后一條命令行即可輕松完成量化:msmodelslim quant --model_path ${model_path} --save_path ${save_path} --model_type GLM-5 --quant_type w4a8 --trust_remote_code True
MsModelSlim提供豐富量化策略,實現快速精度對齊
旋轉Quarot算法:對權重做Hadamard旋轉與LayerNorm融合,降低激活異常值、改善后續量化的數值分布。
多種離群值抑制算法:采用Flex_AWQ_SSZ算法和Flex_Smooth_Quant算法混合策略,權重采用SSZ(Smooth Scale Zero)標定,支持縮放因子等超參。
線性層量化策略:對單層Linear做W8A8或W4A8,對激活值做per-token粒度量化、對權重做per-channel粒度量化。
高性能融合算子,加速推理執行
Lightning Indexer融合Kernel
長序列場景下TopK操作會成為瓶頸,通過引入Lightning Indexer融合算子,包含Score Batchmatmul、ReLU、ReduceSum、TopK等操作,可用TopK計算耗時流水掩蓋掉其他操作的耗時,從而提升計算流水收益。
Sparse Flash Attention融合Kernel
引入SFA,包含了從完整KVCache里選取TopK相關Token,及計算稀疏Flash Attention操作,可用離散聚合訪存耗時掩蓋其他操作耗時。
MLAPO 融合Kernel
GLM-5在Sparse Flash Attention預處理階段將query和KV進行降維操作,并且把query降維后的激活值傳遞給Indexer模塊進行稀疏選擇處理。近期將會引入MLAPO通過VV融合(多個Vector算子融合)技術,將前處理過程中的13個小算子直接融合成1個超級大算子。除此之外,在MLAPO算子內部,通過Vector和Cube計算單元的并行處理及流水優化,進一步提升算子整體性能。
基于昇騰實現GLM-5的訓練復現
GLM-5采用了DeepSeek Sparse Attention(DSA)架構,針對DSA訓練場景,昇騰團隊設計并實現了昇騰親和融合算子,從兩方面進行優化:一是優化Lightning Indexer Loss計算階段的內存占用,二是利用昇騰Cube和Vector單元的流水并行來進一步提升計算效率。
-
開源
+關注
關注
3文章
4261瀏覽量
46323 -
模型
+關注
關注
1文章
3778瀏覽量
52195 -
昇騰
+關注
關注
1文章
185瀏覽量
7501
原文標題:昇騰0day支持智譜GLM-5,744B模型單機高效推理
文章出處:【微信號:huaweicorp,微信公眾號:華為】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
壁仞科技壁礪166系列產品深度適配MiniMax M2.5和智譜GLM-5模型
大模型 ai coding 比較
寒武紀實現對GLM-5的Day 0適配
摩爾線程MTT S5000率先完成對GLM-5的適配
Day-0支持|摩爾線程MTT S5000率先完成對GLM-5的適配
沐曦曦云C500/C550 GPU產品適配智譜GLM-OCR模型
AI+FPGA助力昇騰生態新篇章|2025昇騰AI技術研討會·杭州站成功舉辦
華為昇騰深度適配智譜AI全新開源模型GLM-5
評論