国产一道精品视频一区二区三区 ,国产激情一区二区三区中文三级 ,非洲无码精品蜜桃一区二区

2026年2月12日，智譜AI發布Agentic Engineering時代最好的開源模型GLM-5，從“寫代碼”到“寫工程”的能力進一步演進。在Coding與Agent能力上取得開源SOTA表現，在真實編程場景的使用體驗逼近Claude Opus 4.5，更擅長復雜系統工程與長程Agent任務。昇騰一直同步支持智譜GLM系列模型，此次GLM-5模型一經開源發布，昇騰AI基礎軟硬件即實現0day適配，為該模型的推理部署和訓練復現提供全流程支持。

更大基座，更強智能

參數規模擴展：從355B（激活32B）擴展至744B（激活40B），預訓練數據從23T提升至28.5T，更大規模的預訓練算力顯著提升了模型的通用智能水平。

異步強化學習：構建全新的"Slime"框架，支持更大模型規模及更復雜的強化學習任務，提升強化學習后訓練流程效率；提出異步智能體強化學習算法，使模型能夠持續從長程交互中學習，充分激發預訓練模型的潛力。

稀疏注意力機制：首次集成DeepSeek Sparse Attention，在維持長文本效果無損的同時，大幅降低模型部署成本，提升Token Efficiency。

Coding能力：對齊Claude Opus 4.5

GLM-5在SWE-bench-Verified和Terminal Bench 2.0中，分別獲得77.4和55.7的開源模型最高分數，性能超過Gemini 3.0 Pro。

Agent能力：SOTA級長程任務執行

GLM-5在多個Agent測評基準中取得開源第一，在BrowseComp（聯網檢索與信息理解）、MCP-Atlas（工具調用和多步驟任務執行）和τ2-Bench（復雜多工具場景下的規劃和執行）均取得最優表現。

在衡量模型經營能力的Vending Bench 2中，GLM-5獲得開源模型中的最佳表現。Vending Bench 2要求模型在一年期內經營一個模擬的自動售貨機業務，GLM-5最終賬戶余額達到4432美元，經營表現接近Claude Opus 4.5，展現了出色的長期規劃和資源管理能力。

這些能力是 Agentic Engineering 的核心：模型不僅要能寫代碼、完成工程，還要能在長程任務中保持目標一致性、進行資源管理、處理多步驟依賴關系，成為真正的 Agentic Ready 基座模型。

基于昇騰實現GLM-5的混合精度高效推理

昇騰支持對GLM模型W4A8混合精度量化，744B超大參數模型基于Atlas 800 A3實現單機部署。

GLM-5為78層decoder-only大模型：前3層為Dense FFN，后75層為MoE（路由專家+共享專家），自帶一層MTP（Multi-Token Prediction）用于加速解碼過程。針對這一模型結構，昇騰對權重文件采用了W4A8量化，極大減少顯存占用，加速Decode階段的執行速度。同時采用了Lightning Indexer、Sparse Flash Attention等高性能融合算子，加速模型端到端的推理執行，并支持業界主流推理引擎vLLM-Ascend、SGLang和xLLM高效部署。

權重下載：

https://ai.atomgit.com/atomgit-ascend/GLM-5-w4a8

推理部署：

https://atomgit.com/zai-org/GLM-5-code/blob/main/example/ascend.md

昇騰W4A8量化，極大減少顯存占用

采用易擴展的MsModelSlim量化工具，全程輕松量化

按模塊區分量化比特與算法：例如Attention與MLP主體用W8A8，MoE專家用W4A8；gate等量化敏感層可按需回退，避免過大精度損失。

一鍵即可量化：支持GLM-5量化過程“預處理+子圖融合+分層線性量化”的完整流水線，安裝后一條命令行即可輕松完成量化：msmodelslim quant --model_path ${model_path} --save_path ${save_path} --model_type GLM-5 --quant_type w4a8 --trust_remote_code True

MsModelSlim提供豐富量化策略，實現快速精度對齊

旋轉Quarot算法：對權重做Hadamard旋轉與LayerNorm融合，降低激活異常值、改善后續量化的數值分布。

多種離群值抑制算法：采用Flex_AWQ_SSZ算法和Flex_Smooth_Quant算法混合策略，權重采用SSZ（Smooth Scale Zero）標定，支持縮放因子等超參。

線性層量化策略：對單層Linear做W8A8或W4A8，對激活值做per-token粒度量化、對權重做per-channel粒度量化。

高性能融合算子，加速推理執行

Lightning Indexer融合Kernel

長序列場景下TopK操作會成為瓶頸，通過引入Lightning Indexer融合算子，包含Score Batchmatmul、ReLU、ReduceSum、TopK等操作，可用TopK計算耗時流水掩蓋掉其他操作的耗時，從而提升計算流水收益。

Sparse Flash Attention融合Kernel

引入SFA，包含了從完整KVCache里選取TopK相關Token，及計算稀疏Flash Attention操作，可用離散聚合訪存耗時掩蓋其他操作耗時。

MLAPO 融合Kernel

GLM-5在Sparse Flash Attention預處理階段將query和KV進行降維操作，并且把query降維后的激活值傳遞給Indexer模塊進行稀疏選擇處理。近期將會引入MLAPO通過VV融合（多個Vector算子融合）技術，將前處理過程中的13個小算子直接融合成1個超級大算子。除此之外，在MLAPO算子內部，通過Vector和Cube計算單元的并行處理及流水優化，進一步提升算子整體性能。

基于昇騰實現GLM-5的訓練復現

GLM-5采用了DeepSeek Sparse Attention（DSA）架構，針對DSA訓練場景，昇騰團隊設計并實現了昇騰親和融合算子，從兩方面進行優化：一是優化Lightning Indexer Loss計算階段的內存占用，二是利用昇騰Cube和Vector單元的流水并行來進一步提升計算效率。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴