国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

華為昇騰深度適配智譜AI全新開源模型GLM-5

華為 ? 來源:華為 ? 2026-02-25 14:41 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

2026年2月12日,智譜AI發布Agentic Engineering時代最好的開源模型GLM-5,從“寫代碼”到“寫工程”的能力進一步演進。在Coding與Agent能力上取得開源SOTA表現,在真實編程場景的使用體驗逼近Claude Opus 4.5,更擅長復雜系統工程與長程Agent任務。昇騰一直同步支持智譜GLM系列模型,此次GLM-5模型一經開源發布,昇騰AI基礎軟硬件即實現0day適配,為該模型的推理部署和訓練復現提供全流程支持。

更大基座,更強智能

參數規模擴展:從355B(激活32B)擴展至744B(激活40B),預訓練數據從23T提升至28.5T,更大規模的預訓練算力顯著提升了模型的通用智能水平。

異步強化學習:構建全新的"Slime"框架,支持更大模型規模及更復雜的強化學習任務,提升強化學習后訓練流程效率;提出異步智能體強化學習算法,使模型能夠持續從長程交互中學習,充分激發預訓練模型的潛力。

稀疏注意力機制:首次集成DeepSeek Sparse Attention,在維持長文本效果無損的同時,大幅降低模型部署成本,提升Token Efficiency。

Coding能力:對齊Claude Opus 4.5

GLM-5在SWE-bench-Verified和Terminal Bench 2.0中,分別獲得77.4和55.7的開源模型最高分數,性能超過Gemini 3.0 Pro。

c0f6a19c-0814-11f1-90a1-92fbcf53809c.png

Agent能力:SOTA級長程任務執行

GLM-5在多個Agent測評基準中取得開源第一,在BrowseComp(聯網檢索與信息理解)、MCP-Atlas(工具調用和多步驟任務執行)和τ2-Bench(復雜多工具場景下的規劃和執行)均取得最優表現。

c151371a-0814-11f1-90a1-92fbcf53809c.png

在衡量模型經營能力的Vending Bench 2中,GLM-5獲得開源模型中的最佳表現。Vending Bench 2要求模型在一年期內經營一個模擬的自動售貨機業務,GLM-5最終賬戶余額達到4432美元,經營表現接近Claude Opus 4.5,展現了出色的長期規劃和資源管理能力。

c1ae2dc6-0814-11f1-90a1-92fbcf53809c.png

這些能力是 Agentic Engineering 的核心:模型不僅要能寫代碼、完成工程,還要能在長程任務中保持目標一致性、進行資源管理、處理多步驟依賴關系,成為真正的 Agentic Ready 基座模型。

基于昇騰實現GLM-5的混合精度高效推理

昇騰支持對GLM模型W4A8混合精度量化,744B超大參數模型基于Atlas 800 A3實現單機部署。

GLM-5為78層decoder-only大模型:前3層為Dense FFN,后75層為MoE(路由專家+共享專家),自帶一層MTP(Multi-Token Prediction)用于加速解碼過程。針對這一模型結構,昇騰對權重文件采用了W4A8量化,極大減少顯存占用,加速Decode階段的執行速度。同時采用了Lightning Indexer、Sparse Flash Attention等高性能融合算子,加速模型端到端的推理執行,并支持業界主流推理引擎vLLM-Ascend、SGLang和xLLM高效部署。

權重下載:

https://ai.atomgit.com/atomgit-ascend/GLM-5-w4a8

推理部署:

https://atomgit.com/zai-org/GLM-5-code/blob/main/example/ascend.md

昇騰W4A8量化,極大減少顯存占用

采用易擴展的MsModelSlim量化工具,全程輕松量化

按模塊區分量化比特與算法:例如Attention與MLP主體用W8A8,MoE專家用W4A8;gate等量化敏感層可按需回退,避免過大精度損失。

c20ee5b2-0814-11f1-90a1-92fbcf53809c.png

一鍵即可量化:支持GLM-5量化過程“預處理+子圖融合+分層線性量化”的完整流水線,安裝后一條命令行即可輕松完成量化:msmodelslim quant --model_path ${model_path} --save_path ${save_path} --model_type GLM-5 --quant_type w4a8 --trust_remote_code True

MsModelSlim提供豐富量化策略,實現快速精度對齊

旋轉Quarot算法:對權重做Hadamard旋轉與LayerNorm融合,降低激活異常值、改善后續量化的數值分布。

多種離群值抑制算法:采用Flex_AWQ_SSZ算法和Flex_Smooth_Quant算法混合策略,權重采用SSZ(Smooth Scale Zero)標定,支持縮放因子等超參。

線性層量化策略:對單層Linear做W8A8或W4A8,對激活值做per-token粒度量化、對權重做per-channel粒度量化。

高性能融合算子,加速推理執行

Lightning Indexer融合Kernel

長序列場景下TopK操作會成為瓶頸,通過引入Lightning Indexer融合算子,包含Score Batchmatmul、ReLU、ReduceSum、TopK等操作,可用TopK計算耗時流水掩蓋掉其他操作的耗時,從而提升計算流水收益。

Sparse Flash Attention融合Kernel

引入SFA,包含了從完整KVCache里選取TopK相關Token,及計算稀疏Flash Attention操作,可用離散聚合訪存耗時掩蓋其他操作耗時。

MLAPO 融合Kernel

GLM-5在Sparse Flash Attention預處理階段將query和KV進行降維操作,并且把query降維后的激活值傳遞給Indexer模塊進行稀疏選擇處理。近期將會引入MLAPO通過VV融合(多個Vector算子融合)技術,將前處理過程中的13個小算子直接融合成1個超級大算子。除此之外,在MLAPO算子內部,通過Vector和Cube計算單元的并行處理及流水優化,進一步提升算子整體性能。

基于昇騰實現GLM-5的訓練復現

GLM-5采用了DeepSeek Sparse Attention(DSA)架構,針對DSA訓練場景,昇騰團隊設計并實現了昇騰親和融合算子,從兩方面進行優化:一是優化Lightning Indexer Loss計算階段的內存占用,二是利用昇騰Cube和Vector單元的流水并行來進一步提升計算效率。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 開源
    +關注

    關注

    3

    文章

    4203

    瀏覽量

    46125
  • 模型
    +關注

    關注

    1

    文章

    3751

    瀏覽量

    52099
  • 昇騰
    +關注

    關注

    1

    文章

    181

    瀏覽量

    7417

原文標題:昇騰0day支持智譜GLM-5,744B模型單機高效推理

文章出處:【微信號:huaweicorp,微信公眾號:華為】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    壁仞科技壁礪166系列產品深度適配MiniMax M2.5和智GLM-5模型

    2月13日晚,MiniMax正式開源了最新旗艦模型M2.5。壁仞科技(06082.HK)旗艦產品壁礪166系列率先完成M2.5的本地化部署,成為首批完成適配的國產算力廠商。
    的頭像 發表于 02-26 14:31 ?454次閱讀
    壁仞科技壁礪166系列產品<b class='flag-5'>深度</b><b class='flag-5'>適配</b>MiniMax M2.5和智<b class='flag-5'>譜</b><b class='flag-5'>GLM-5</b><b class='flag-5'>模型</b>

    模型 ai coding 比較

    GLM-5 本地化部署/數據敏感場景 DeepSeek V2 Qwen2開源系列 ai coding 能力 因為 我對 java rust語言比較熟悉,所以想著以下面的提示詞 開發項目,看項目的吞吐量
    發表于 02-19 13:43

    模型競爭白熱化!智、MiniMax密集發布,DeepSeek V4路線圖曝光

    2月11日晚間,智發布新一代旗艦模型GLM-5,智稱,GLM-5在Coding與Agent能力上,取得
    的頭像 發表于 02-12 15:44 ?2.5w次閱讀
    大<b class='flag-5'>模型</b>競爭白熱化!智<b class='flag-5'>譜</b>、MiniMax密集發布,DeepSeek V4路線圖曝光

    寒武紀實現對GLM-5的Day 0適配

    2026年2月11日,寒武紀已基于 vLLM 推理框架同步實現對智新開源旗艦模型 ?GLM-5適配。寒武紀一直高度重視大
    的頭像 發表于 02-12 15:07 ?628次閱讀

    AI正式上線并開源全新一代大模型GLM-5

    AI正式上線并開源全新一代大模型GLM-5。作為面向復雜系統工程與長程Agent任務打造的新
    的頭像 發表于 02-12 14:40 ?685次閱讀

    曦云C系列GPU Day 0 適配全新一代大模型GLM-5

    AI正式上線并開源全新一代大模型 GLM-5,沐曦股份實現?Day 0
    的頭像 發表于 02-12 10:53 ?796次閱讀
    曦云C系列GPU Day 0 <b class='flag-5'>適配</b>智<b class='flag-5'>譜</b><b class='flag-5'>全新</b>一代大<b class='flag-5'>模型</b><b class='flag-5'>GLM-5</b>

    摩爾線程MTT S5000率先完成對GLM-5適配

    2月11日,智正式發布新一代大模型GLM-5。摩爾線程基于SGLang推理框架,在旗艦級AI訓推一體全功能GPU MTT S5000上,Day-0完成了全流程
    的頭像 發表于 02-12 10:34 ?643次閱讀
    摩爾線程MTT S5000率先完成對<b class='flag-5'>GLM-5</b>的<b class='flag-5'>適配</b>

    Day-0支持|摩爾線程MTT S5000率先完成對GLM-5適配

    2月11日,智正式發布新一代大模型GLM-5。摩爾線程基于SGLang推理框架,在旗艦級AI訓推一體全功能GPU MTT S5000上,Day-0完成了全流程
    發表于 02-12 09:15 ?487次閱讀
    Day-0支持|摩爾線程MTT S5000率先完成對<b class='flag-5'>GLM-5</b>的<b class='flag-5'>適配</b>

    沐曦曦云C500/C550 GPU產品適配GLM-OCR模型

    今天,智AI正式發布并開源GLM-OCR,以 “小尺寸、高精度” 實現文檔解析能力新標桿。沐曦股份曦云C500/C550 GPU充分發揮高生態兼容性、軟硬協同能力優勢,高效完成與智
    的頭像 發表于 02-03 11:36 ?652次閱讀
    沐曦曦云C500/C550 GPU產品<b class='flag-5'>適配</b>智<b class='flag-5'>譜</b><b class='flag-5'>GLM</b>-OCR<b class='flag-5'>模型</b>

    AI+FPGA助力生態新篇章|2025AI技術研討會·杭州站成功舉辦

    和杭州人工智能計算中心共同承辦。會議聚焦AI技術創新、行業解決方案落地及生態鏈協同發展三大核心議題。內容涵蓋底層硬件,大
    的頭像 發表于 12-24 08:05 ?590次閱讀
    <b class='flag-5'>AI</b>+FPGA助力<b class='flag-5'>昇</b><b class='flag-5'>騰</b>生態新篇章|2025<b class='flag-5'>昇</b><b class='flag-5'>騰</b><b class='flag-5'>AI</b>技術研討會·杭州站成功舉辦

    沐曦股份曦云C系列GPU Day 0適配GLM-4.6V多模態大模型

    12月8日智AI發布并開源 GLM-4.6V 系列多模態大模型,沐曦股份曦云C系列GPU完成Day 0
    的頭像 發表于 12-17 14:28 ?617次閱讀
    沐曦股份曦云C系列GPU Day 0<b class='flag-5'>適配</b>智<b class='flag-5'>譜</b><b class='flag-5'>GLM</b>-4.6V多模態大<b class='flag-5'>模型</b>

    國產AI芯片真能扛住“算力內卷”?海思的這波操作藏了多少細節?

    反而壓到了310W。更有意思的是它的異構架構:NPU+CPU+DVPP的組合,居然能同時扛住訓練和推理場景,之前做自動駕駛算法時,用它跑模型時延直接降了20%。 但疑惑也有:這種算力密度下,散熱怎么解決?而且的生態
    發表于 10-27 13:12

    澎峰科技完成OpenAI最新開源推理模型適配

    澎峰科技現已完成 OpenAI 最新開源推理模型 gpt-oss-20b 在 DeepFusion 大模型一體機上的原生適配與優化,用戶可一鍵啟用這顆“小而強悍”的新引擎,在本地享受企
    的頭像 發表于 08-14 11:34 ?1402次閱讀

    華為CANN與智GLM端側模型完成適配

    2025年8月5日,在計算產業發展峰會上,華為宣布CANN(Compute Architecture for Neural Networks)技術體系及Mind系列工具鏈全面
    的頭像 發表于 08-11 11:00 ?2564次閱讀

    創思遠達與合作推動AI PC應用創新

    近日,端側智能領域創新者創思遠達攜手,基于算力平臺正式發布一系列AIPC應用。雙方深度融合了
    的頭像 發表于 03-25 10:22 ?1361次閱讀