国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

源2.0-M32大模型發布量化版 運行顯存僅需23GB 性能可媲美LLaMA3

全球TMT ? 來源:全球TMT ? 作者:全球TMT ? 2024-08-25 22:06 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

北京2024年8月23日/美通社/ -- 近日,浪潮信息發布源2.0-M32大模型4bit和8bit量化版,性能比肩700億參數的LLaMA3開源大模型。4bit量化版推理運行顯存僅需23.27GB,處理每token所需算力約為1.9 GFLOPs,算力消耗僅為同等當量大模型LLaMA3-70B的1/80。而LLaMA3-70B運行顯存為160GB,所需算力為140GFLOPs。

源2.0-M32量化版是"源"大模型團隊為進一步提高模算效率,降低大模型部署運行的計算資源要求而推出的版本,通過采用領先的量化技術,將原模型精度量化至int4和int8級別,并保持模型性能基本不變。源2.0-M32量化版提高了模型部署加載速度和多線程推理效率,在不同硬件和軟件環境中均能高效運行,降低了模型移植和部署門檻,讓用戶使用更少的計算資源,就能獲取源2.0-M32大模型的強大能力。

源2.0-M32大模型是浪潮信息"源2.0"系列大模型的最新版本,其創新性地提出和采用了"基于注意力機制的門控網絡"技術,構建包含32個專家(Expert)的混合專家模型(MoE),模型運行時激活參數為37億,在業界主流基準評測中性能全面對標700億參數的LLaMA3開源大模型,大幅提升了模型算力效率。

模型量化(Model Quantization)是優化大模型推理的一種主流技術,它顯著減少了模型的內存占用和計算資源消耗,從而加速推理過程。然而,模型量化可能會影響模型的性能。如何在壓縮模型的同時維持其精度,是量化技術面臨的核心挑戰。

源2.0-M32大模型研發團隊深入分析當前主流的量化方案,綜合評估模型壓縮效果和精度損失表現,最終采用了GPTQ量化方法,并采用AutoGPTQ作為量化框架。為了確保模型精度最大化,一方面定制化適配了適合源2.0-M32結構的算子,提高了模型的部署加載速度和多線程推理效率,實現高并發推理;另一方面對需要量化的中間層(inter_layers)進行了嚴格評估和篩選,確定了最佳的量化層。從而成功將模型精度量化至int4和int8級別,在模型精度幾乎無損的前提下,提升模型壓縮效果、增加推理吞吐量和降低計算成本,使其更易于部署到移動設備和邊緣設備上。

評測結果顯示,源2.0-M32量化版在多個業界主流的評測任務中性能表現突出,特別是在MATH(數學競賽)、ARC-C(科學推理)任務中,比肩擁有700億參數的LLaMA3大模型。

wKgaombLOmGAMfOeAACBJMP6AFU808.jpg


總之,源2.0-M32大模型量化版在保持推理性能的前提下,顯著降低了計算資源消耗和內存占用,其采用的GPTQ量化方法通過精細調整,成功將模型適配至int4和int8精度級別。通過定制化算子優化,源2.0-M32量化版實現了模型結構的深度適配和性能的顯著提升,確保在不同硬件和軟件環境中均能高效運行。未來,隨著量化技術的進一步優化和應用場景的拓展,源2.0-M32量化版有望在移動設備和邊緣計算等領域發揮更廣泛的作用,為用戶提供更高效的智能服務。

源2.0-M32量化版已開源,下載鏈接如下:

Hugging Face平臺下載鏈接:

https://huggingface.co/IEITYuan/Yuan2-M32-gguf-int4
https://huggingface.co/IEITYuan/Yuan2-M32-hf-int4
https://huggingface.co/IEITYuan/Yuan2-M32-hf-int8

modelscope平臺下載鏈接:

https://modelscope.cn/models/IEITYuan/Yuan2-M32-gguf-int4
https://modelscope.cn/models/IEITYuan/Yuan2-M32-HF-INT4
https://modelscope.cn/models/IEITYuan/Yuan2-M32-hf-int8


審核編輯 黃宇

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 開源
    +關注

    關注

    3

    文章

    4203

    瀏覽量

    46125
  • 算力
    +關注

    關注

    2

    文章

    1528

    瀏覽量

    16740
  • 大模型
    +關注

    關注

    2

    文章

    3648

    瀏覽量

    5179
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    登臨科技KS系列GPU產品全面適配MiniMax M2.5模型

    對MiniMax M2.5模型的高效支持,更依托KS38/ KS58云端推理卡——單卡最高配備128GB顯存,推出
    的頭像 發表于 03-04 17:49 ?1082次閱讀
    登臨科技KS系列GPU產品全面適配MiniMax <b class='flag-5'>M</b>2.5<b class='flag-5'>模型</b>

    阿里巴巴開源全新一代大模型千問Qwen3.5-Plus

    千問3.5實現了底層模型架構的全面革新,此次發布的Qwen3.5-Plus版本總參數為3970億,激活170億,以小勝大,性能超過萬億參數的Qwen
    的頭像 發表于 02-26 15:40 ?770次閱讀
    阿里巴巴開源全新一代大<b class='flag-5'>模型</b>千問Qwen3.5-Plus

    如何在Arm Neoverse N2平臺上提升llama.cpp擴展性能

    跨 NUMA 內存訪問可能會限制 llama.cpp 在 Arm Neoverse 平臺上的擴展能力。本文將為你詳細分析這一問題,并通過引入原型驗證補丁來加以解決。測試結果表明,在基于 Neoverse N2 平臺的系統上運行 llam
    的頭像 發表于 02-11 10:06 ?165次閱讀

    【CIE全國RISC-V創新應用大賽】基于 K1 AI CPU 的大模型部署落地

    8GB 物理內存 (且操作系統還要占用約 500MB+)。 結論 :如果直接照搬官方文檔下載 Q4 模型, 100% 會因為內存不足(OOM)而無法運行 。 為了滿足賽題要求,必須采用 “極限
    發表于 11-27 14:43

    大規模專家并行模型在TensorRT-LLM的設計

    DeepSeek-V3 / R1 等模型采用大規模細粒度混合專家模型 (MoE) 架構,大幅提升了開源模型的質量。Llama 4 和 Qwe
    的頭像 發表于 09-06 15:21 ?1224次閱讀
    大規模專家并行<b class='flag-5'>模型</b>在TensorRT-LLM的設計

    ALINX VD100低功耗端側大模型部署方案,運行3B模型功耗5W?!

    完整模型,以降低延遲、保護隱私并節省通信成本。但真正落地時卻發現:功耗吃緊、模型裁剪嚴重、開發流程繁瑣,使得“能運行”遠遠達不到“用得好”。 基于 ALINX VD100 開發平臺,客戶打造出一套面向 AI 終端的大
    的頭像 發表于 09-03 14:58 ?723次閱讀
    ALINX VD100低功耗端側大<b class='flag-5'>模型</b>部署方案,<b class='flag-5'>運行</b><b class='flag-5'>3</b>B<b class='flag-5'>模型</b>功耗<b class='flag-5'>僅</b>5W?!

    3Dfindit上發布世嘉智尼的上萬個3D CAD模型,優化用戶設計流程

    Dfindit進行創新銷售 零部件制造商通過 eCATALOG 3Dfindit 在全球工程平臺 3Dfindit 發布產品目錄,實則將銷售渠道直接延伸至設計師的 CAD 系統:所有模型
    發表于 08-27 15:44

    英特爾可變顯存技術讓32GB內存筆記本流暢運行Qwen 30B大模型

    近日,阿里通義千問發布了兩款新版本30B(300億參數)MoE大模型——Qwen3-30B-A3B-Instruct-2507 和 Qwen3-Coder-30B-A3B-Instru
    的頭像 發表于 08-14 15:39 ?1634次閱讀

    OpenAI發布2款開源模型

    單個 H100 GPU 上運行 80 GB 內存,專為生產環境、通用應用和高推理需求的用例設計,既可以部署在數據中心,也能在高端臺式機和筆記本電腦上
    的頭像 發表于 08-06 14:25 ?1026次閱讀

    模型推理顯存和計算量估計方法研究

    (如全連接層、卷積層等)確定所需的顯存大小; (3)將各層顯存大小相加,得到模型總的顯存需求。 基于神經網絡剪枝的
    發表于 07-03 19:43

    中國移動攜手華為發布網絡運行模型2.0

    近日,在2025 MWC上海期間,由IMT2020(5G)推進組和中國移動主辦、華為承辦的5G-A網絡賦能差異化體驗產業圓桌上,中國移動攜手華為發布了基于5G-A核心網的網絡運行模型2.0
    的頭像 發表于 07-01 15:32 ?1036次閱讀

    使用 NPU 插件對量化Llama 3.1 8b 模型進行推理時出現“從 __Int64 轉換為無符號 int 的錯誤”,怎么解決?

    安裝了 OpenVINO? GenAI 2024.4。 使用以下命令量化 Llama 3.1 8B 模型: optimum-cli export openvino -m meta-
    發表于 06-25 07:20

    瑞芯微模型量化文件構建

    模型是一張圖片輸入時,量化文件如上圖所示。但是我現在想量化deepprivacy人臉匿名模型,他的輸入是四個輸入。該模型訓練時數據集只標注
    發表于 06-13 09:07

    探索在Arm平臺運行Llama 4 Scout模型

    人工智能 (AI) 正在加速發展,也越來越智能化。當今的開源大語言模型不僅功能強大,而且在設計時充分考慮了實際部署的需求,因而具有輕量化和經濟高效的特點,可大規模部署到數十億臺設備上。簡而言之,對于開發者可能想到的各種情形,當今的開源大語言
    的頭像 發表于 05-20 09:54 ?746次閱讀

    將Deepseek移植到i.MX 8MP|93 EVK的步驟

    此共享介紹了如何將 deepseek 移植到i.MX93EVK使用 llama.cpp 的 Yocto BSP 本文檔使用的主要測試模型是在 deepseek 模型的基礎上進行提煉和量化
    發表于 03-26 06:08