国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

ChatGLM3-6B在CPU上的INT4量化和部署

英特爾物聯(lián)網(wǎng) ? 來源:英特爾物聯(lián)網(wǎng) ? 2024-01-05 09:36 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

作者:劉力 英特爾邊緣計算創(chuàng)新大使

ChatGLM3-6B 簡介

ChatGLM3 是智譜 AI 和清華大學 KEG 實驗室聯(lián)合發(fā)布的新一代對話預訓練模型。ChatGLM3-6B 是 ChatGLM3 系列中的開源模型,在填寫問卷進行登記后亦允許免費商業(yè)使用

02342994-aae9-11ee-8b88-92fbcf53809c.gif

請使用命令,將 ChatGLM3-6B 模型下載到本地:

git clone https://www.modelscope.cn/ZhipuAI/chatglm3-6b.git

左滑查看更多

BigDL-LLM 簡介

BigDL-LLM 是開源,遵循 Apache 2.0 許可證,專門用于在英特爾的硬件平臺上加速大語言模型(Large Language Model, LLM)推理計算的軟件工具包。它是在原有的 BigDL 框架基礎上,為了應對大語言模型在推理過程中對性能和資源的高要求而設計的。BigDL-LLM 旨在通過優(yōu)化和硬件加速技術來提高大語言模型的運行效率,減少推理延遲,并降低資源消耗。

BigDL-LLM 的主要特點包括:

1低精度優(yōu)化:通過支持 INT4/INT5/INT8 等低精度格式,減少模型的大小和推理時的計算量,同時保持較高的推理精度。

2硬件加速:利用英特爾 CPU 集成的硬件加速技術,如 AVX(Advanced Vector Extensions)、VNNI(Vector Neural Network Instructions)和 AMX(Advanced Matrix Extensions)等,來加速模型的推理計算。

3使用方便:對于基于 Hugging Face Transformers API 的模型,只需修改少量代碼即可實現(xiàn)加速,使得開發(fā)者可以輕松地在其現(xiàn)有模型上應用 BigDL-LLM。

4性能提升:BigDL-LLM 可以顯著提高大語言模型在英特爾平臺上的運行速度,減少推理時間,特別是在處理大規(guī)模模型和復雜任務時。

5資源友好:通過優(yōu)化模型運行時的資源使用,BigDL-LLM 使得大語言模型可以在資源受限的環(huán)境中也能高效運行,如普通的筆記本電腦或服務器。

使用 BigDL-LLM

量化并部署 ChatGLM3-6B

第一步,創(chuàng)建虛擬環(huán)境

請安裝 Anaconda,然后用下面的命令創(chuàng)建名為 llm 的虛擬環(huán)境:

conda create -n llm python=3.9
conda activate llm

左滑查看更多

第二步,安裝 BigDL-LLM

執(zhí)行命令:

pip install --pre --upgrade bigdl-llm[all] -i https://mirrors.aliyun.com/pypi/simple/

左滑查看更多

第三步:運行范例程序

范例程序下載地址:

https://gitee.com/Pauntech/chat-glm3/blob/master/chatglm3_infer.py

import time
from bigdl.llm.transformers import AutoModel
from transformers import AutoTokenizer


CHATGLM_V3_PROMPT_FORMAT = "<|user|>
{prompt}
<|assistant|>"
# 請指定chatglm3-6b的本地路徑
model_path = "d:/chatglm3-6b"
# 載入ChatGLM3-6B模型并實現(xiàn)INT4量化
model = AutoModel.from_pretrained(model_path,
                 load_in_4bit=True,
                 trust_remote_code=True)
# 載入tokenizer
tokenizer = AutoTokenizer.from_pretrained(model_path,
                     trust_remote_code=True)
# 制作ChatGLM3格式提示詞  
prompt = CHATGLM_V3_PROMPT_FORMAT.format(prompt="What is Intel?")
# 對提示詞編碼
input_ids = tokenizer.encode(prompt, return_tensors="pt")
st = time.time()
# 執(zhí)行推理計算,生成Tokens
output = model.generate(input_ids,max_new_tokens=32)
end = time.time()
# 對生成Tokens解碼并顯示
output_str = tokenizer.decode(output[0], skip_special_tokens=True)
print(f'Inference time: {end-st} s')
print('-'*20, 'Prompt', '-'*20)
print(prompt)
print('-'*20, 'Output', '-'*20)
print(output_str)

左滑查看更多

運行結(jié)果,如下所示:

025ed96e-aae9-11ee-8b88-92fbcf53809c.png

ChatGLM3-6B WebUI demo

請先安裝依賴軟件包:

pip install gradio mdtex2html streamlit -i https://mirrors.aliyun.com/pypi/simple/

左滑查看更多

下載范例程序:

https://gitee.com/Pauntech/chat-glm3/blob/master/chatglm3_web_demo.py

然后運行:

streamlit run chatglm3_web_demo.py

左滑查看更多

運行結(jié)果如下:

總結(jié)

BigDL-LLM 工具包簡單易用,僅需三步即可完成虛擬環(huán)境創(chuàng)建、BigDLL-LLM 安裝以及 ChatGLM3-6B 模型的 INT4 量化以及在英特爾 CPU 上的部署。

作者簡介

劉力,深圳市鉑盛科技有限公司的創(chuàng)始人。帶領團隊成功設計了多種計算機系統(tǒng),并申請了多項專利和軟件著作,鉑盛科技為國家高新技術企業(yè),深圳市專精特新企業(yè)。鉑盛通過整合算力和算法,打造軟硬件一體化的AIPC解決方案,目前產(chǎn)品已在工業(yè)控制、智能機器人、教育、醫(yī)療、金融等多個邊緣計算領域得到廣泛應用。

審核編輯:湯梓紅

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 英特爾
    +關注

    關注

    61

    文章

    10301

    瀏覽量

    180448
  • cpu
    cpu
    +關注

    關注

    68

    文章

    11279

    瀏覽量

    224983
  • AI
    AI
    +關注

    關注

    91

    文章

    39793

    瀏覽量

    301400
  • 開源
    +關注

    關注

    3

    文章

    4207

    瀏覽量

    46137

原文標題:三步完成 ChatGLM3-6B 在 CPU 上的 INT4 量化和部署 | 開發(fā)者實戰(zhàn)

文章出處:【微信號:英特爾物聯(lián)網(wǎng),微信公眾號:英特爾物聯(lián)網(wǎng)】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    為什么無法GPU使用INT8 和 INT4量化模型獲得輸出?

    安裝OpenVINO? 2024.0 版本。 使用 optimum-intel 程序包將 whisper-large-v3 模型轉(zhuǎn)換為 int 4int8,并在 GPU
    發(fā)表于 06-23 07:11

    使用 NPU 插件對量化的 Llama 3.1 8b 模型進行推理時出現(xiàn)“從 __Int64 轉(zhuǎn)換為無符號 int 的錯誤”,怎么解決?

    /Meta-Llama-3.1-8B --weight-format int4 --sym --group-size 128 --ratio 1.0 INT4-llama-3.1-8B 使用 NPU 插件
    發(fā)表于 06-25 07:20

    NCNN+Int8+yolov5部署量化

    【GiantPandaCV引言】?還記得我兩個月前寫的文章嗎,關于yolov4-tiny+ncnn+int8量化的詳細教程:NCNN+INT8+YOLOV4
    發(fā)表于 01-25 16:01 ?2次下載
    NCNN+<b class='flag-5'>Int</b>8+yolov5<b class='flag-5'>部署</b>和<b class='flag-5'>量化</b>

    英偉達:5nm實驗芯片用INT4達到INT8的精度

    降低數(shù)字格式而不造成重大精度損失,要歸功于按矢量縮放量化(per-vector scaled quantization,VSQ)的技術。具體來說,一個INT4數(shù)字只能精確表示從-8到7的16個整數(shù)。
    的頭像 發(fā)表于 12-12 15:48 ?1700次閱讀

    ChatGLM-6B的局限和不足

    ); ChatGLM-6B 是一個開源的、支持中英雙語的對話語言模型,基于 General Language Model (GLM) 架構(gòu),具有 62 億參數(shù); 結(jié)合模型量化技術,用戶可以消費級
    的頭像 發(fā)表于 06-25 11:50 ?6380次閱讀
    <b class='flag-5'>ChatGLM-6B</b>的局限和不足

    類GPT模型訓練提速26.5%,清華朱軍等人用INT4算法加速神經(jīng)網(wǎng)絡訓練

    使用 INT4 算法實現(xiàn)所有矩陣乘法的 Transformer 訓練方法。 模型訓練得快不快,這與激活值、權重、梯度等因素的要求緊密相關。 神經(jīng)網(wǎng)絡訓練需要一定計算量,使用低精度算法(全量化訓練或 FQT 訓練)有望提升計算和內(nèi)存的效率。FQT
    的頭像 發(fā)表于 07-02 20:35 ?1538次閱讀
    類GPT模型訓練提速26.5%,清華朱軍等人用<b class='flag-5'>INT4</b>算法加速神經(jīng)網(wǎng)絡訓練

    ChatGLM2-6B解析與TPU部署

    ChatGLM2-6B解析與TPU部署
    的頭像 發(fā)表于 08-18 11:28 ?1514次閱讀
    <b class='flag-5'>ChatGLM2-6B</b>解析與TPU<b class='flag-5'>部署</b>

    Xilinx器件具有INT4優(yōu)化的卷積神經(jīng)網(wǎng)絡

    電子發(fā)燒友網(wǎng)站提供《Xilinx器件具有INT4優(yōu)化的卷積神經(jīng)網(wǎng)絡.pdf》資料免費下載
    發(fā)表于 09-13 09:30 ?0次下載
    <b class='flag-5'>在</b>Xilinx器件<b class='flag-5'>上</b>具有<b class='flag-5'>INT4</b>優(yōu)化的卷積神經(jīng)網(wǎng)絡

    探索ChatGLM2算能BM1684XINT8量化部署,加速大模型商業(yè)落地

    1.背景介紹2023年7月時我們已通過靜態(tài)設計方案完成了ChatGLM2-6B單顆BM1684X部署工作,
    的頭像 發(fā)表于 10-10 10:18 ?5671次閱讀
    探索<b class='flag-5'>ChatGLM</b>2<b class='flag-5'>在</b>算能BM1684X<b class='flag-5'>上</b><b class='flag-5'>INT</b>8<b class='flag-5'>量化</b><b class='flag-5'>部署</b>,加速大模型商業(yè)落地

    Yolo系列模型的部署、精度對齊與int8量化加速

    基于PytorchQuantization導出的含有QDQ節(jié)點的onnx時,我們發(fā)現(xiàn)盡管量化版本的torch模型精度很高,但是TensorRT部署時精度卻很低,TRT
    的頭像 發(fā)表于 11-23 16:40 ?2647次閱讀

    OpenVINO? 2023.2 發(fā)布:讓生成式AI實際場景中更易用

    2023.2 版本中,我們進一步優(yōu)化此工作流程,并引入 CPU 和集成顯卡運行權重量化int
    的頭像 發(fā)表于 12-08 16:04 ?1860次閱讀
    OpenVINO? 2023.2 發(fā)布:讓生成式AI<b class='flag-5'>在</b>實際場景中更易用

    三步完成英特爾獨立顯卡量化部署ChatGLM3-6B模型

    ChatGLM3 是智譜 AI 和清華大學 KEG 實驗室聯(lián)合發(fā)布的新一代對話預訓練模型。ChatGLM3-6BChatGLM3 系列中的開源模型,填寫問卷進行登記后亦允許免費
    的頭像 發(fā)表于 01-11 18:04 ?2649次閱讀
    三步完成<b class='flag-5'>在</b>英特爾獨立顯卡<b class='flag-5'>上</b><b class='flag-5'>量化</b>和<b class='flag-5'>部署</b><b class='flag-5'>ChatGLM3-6B</b>模型

    【AIBOX】裝在小盒子的AI足夠強嗎?

    Firefly推出大語言模型本地部署的產(chǎn)品:AIBOX-1684X,目前已適配主流的大語言模型,包括ChatGLM3-6B,以下是ChatGLM3AIBOX-1684X
    的頭像 發(fā)表于 05-15 08:02 ?1297次閱讀
    【AIBOX】裝在小盒子的AI足夠強嗎?

    chatglm2-6bP40做LORA微調(diào)

    背景: 目前,大模型的技術應用已經(jīng)遍地開花。最快的應用方式無非是利用自有垂直領域的數(shù)據(jù)進行模型微調(diào)。chatglm2-6b國內(nèi)開源的大模型,效果比較突出。本文章分享的內(nèi)容是用
    的頭像 發(fā)表于 08-13 17:12 ?1474次閱讀
    <b class='flag-5'>chatglm2-6b</b><b class='flag-5'>在</b>P40<b class='flag-5'>上</b>做LORA微調(diào)

    源2.0-M32大模型發(fā)布量化版 運行顯存僅需23GB 性能可媲美LLaMA3

    2.0-M32量化版是"源"大模型團隊為進一步提高模算效率,降低大模型部署運行的計算資源要求而推出的版本,通過采用領先的量化技術,將原模型精度量化
    的頭像 發(fā)表于 08-25 22:06 ?1121次閱讀
    源2.0-M32大模型發(fā)布<b class='flag-5'>量化</b>版 運行顯存僅需23GB 性能可媲美LLaMA<b class='flag-5'>3</b>