国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

三步完成在英特爾獨立顯卡上量化和部署ChatGLM3-6B模型

英特爾物聯(lián)網(wǎng) ? 來源:英特爾物聯(lián)網(wǎng) ? 2024-01-11 18:04 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

01

ChatGLM3-6B 簡介

ChatGLM3 是智譜 AI 和清華大學(xué) KEG 實驗室聯(lián)合發(fā)布的新一代對話預(yù)訓(xùn)練模型。ChatGLM3-6B 是 ChatGLM3 系列中的開源模型,在填寫問卷進行登記后亦允許免費商業(yè)使用

問卷:

55f41322-b067-11ee-8b88-92fbcf53809c.gif

引用自:https://github.com/THUDM/ChatGLM3

請使用命令,將 ChatGLM3-6B 模型下載到本地 (例如,保存到 D 盤) :

git clone https://www.modelscope.cn/ZhipuAI/chatglm3-6b.git

左滑查看更多

02

BigDL-LLM 簡介

BigDL-LLM 是開源,遵循 Apache 2.0許可證,專門用于在英特爾的硬件平臺上加速大語言模型(Large Language Model, LLM)推理計算的軟件工具包。它是在原有的 BigDL 框架基礎(chǔ)上,為了應(yīng)對大語言模型在推理過程中對性能和資源的高要求而設(shè)計的。BigDL-LLM 旨在通過優(yōu)化和硬件加速技術(shù)來提高大語言模型的運行效率,減少推理延遲,并降低資源消耗。

本文將詳細介紹基于 BigDL-LLM 在英特爾獨立顯卡上量化和部署 ChatGLM3-6B 模型。

03

部署平臺簡介:

算力魔方是一款可以 DIY 的迷你主機,采用了抽屜式設(shè)計,后續(xù)組裝、升級、維護只需要拔插模塊。

通過選擇計算模塊的版本,再搭配不同額 IO 模塊可以組成豐富的配置,適應(yīng)不同場景。性能不夠時,可以升級計算模塊提升算力, IO 接口不匹配時,可以更換 IO 模塊調(diào)整功能,而無需重構(gòu)整個系統(tǒng)。本文在帶有 A380獨立顯卡的算力模方上完成驗證。

04

在英特爾獨立顯卡上部署 ChatGLM3-6B

4.1

搭建開發(fā)環(huán)境

第一步:請下載并安裝 Visual Studio 2022 Community Edition。安裝時務(wù)必選擇“使用 C++的桌面開發(fā)”。注意:不要修改默認安裝路徑!

下載鏈接:

562d0c9a-b067-11ee-8b88-92fbcf53809c.png

第二步:請下載并安裝英特爾獨立顯卡驅(qū)動程序。

下載鏈接:

https://www.intel.cn/content/www/cn/zh/download/785597/intel-arc-iris-xe-graphics-windows.html

第三步:請下載并安裝 Intel oneAPI Base Toolkit。

下載鏈接:

https://www.intel.com/content/www/us/en/developer/tools/oneapi/base-toolkit-download.html

第四步:請下載并安裝 Anaconda,然后用下面的命令創(chuàng)建名為“bigdl”的虛擬環(huán)境。

conda create -n bigdl python=3.9 libuv
conda activate bigdl

4.2

安裝 BigDL-LLM[xpu]

第一步:用下載器 (例如:迅雷) 下載*.whl 安裝包到本地。

下載鏈接:

https://intel-extension-for-pytorch.s3.amazonaws.com/ipex_stable/xpu/torch-2.1.0a0%2Bcxx11.abi-cp39-cp39-win_amd64.whl

https://intel-extension-for-pytorch.s3.amazonaws.com/ipex_stable/xpu/torchvision-0.16.0a0%2Bcxx11.abi-cp39-cp39-win_amd64.whl

https://intel-extension-for-pytorch.s3.amazonaws.com/ipex_stable/xpu/intel_extension_for_pytorch-2.1.10%2Bxpu-cp39-cp39-win_amd64.whl

第二步:執(zhí)行命令:

# 從本地安裝已下載的.whl安裝包
pip install torch-2.1.0a0+cxx11.abi-cp39-cp39-win_amd64.whl
pip install torchvision-0.16.0a0+cxx11.abi-cp39-cp39-win_amd64.whl
pip install intel_extension_for_pytorch-2.1.10+xpu-cp39-cp39-win_amd64.whl


# 安裝支持英特爾顯卡的bigdl-llm
pip install --pre --upgrade bigdl-llm[xpu] -i https://mirrors.aliyun.com/pypi/simple/

左滑查看更多

詳情參考:

https://bigdl.readthedocs.io/en/latest/doc/LLM/Overview/install_gpu.html

4.3

第三步:運行范例程序

首先:執(zhí)行命令,配置環(huán)境變量:

conda activate bigdl
call "C:Program Files (x86)InteloneAPIsetvars.bat"
set SYCL_CACHE_PERSISTENT=1
set BIGDL_LLM_XMX_DISABLED=1

左滑查看更多

若系統(tǒng)中有集成顯卡,請執(zhí)行下面的命令,保證英特爾獨立顯卡是“xpu”指代的計算設(shè)備,

詳情參考:

https://github.com/intel-analytics/BigDL/issues/9768

set ONEAPI_DEVICE_SELECTOR=level_zero:1

左滑查看更多

然后,請下載范例程序并運行:

https://gitee.com/Pauntech/chat-glm3/blob/master/chatglm3_infer_gpu.py

import time
from bigdl.llm.transformers import AutoModel
from transformers import AutoTokenizer
import intel_extension_for_pytorch as ipex
import torch
CHATGLM_V3_PROMPT_FORMAT = "<|user|>
{prompt}
<|assistant|>"
# 請指定chatglm3-6b的本地路徑
model_path = "d:/chatglm3-6b"
# 載入ChatGLM3-6B模型并實現(xiàn)INT4量化
model = AutoModel.from_pretrained(model_path,
                 load_in_4bit=True,
                 trust_remote_code=True)
# run the optimized model on Intel GPU
model = model.to('xpu')
# 載入tokenizer
tokenizer = AutoTokenizer.from_pretrained(model_path,
                     trust_remote_code=True)
# 制作ChatGLM3格式提示詞  
prompt = CHATGLM_V3_PROMPT_FORMAT.format(prompt="What is Intel?")
# 對提示詞編碼
input_ids = tokenizer.encode(prompt, return_tensors="pt")
input_ids = input_ids.to('xpu')
st = time.time()
# 執(zhí)行推理計算,生成Tokens
output = model.generate(input_ids,max_new_tokens=32)
end = time.time()
# 對生成Tokens解碼并顯示
output_str = tokenizer.decode(output[0], skip_special_tokens=True)
print(f'Inference time: {end-st} s')
print('-'*20, 'Prompt', '-'*20)
print(prompt)
print('-'*20, 'Output', '-'*20)
print(output_str)

運行結(jié)果,如下所示:

563ba57a-b067-11ee-8b88-92fbcf53809c.png

4.4

運行 ChatGLM3-6B WebUI demo

首先,請先安裝依賴軟件包:

pip install gradio mdtex2html streamlit -i https://mirrors.aliyun.com/pypi/simple/

然后,運行命令,配置環(huán)境變量:

conda activate bigdl
call "C:Program Files (x86)InteloneAPIsetvars.bat"
set SYCL_CACHE_PERSISTENT=1
set BIGDL_LLM_XMX_DISABLED=1

若系統(tǒng)中有集成顯卡,請執(zhí)行下面的命令,保證英特爾獨立顯卡是“xpu”指代的計算設(shè)備。

詳情參考:

https://github.com/intel-analytics/BigDL/issues/9768

set ONEAPI_DEVICE_SELECTOR=level_zero:1

最后,請下載范例程序:

https://gitee.com/Pauntech/chat-glm3/blob/master/chatglm3_web_demo_gpu.py

并運行:

streamlit run chatglm3_web_demo_gpu.py

左滑查看更多

運行結(jié)果如下:

56549706-b067-11ee-8b88-92fbcf53809c.jpg

05

總結(jié)

BigDL-LLM 工具包簡單易用,僅需三步即可完成開發(fā)環(huán)境搭建、bigdl-llm[xpu]安裝以及 ChatGLM3-6B 模型的 INT4量化以及在英特爾獨立顯卡上的部署。







審核編輯:劉清

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 英特爾
    +關(guān)注

    關(guān)注

    61

    文章

    10301

    瀏覽量

    180432
  • 語言模型
    +關(guān)注

    關(guān)注

    0

    文章

    571

    瀏覽量

    11310
  • LLM
    LLM
    +關(guān)注

    關(guān)注

    1

    文章

    346

    瀏覽量

    1329

原文標題:三步完成在英特爾獨立顯卡上量化和部署 ChatGLM3-6B 模型 | 開發(fā)者實戰(zhàn)

文章出處:【微信號:英特爾物聯(lián)網(wǎng),微信公眾號:英特爾物聯(lián)網(wǎng)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    CANDTU設(shè)備云實戰(zhàn):兩完成接入,三步玩轉(zhuǎn)數(shù)據(jù)

    CANDTU云平臺既能本地看數(shù),又能遠程云分析,但設(shè)備怎么接入?本期手把手教你兩完成配置,三步掌握數(shù)據(jù)查看技巧。CANDTU系列設(shè)備:滿足多樣化傳輸需求ZLG致遠電子CANDTU系
    的頭像 發(fā)表于 02-14 11:39 ?88次閱讀
    CANDTU設(shè)備<b class='flag-5'>上</b>云實戰(zhàn):兩<b class='flag-5'>步</b><b class='flag-5'>完成</b>接入,<b class='flag-5'>三步</b>玩轉(zhuǎn)數(shù)據(jù)

    【CIE全國RISC-V創(chuàng)新應(yīng)用大賽】基于 K1 AI CPU 的大模型部署落地

    ” 策略。我們必須使用 Q2_K (2-bit) 量化格式,將模型體積壓縮到 5.5GB 左右,從而在 8GB 內(nèi)存給 KV Cache(上下文)留出空間。 以下是按照官方工具鏈針對 14B
    發(fā)表于 11-27 14:43

    發(fā)力圖形工作站和AI推理市場,英特爾大顯存GPU亮相灣芯展

    英特爾發(fā)布了面向?qū)I(yè)的銳炫Pro B50和B60。這兩款顯卡比較RTX2000和5660Ti,有哪些性能上的優(yōu)勢?支持AI推理工作站和大
    的頭像 發(fā)表于 10-22 13:40 ?1.1w次閱讀
    發(fā)力圖形工作站和AI推理市場,<b class='flag-5'>英特爾</b>大顯存GPU亮相灣芯展

    英特爾可變顯存技術(shù)讓32GB內(nèi)存筆記本流暢運行Qwen 30B模型

    近日,阿里通義千問發(fā)布了兩款新版本30B(300億參數(shù))MoE大模型——Qwen3-30B-A3B-Instruct-2507 和 Qwen3-Coder-30B-A3B-Instru
    的頭像 發(fā)表于 08-14 15:39 ?1638次閱讀

    硬件與應(yīng)用同頻共振,英特爾Day 0適配騰訊開源混元大模型

    今日,騰訊正式發(fā)布新一代混元開源大語言模型英特爾憑借人工智能領(lǐng)域的全棧技術(shù)布局,現(xiàn)已在英特爾? 酷睿? Ultra 平臺上完成針對該
    的頭像 發(fā)表于 08-07 14:42 ?1365次閱讀
    硬件與應(yīng)用同頻共振,<b class='flag-5'>英特爾</b>Day 0適配騰訊開源混元大<b class='flag-5'>模型</b>

    主控CPU全能選手,英特爾至強6助力AI系統(tǒng)高效運轉(zhuǎn)

    2025年3月,英偉達發(fā)布了DGX B300 AI加速計算平臺。2025年5月,英特爾發(fā)布了款全新英特爾至強
    的頭像 發(fā)表于 06-27 11:44 ?879次閱讀
    主控CPU全能選手,<b class='flag-5'>英特爾</b>至強<b class='flag-5'>6</b>助力AI系統(tǒng)高效運轉(zhuǎn)

    英特爾銳炫Pro B系列,邊緣AI的“智能引擎”

    2025年6月19日,上海—— MWC 25上海期間,英特爾展示了一幅由英特爾銳炫? Pro B系列GPU所驅(qū)動的“實時響應(yīng)、安全高效、成
    的頭像 發(fā)表于 06-20 17:32 ?890次閱讀
    <b class='flag-5'>英特爾</b>銳炫Pro <b class='flag-5'>B</b>系列,邊緣AI的“智能引擎”

    直擊Computex 2025:英特爾重磅發(fā)布新一代GPU,圖形和AI性能躍升3.4倍

    電子發(fā)燒友原創(chuàng)? 章鷹 5月19日,Computex 2025英特爾發(fā)布了最新全新圖形處理器(GPU)和AI加速器產(chǎn)品系列。包括全新英特爾銳炫? Pro
    的頭像 發(fā)表于 05-21 00:57 ?7467次閱讀
    直擊Computex 2025:<b class='flag-5'>英特爾</b>重磅發(fā)布新一代GPU,圖形和AI性能躍升3.4倍

    直擊Computex2025:英特爾重磅發(fā)布新一代GPU,圖形和AI性能躍升3.4倍

    5月19日,Computex 2025英特爾發(fā)布了最新全新圖形處理器(GPU)和AI加速器產(chǎn)品系列。包括全新英特爾銳炫? Pro B
    的頭像 發(fā)表于 05-20 12:27 ?5443次閱讀
    直擊Computex2025:<b class='flag-5'>英特爾</b>重磅發(fā)布新一代GPU,圖形和AI性能躍升3.4倍

    英特爾發(fā)布全新GPU,AI和工作站迎來新選擇

    英特爾推出面向準專業(yè)用戶和AI開發(fā)者的英特爾銳炫Pro GPU系列,發(fā)布英特爾? Gaudi 3 AI加速器機架級和PCIe部署方案 ? 2
    發(fā)表于 05-20 11:03 ?1844次閱讀

    Intel OpenVINO? Day0 實現(xiàn)阿里通義 Qwen3 快速部署

    本文將以 Qwen3-8B 為例,介紹如何利用 OpenVINO 的 Python API 英特爾平臺(GPU, NPU)Qwen3 系列模型
    的頭像 發(fā)表于 05-11 11:36 ?1711次閱讀
    Intel OpenVINO? Day0 實現(xiàn)阿里通義 Qwen<b class='flag-5'>3</b> 快速<b class='flag-5'>部署</b>

    英特爾酷睿Ultra AI PC上部署多種圖像生成模型

    全新英特爾酷睿Ultra 200V系列處理器對比上代Meteor Lake,升級了模塊化結(jié)構(gòu)、封裝工藝,采用全新性能核與能效核、英特爾硬件線程調(diào)度器、Xe2微架構(gòu)銳炫GPU、第四代NPU等,由此也帶來了CPU性能提升18%,GPU性能提升30%,整體功耗降低50%,以及1
    的頭像 發(fā)表于 04-02 15:47 ?1484次閱讀
    <b class='flag-5'>在</b><b class='flag-5'>英特爾</b>酷睿Ultra AI PC上<b class='flag-5'>部署</b>多種圖像生成<b class='flag-5'>模型</b>

    部署成本顯著降低!英特爾助陣高效AI算力一體機方案

    3月27日,英特爾舉辦了名為“‘至’繪未來,銳炫來襲”的創(chuàng)新解決方案研討會,與生態(tài)伙伴共同分享最新AI算力一體機方案。該方案基于英特爾?至強? W處理器和多個英特爾銳炫?
    的頭像 發(fā)表于 03-29 16:29 ?2091次閱讀
    <b class='flag-5'>部署</b>成本顯著降低!<b class='flag-5'>英特爾</b>助陣高效AI算力一體機方案

    英特爾展示基于至強6處理器的基礎(chǔ)網(wǎng)絡(luò)設(shè)施

    ; 與5G核心網(wǎng)解決方案合作伙伴的深度合作,加快了英特爾至強6能效核處理器整個生態(tài)系統(tǒng)中的應(yīng)用; 基于5G核心網(wǎng)工作負載的獨立驗證確認了英特爾
    的頭像 發(fā)表于 03-08 09:24 ?1047次閱讀

    英特爾銳炫B系列顯卡XeSS 2技術(shù)正式支持網(wǎng)易游戲

    當霹靂火劃破紐約街道的瞬間,你是否沉浸在絲滑流暢的決勝時刻?龍隱洞天刀光劍影的生死對決中,0.1秒的延遲也可能成為勝負關(guān)鍵。全新英特爾銳炫?B系列顯卡(代號Battlemage)與多
    的頭像 發(fā)表于 03-08 09:19 ?1278次閱讀