国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

如何在英特爾? 平臺上實現(xiàn)高效的大語言模型訓練后量化

英特爾中國 ? 來源:未知 ? 2023-07-14 20:10 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

本文介紹了可提升大語言模型的訓練后量化表現(xiàn)的增強型 SmoothQuant 技術,說明了這項技術的用法,并證明了其在準確率方面的優(yōu)勢。此方法已整合至英特爾Neural Compressor1中。英特爾 Neural Compressor 是一個包含量化、剪枝(稀疏性)、蒸餾(知識提煉)和神經架構搜索等多種常用模型壓縮技術的開源 Python 庫。目前,諸如 TensorFlow英特爾Extension for TensorFlow2、PyTorch、英特爾Extension for PyTorch3、ONNX Runtime 和 MXNet等主流框架,都能與之兼容。

英特爾 Neural Compressor已經支持多款英特爾架構的硬件,比如英特爾至強可擴展處理器4英特爾至強CPU Max 系列5英特爾數(shù)據(jù)中心GPU Flex 系列6英特爾數(shù)據(jù)中心 GPU Max 系列7。本文涉及的實驗基于第四代英特至強可擴展處理器8進行。

ccecbb12-223e-11ee-962d-dac502259ad0.gif ?大語言模型

大語言模型 (Large Language Model, LLM) 需基于海量數(shù)據(jù)集進行訓練,可能擁有數(shù)十億權重參數(shù)。其先進的網絡結構和龐大的參數(shù)量,使它們能夠很好地應對自然語言本身的復雜性。完成訓練后的大語言模型,可針對各種下游的自然語言處理 (NLP) 和自然語言生成 (NLG) 任務進行調優(yōu),讓其更適合對話式聊天機器人(如 ChatGPT)、機器翻譯、文本分類、欺詐檢測和情感分析等任務場景。

ccecbb12-223e-11ee-962d-dac502259ad0.gif ?大語言模型部署面臨的挑戰(zhàn)

大語言模型在執(zhí)行自然語言處理和自然語言生成任務方面表現(xiàn)出色,但其訓練和部署頗為復雜,主要面臨以下挑戰(zhàn):

AI 與內存墻9瓶頸問題:算力每兩年提高 3.1 倍,內存帶寬卻只提高 1.4 倍;

網絡帶寬挑戰(zhàn):訓練大語言模型需要采用分布式系統(tǒng),這對網絡帶寬提出了較高要求;

系統(tǒng)資源有限:訓練后的模型往往會部署在算力和內存資源均有限的系統(tǒng)上。

因此,采用訓練后量化的方法來為大語言模型瘦身,對于實現(xiàn)低時延推理至關重要。 ccecbb12-223e-11ee-962d-dac502259ad0.gif ?大語言模型的量化

量化是一種常見的壓縮操作,可以減少模型占用的內存空間,提高推理性能。采用量化方法可以降低大語言模型部署的難度。具體來說,量化是將浮點矩陣轉換為整數(shù)矩陣:

cd413ca0-223e-11ee-962d-dac502259ad0.png

其中 X_fp32、S 和 Z 分別為輸入矩陣、比例因子和整數(shù)零點。有關每通道 (per-channel) 量化策略雖然可能會減少量化損失,但不能用于激活值量化的原因,請參看 SmoothQuant 相關文檔10。不過,激活值量化誤差損失卻是導致模型量化準確率下降的重要因素。為此,人們提出了很多方法來降低激活值量化損失,例如:SPIQ11OutlierSuppression12SmoothQuant13。這三種方法思路相似,即把激活值量化的難度轉移到權重量化上,只是三者在轉移難度的多少上有所不同。ccecbb12-223e-11ee-962d-dac502259ad0.gif ?增強型 SmoothQuant SmoothQuant 引入了一個超參數(shù) α 作為平滑因子來計算每個通道的量化比例因子,并平衡激活值和權重的量化難度。

cd6edc14-223e-11ee-962d-dac502259ad0.png

其中 j 是輸入通道索引

cd856470-223e-11ee-962d-dac502259ad0.png

對于OPT 和 BLOOM 等大多數(shù)模型來說,α=0.5 是一個能夠較好實現(xiàn)權重和激活值量化難度分割的平衡值。模型的激活異常值越大,就越需要使用更大的 α 值來將更多的量化難度轉移到權重上。原始的 SmoothQuant 旨在通過針對整個模型使用一個固定值 α 來分割權重和激活值的量化難度。然而,由于激活異常值的分布不僅在不同模型之間存在差異,而且在同一模型的不同層之間也不盡相同,因此,本文推薦使用英特爾 Neural Compressor 的自動調優(yōu)能力,逐層獲取最佳 α 值。

相關方法包括以下五個主要步驟(偽代碼如下所示):

  1. 通過特殊的回調函數(shù) register_forward_hook 捕獲 (hook) 模型各層的輸入和輸出值。

  2. 根據(jù)用戶定義的 α 范圍和步長生成一個 α 值列表。

  3. 根據(jù)給定的 α 值重新計算平滑因子并調整參數(shù)(權重值和激活值)。

  4. 對權重執(zhí)行每通道量化與反量化 (quantization_dequantization),對輸入值執(zhí)行每張量 (per-tensor) 量化與反量化,以預測與給定 α 值對應的每層輸出值。

  5. 計算相對實際輸出值的均方損失,將調整后的參數(shù)恢復回來,并保存每層的最佳 α 值。

cdad2884-223e-11ee-962d-dac502259ad0.png

本文提出的方法支持用多個標準(如最小值、最大值和平均值)來確定 Transformer 塊的輸入層歸一化 (LayerNorm) 操作的 α 值。實驗發(fā)現(xiàn),將 α 范圍設為 [0.3, 0.7],步長設為 0.05,對大多數(shù)模型來說都能達到很好的平衡。 這一方法有兩個顯著特點:一是全自動化,二是比原始方法支持的融合模式多。 下圖提供了在 BLOOM-1b7 模型上執(zhí)行 SmoothQuant α 值自動調優(yōu)的樣例代碼: cdd25b40-223e-11ee-962d-dac502259ad0.png

啟用增強型 SmoothQuant 的樣例代碼

用戶只需傳遞一個模型名稱 (model_name) 和一個數(shù)據(jù)加載器。值得注意的是,模型分析主要依靠的是 Torch JIT。用戶可以在加載Hugging Face 模型14時將 torchscript 設置為 True,或將 return_dict 設置為 False。更多信息請參閱英特爾Neural Compressor 文檔10ccecbb12-223e-11ee-962d-dac502259ad0.gif ?

結果

本文提出的增強型 SmoothQuant 的主要優(yōu)勢在于提高了準確率。 經過對多種主流大語言模型的評估,具備自動調優(yōu)能力的 INT8 SmoothQuant 最后一個詞元 (last-token) 的預測準確率要高于原始 INT8 SmoothQuant 和 FP32 基線方法。詳見下圖: ce15bc50-223e-11ee-962d-dac502259ad0.png

FP32 基線方法、INT8(啟用和不啟用 SmoothQuant)以及 INT8(啟用本文提出的增強型 SmoothQuant)的準確率對比

從上圖可以看出,在 OPT-1.3b 和 BLOOM-1b7 模型上,本文提出的增強型 SmoothQuant 的準確率比默認的 SmoothQuant 分別高 5.4% 和 1.6%。量化后的模型也縮小到 FP32 模型的四分之一,大大減少了內存占用空間,從而有效地提升大模型在英特爾平臺上的推理性能。 更全面的結果請見 GitHub 存儲庫10。同時,也歡迎您創(chuàng)建拉取請求或就 GitHub 問題15發(fā)表評論。期待聽到您的反饋意見和建議。 作者

他們都在從事模型量化
及壓縮的研究與優(yōu)化工作

沈海豪英特爾公司人工智能資深架構師 程文華英特爾公司人工智能資深軟件工程師 陸崟彤、何欣、郭恒、王暢、王夢妮英特爾公司人工智能軟件工程師

注釋:

本文主要介紹在英特爾平臺上提升大語言模型的訓練后量化表現(xiàn)的增強型SmoothQuant技術,說明了這項技術的用法,并證明了其在準確率方面的優(yōu)勢。本文中列出的鏈接和資源。需要說明的是,將SmoothQuant適配到英特爾平臺并實現(xiàn)它在英特爾平臺上的增強,是英特爾的原創(chuàng)。

1.英特爾Neural Compressor

https://www.intel.cn/content/www/cn/zh/developer/tools/oneapi/neural-compressor.html2.英特爾Extension for TensorFlowhttps://www.intel.cn/content/www/cn/zh/developer/tools/oneapi/optimization-for-tensorflow.html3.英特爾Extension for PyTorchhttps://www.intel.cn/content/www/cn/zh/developer/tools/oneapi/optimization-for-pytorch.html4.英特爾至強可擴展處理器https://www.intel.cn/content/www/cn/zh/products/details/processors/xeon/scalable.html5.英特爾至強CPU Max 系列https://www.intel.cn/content/www/cn/zh/products/details/processors/xeon/max-series.html6.英特爾數(shù)據(jù)中心 GPU Flex 系列https://www.intel.cn/content/www/cn/zh/products/details/discrete-gpus/data-center-gpu/flex-series.html7.英特爾數(shù)據(jù)中心 GPU Max 系列https://www.intel.com/content/www/us/en/products/details/discrete-gpus/data-center-gpu/max-series.html8. 第四代英特爾至強可擴展處理器https://www.intel.cn/content/www/cn/zh/events/accelerate-with-xeon.html9. AI 與內存墻https://medium.com/riselab/ai-and-memory-wall-2cb4265cb0b810. SmoothQuant 相關文檔 /英特爾Neural Compressor 文檔 / GitHub 存儲庫https://github.com/intel/neural-compressor/blob/master/docs/source/smooth_quant.md11. SPIQhttps://arxiv.org/abs/2203.1464212. Outlier Suppressionhttps://arxiv.org/abs/2209.1332513. SmoothQuanthttps://arxiv.org/abs/2211.1043814. Hugging Face 模型https://huggingface.co/models15. GitHub 問題https://github.com/intel/neural-compressor/issues

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 英特爾
    +關注

    關注

    61

    文章

    10301

    瀏覽量

    180412
  • cpu
    cpu
    +關注

    關注

    68

    文章

    11277

    瀏覽量

    224938

原文標題:如何在英特爾? 平臺上實現(xiàn)高效的大語言模型訓練后量化

文章出處:【微信號:英特爾中國,微信公眾號:英特爾中國】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    英特爾與華陽通用聯(lián)手推出全新AI Box解決方案

    英特爾宣布推出基于最新英特爾 酷睿 Ultra 架構的AI Box解決方案,將PC級旗艦算力引入汽車、工業(yè)自動化、軌道交通、機器人等多種工業(yè)環(huán)境,為各行各業(yè)接入AI大模型提供高效靈活的
    的頭像 發(fā)表于 03-02 14:15 ?274次閱讀

    英特爾Gaudi 2E AI加速器為DeepSeek-V3.1提供加速支持

    英特爾? Gaudi 2EAI加速器現(xiàn)已為DeepSeek-V3.1提供深度優(yōu)化支持。憑借出色的性能和成本效益,英特爾Gaudi 2E以更低的投入、更高的效率,實現(xiàn)模型
    的頭像 發(fā)表于 08-26 19:18 ?3021次閱讀
    <b class='flag-5'>英特爾</b>Gaudi 2E AI加速器為DeepSeek-V3.1提供加速支持

    硬件與應用同頻共振,英特爾Day 0適配騰訊開源混元大模型

    今日,騰訊正式發(fā)布新一代混元開源大語言模型英特爾憑借在人工智能領域的全棧技術布局,現(xiàn)已在英特爾? 酷睿? Ultra 平臺上完成針對該
    的頭像 發(fā)表于 08-07 14:42 ?1365次閱讀
    硬件與應用同頻共振,<b class='flag-5'>英特爾</b>Day 0適配騰訊開源混元大<b class='flag-5'>模型</b>

    主控CPU全能選手,英特爾至強6助力AI系統(tǒng)高效運轉

    2025年3月,英偉達發(fā)布了DGX B300 AI加速計算平臺。2025年5月,英特爾發(fā)布了三款全新英特爾至強6性能核處理器,其中一款6776P被用作是DGX B300的主控CPU,這款處理器究竟
    的頭像 發(fā)表于 06-27 11:44 ?877次閱讀
    主控CPU全能選手,<b class='flag-5'>英特爾</b>至強6助力AI系統(tǒng)<b class='flag-5'>高效</b>運轉

    2.0.0版本的ST Edge AI Core在linux平臺上可以把量化的onnx模型轉換為.nb,但是運行報錯,缺少文件,為什么?

    2.0.0版本的ST Edge AI Core工具在linux平臺上應該是可以把量化的onnx模型轉換為.nb,但是運行報錯,缺少文件。
    發(fā)表于 06-17 06:29

    瑞芯微模型量化文件構建

    模型是一張圖片輸入時,量化文件如上圖所示。但是我現(xiàn)在想量化deepprivacy人臉匿名模型,他的輸入是四個輸入。該模型
    發(fā)表于 06-13 09:07

    高效更安全的商務會議:英特爾聯(lián)合海信推出會議領域新型垂域模型方案

    2025年4月16日,北京 ——在今日召開的專業(yè)視聽行業(yè)的年度盛會InfoComm China 2025上,英特爾攜手海信聯(lián)合發(fā)布海信自研端側會議領域垂域模型解決方案,助力商務會議更加安全、高效
    的頭像 發(fā)表于 04-21 09:50 ?832次閱讀
    更<b class='flag-5'>高效</b>更安全的商務會議:<b class='flag-5'>英特爾</b>聯(lián)合海信推出會議領域新型垂域<b class='flag-5'>模型</b>方案

    自然語言提示原型在英特爾Vision大會上首次亮相

    英特爾Vision大會上,Network Optix首次展示了自然語言提示原型,該方案將重新定義視頻管理,為各行各業(yè)由AI驅動的洞察和效率提速。
    的頭像 發(fā)表于 04-09 09:30 ?958次閱讀

    2025英特爾人工智能創(chuàng)新應用大賽正式啟動

    近日,2025英特爾人工智能創(chuàng)新應用大賽(以下簡稱“大賽”)正式啟動。本屆大賽以“‘碼’上出發(fā),‘芯’創(chuàng)未來”為主題,在賽制、規(guī)模、獎項和賽事支持上實現(xiàn)多重升級,為開發(fā)者和企業(yè)提供展示創(chuàng)意和成果的廣闊平臺,鼓勵他們充分利用
    的頭像 發(fā)表于 04-02 15:24 ?1096次閱讀

    部署成本顯著降低!英特爾助陣高效AI算力一體機方案

    3月27日,英特爾舉辦了名為“‘至’繪未來,銳炫來襲”的創(chuàng)新解決方案研討會,與生態(tài)伙伴共同分享最新AI算力一體機方案。該方案基于英特爾?至強? W處理器和多個英特爾銳炫?顯卡,可為日益增長的AI
    的頭像 發(fā)表于 03-29 16:29 ?2089次閱讀
    部署成本顯著降低!<b class='flag-5'>英特爾</b>助陣<b class='flag-5'>高效</b>AI算力一體機方案

    用PaddleNLP為GPT-2模型制作FineWeb二進制預訓練數(shù)據(jù)集

    作者:算力魔方創(chuàng)始人/英特爾創(chuàng)新大使劉力 《用PaddleNLP在4060單卡上實踐大模型訓練技術》發(fā)布收到讀者熱烈反響,很多讀者要求進一步講解更多的技術細節(jié)。本文主要針對大
    的頭像 發(fā)表于 03-21 18:24 ?4295次閱讀
    用PaddleNLP為GPT-2<b class='flag-5'>模型</b>制作FineWeb二進制預<b class='flag-5'>訓練</b>數(shù)據(jù)集

    是否可以輸入隨機數(shù)據(jù)集來生成INT8訓練量化模型

    無法確定是否可以輸入隨機數(shù)據(jù)集來生成 INT8 訓練量化模型
    發(fā)表于 03-06 06:45

    請問OpenVINO?工具套件英特爾?Distribution是否與Windows? 10物聯(lián)網企業(yè)版兼容?

    無法在基于 Windows? 10 物聯(lián)網企業(yè)版的目標系統(tǒng)上使用 英特爾? Distribution OpenVINO? 2021* 版本推斷模型
    發(fā)表于 03-05 08:32

    英特爾?獨立顯卡與OpenVINO?工具套件結合使用時,無法運行推理怎么解決?

    使用英特爾?獨立顯卡與OpenVINO?工具套件時無法運行推理
    發(fā)表于 03-05 06:56

    英特爾?NCS2運行演示時“無法在啟動找到啟動設備”怎么解決?

    使用 英特爾? NCS2 運行 推斷管道演示腳本 。 在首次嘗試中成功運行演示應用程序。 從第二次嘗試開始遇到錯誤:E: [ncAPI] [ 150951] [security_barrie
    發(fā)表于 03-05 06:48