国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

OpenVINO 2024.4持續提升GPU上LLM性能

英特爾物聯網 ? 來源:英特爾物聯網 ? 2024-10-12 09:41 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

作者:

Yury Gorbachev 英特爾院士 OpenVINO 產品架構師

Whiteny Foster OpenVINO產品專家

翻譯:

武卓 博士 英特爾 OpenVINO 布道師

本次新版本在整個 OpenVINO 產品系列中引入了重要的功能和性能變化,使大語言模型 (LLM) 的優化和部署在所有支持的場景中更容易、性能更高,包括邊緣和數據中心環境的部署。

在客戶端,在之前的版本中我們一直在努力工作,而這個版本則支持我們全新的 Intel Xe2 GPU 架構,該架構在最近推出的 Intel Core Ultra 處理器(第二代)中搭載。Xe2 架構由 Intel Xe Matrix Extensions (Intel XMX) 加速技術提供支持,我們與 oneDNN 和驅動程序團隊的合作伙伴合作啟用了該技術,以在矩陣乘法等計算密集型運算上實現最佳性能。由于矩陣乘法是 LLM 中的一個關鍵熱點,因此在部署 LLM 時,使用 Xe2 架構的性能優勢會立即顯現出來。

我們不僅直接通過英特爾 XMX 優化了矩陣乘法,還創建了高度優化的 GPU 基元,如 縮放點積注意力(Scaled Dot Product Attention) 和旋轉位置編碼( Rotary Positional Embeddings),以減少這些復雜操作的執行流水線開銷。我們致力于改善內存消耗并更有效地支持具有壓縮權重的模型,從而使大型語言模型(LLM)的部署更適合筆記本電腦/邊緣設備,并允許 LLM 適應最小的內存占用,這對于資源有限的環境至關重要。

我們所做的一些更改是通用的,并且會對其它平臺產生顯著影響,包括平臺上的集成顯卡(例如 Intel Core Ultra(第一代))和獨立顯卡(Intel Arc 系列)。

通過橫跨數十個大語言模型的性能和準確性驗證,我們衡量了整個模型集的這些改進。使用神經網絡壓縮框架 (NNCF) 優化框架中的權重壓縮算法可以嚴格控制對模型準確性的影響。

對內置 顯卡的性能進行比較,英特爾酷睿 Ultra 處理器(第二代)的 第2 個Token延遲性能比第一代 高出 1.3 倍,適用于 Llama3-8B 和 Phi-3-Mini-4k-Instruct 等 LLM,詳情請參見下圖。

36b15926-877f-11ef-b8af-92fbcf53809c.png

使用 OpenVINO 工具套件 2024.4 在最新的英特爾酷睿超級處理器(第二代)內置 GPU 上最大限度地提高 LLM 性能。有關工作負載和配置,請參閱附錄。結果可能會有所不同。

除了 GPU,Intel Core Ultra 處理器(第二代)還引入了更強大的 NPU,具有 40 TOPS 的峰值推理吞吐量,這是對上一代產品的重大升級。OpenVINO 現在通過 OpenVINO GenAI 軟件包為經典深度學習模型(例如計算機視覺、語音識別和生成)和 LLM 提供對這種加速技術的訪問。我們一直在與 NPU 團隊合作,以提高性能、減少內存消耗并加快過去版本的模型編譯速度,并將在未來的版本中繼續增強。

使用 LLM 的另一種常用場景是通過模型服務,這意味著模型可以通過 REST API 被訪問,并通過 vLLM 或 OpenVINO 模型服務器 (OVMS) 等框架來進行服務。對于此使用場景,我們還引入了新功能以增強解決方案特性。

OpenVINO 模型服務器(OVMS) 現在通過 OpenAI API 為 LLM 提供服務,并提供了啟用前綴緩存功能的能力,該功能通過緩存提示詞常見部分的計算來提高服務吞吐量。當提示詞以相同的文本開頭(例如“您是一個有用的 AI 助手”)或在聊天場景中使用 LLM 時,這尤其有用。我們還為 OVMS 中的 CPU 啟用了 KV 緩存壓縮,從而減少了內存消耗并改進了第二個Token延遲等指標。

從 OpenVINO 2024.4 版本開始,GPU 將支持分頁注意力( PagedAttention) 操作和連續批處理,這使我們能夠在 LLM 服務場景中使用 GPU。我們最初在對 vLLM 的貢獻中啟用此功能,并在此版本中將其擴展到 OpenVINO 模型服務器。這允許 Intel ARC GPU 在您的環境中以優化的服務特性提供 LLM 模型服務。查看適用于 CPU 和 GPU 的 LLM 服務演示,其中展示了如何利用這些功能。

LLM 服務演示

https://docs.openvino.ai/2024/ovms_demos_continuous_batching.html

為了繼續數據中心場景,OpenVINO 現在在英特爾至強處理器上運行時提供對 mxfp4 的支持,如開放計算項目規范中所定義。對于 LLM,與 BF16 精度相比,它允許在第二個令牌延遲上提高性能,同時減少內存消耗。神經網絡壓縮框架 (NNCF) 模型優化功能支持此功能,該功能允許將 LLM 權重壓縮為這種格式。

定義

https://www.opencompute.org/documents/ocp-microscaling-formats-mx-v1-0-spec-final-pdf

從模型支持的角度來看,我們一直在與 Hugging Face 的合作伙伴一起更新 Optimum -Intel 解決方案。該方案允許在使用 OpenVINO 運行時時使用 Hugging Face API 運行模型,并高效導出和壓縮模型以用于 OpenVINO GenAI 軟件包 API。在此版本中,我們專注于支持 Florence 2、MiniCPM2、Phi-3-Vision、Flux.1 等模型。OpenVINONotebooks已經可用,用于演示如何在您選擇的平臺上將這些模型與 OpenVINO 一起使用。

OpenVINONotebooks

https://github.com/openvinotoolkit/openvino_notebooks

使用 Flux.1 和 OpenVINO生成文本到圖像,并帶有輸入提示:一只小小的約克夏梗宇航員從月球上的蛋中孵化。https://github.com/openvinotoolkit/openvino_notebooks/tree/latest/notebooks/flux.1-image-generation

整個夏天,我們一直在與 Google Summer of Code 的優秀貢獻者合作,結果令人鼓舞。我們一直在努力改進

ARM 平臺上的生成式 AI

https://medium.com/openvino-toolkit/improve-openvino-performance-on-generative-ai-workload-on-arm-devices-with-5aee5808e23a,

支持RISC-V

https://medium.com/openvino-toolkit/my-journey-with-google-summer-of-code-2024-enhancing-openvino-for-risc-v-devices-b69568426aff

并探索許多其他令人興奮的發展,我們很快將更詳細地介紹這些發展。

謝謝您,我們期待在即將發布的版本中為您帶來更多性能改進和新功能。有關此版本的更多詳細信息,請參閱 發行說明。

發行說明

https://docs.openvino.ai/2024/about-openvino/release-notes-openvino.html

Appendix

附錄

36febcb6-877f-11ef-b8af-92fbcf53809c.png

371ccbb6-877f-11ef-b8af-92fbcf53809c.png372832a8-877f-11ef-b8af-92fbcf53809c.png3745bbb6-877f-11ef-b8af-92fbcf53809c.png

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 處理器
    +關注

    關注

    68

    文章

    20250

    瀏覽量

    252209
  • 英特爾
    +關注

    關注

    61

    文章

    10301

    瀏覽量

    180422
  • LLM
    LLM
    +關注

    關注

    1

    文章

    346

    瀏覽量

    1329
  • OpenVINO
    +關注

    關注

    0

    文章

    118

    瀏覽量

    767

原文標題:OpenVINO? 2024.4|支持新一代英特爾?酷睿? Ultra處理器,持續提升GPU上LLM性能|開發者實戰

文章出處:【微信號:英特爾物聯網,微信公眾號:英特爾物聯網】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    低比特量化技術如何幫助LLM提升性能

    針對大語言模型 (LLM) 在部署過程中的性能需求,低比特量化技術一直是優化效果最佳的方案之一,本文將探討低比特量化技術如何幫助 LLM 提升性能
    的頭像 發表于 12-08 15:26 ?2369次閱讀
    低比特量化技術如何幫助<b class='flag-5'>LLM</b><b class='flag-5'>提升</b><b class='flag-5'>性能</b>

    Arm KleidiAI助力提升PyTorchLLM推理性能

    熱門的深度學習框架尤為突出,許多企業均會選擇其作為開發 AI 應用的庫。通過部署 Arm Kleidi 技術,Arm 正在努力優化 PyTorch,以加速在基于 Arm 架構的處理器運行 LLM性能。Arm 通過將 Kle
    的頭像 發表于 12-03 17:05 ?2185次閱讀
    Arm KleidiAI助力<b class='flag-5'>提升</b>PyTorch<b class='flag-5'>上</b><b class='flag-5'>LLM</b>推理<b class='flag-5'>性能</b>

    OpenVINO?檢測到GPU,但網絡無法加載到GPU插件,為什么?

    OpenVINO?安裝在舊的 Windows 10 版本 Windows? 10 (RS1) 。 已安裝 GPU 驅動程序版本 25.20.100.6373,檢測到 GPU,但網絡
    發表于 03-05 06:01

    為什么無法檢測到OpenVINO?工具套件中的英特爾?集成圖形處理單元?

    在 Ubuntu* Desktop 22.04 安裝了 英特爾? Graphics Driver 版本并OpenVINO? 2023.1。 運行 python 代碼: python -c
    發表于 03-05 08:36

    無法在GPU運行ONNX模型的Benchmark_app怎么解決?

    在 CPU 和 GPU 運行OpenVINO? 2023.0 Benchmark_app推斷的 ONNX 模型。 在 CPU 推理成功,但在
    發表于 03-06 08:02

    使用 llm-agent-rag-llamaindex 筆記本時收到的 NPU 錯誤怎么解決?

    使用 conda create -n ov-nb-demos python=3.11 創建運行 llm-agent-rag-llamaindex notebook 的環境。 執行“創建
    發表于 06-23 06:26

    為什么無法在GPU使用INT8 和 INT4量化模型獲得輸出?

    安裝OpenVINO? 2024.0 版本。 使用 optimum-intel 程序包將 whisper-large-v3 模型轉換為 int 4 和 int8,并在 GPU 使用 Ope
    發表于 06-23 07:11

    無法使用OpenVINO?在 GPU 設備運行穩定擴散文本到圖像的原因?

    OpenVINO? GPU 設備使用圖像大小 (1024X576) 運行穩定擴散文本到圖像,并收到錯誤消息: RuntimeError: Exception from
    發表于 06-25 06:36

    GPUOpenVINO基準測試的推斷模型的默認參數與CPU的參數不同是為什么?

    在 CPU 和 GPU 推斷出具有 OpenVINO? 基準的相同模型: benchmark_app.exe -m model.xml -d CPU benchmark_app.exe -m
    發表于 08-15 06:43

    ARM新架構很給力,GPU性能提升了20%,但麒麟990無緣用上

    ARM早已經公布了下一代芯片架構,即A77的CPU核心和Mali-G77的GPU,這一代架構,在CPU性能將會提升20%左右,但GPU改變
    的頭像 發表于 08-21 11:51 ?9557次閱讀

    LLM性能的主要因素

    現在是2023年5月,截止目前,網絡已經開源了眾多的LLM,如何用較低的成本,判斷LLM的基礎性能,選到適合自己任務的LLM,成為一個關鍵
    的頭像 發表于 05-22 15:26 ?2758次閱讀
    <b class='flag-5'>LLM</b><b class='flag-5'>性能</b>的主要因素

    Nvidia 通過開源庫提升 LLM 推理性能

    加利福尼亞州圣克拉拉——Nvidia通過一個名為TensorRT LLM的新開源軟件庫,將其H100、A100和L4 GPU的大型語言模型(LLM)推理性能提高了一倍。 正如對相同硬件
    的頭像 發表于 10-23 16:10 ?1529次閱讀

    解鎖LLM新高度—OpenVINO? 2024.1賦能生成式AI高效運行

    LLM 的發展仍保持著驚人的速度。盡管現有的 LLM 已經具備強大的功能,但通過 OpenVINO? 的優化和推理加速,可以對這些復雜模型的執行進行精煉,實現更快、更高效的處理,減少計算開銷并最大限度發揮硬件潛力,這將直接導致
    的頭像 發表于 05-10 10:36 ?1307次閱讀

    解鎖NVIDIA TensorRT-LLM的卓越性能

    Batching、Paged KV Caching、量化技術 (FP8、INT4 AWQ、INT8 SmoothQuant 等) 以及更多功能,確保您的 NVIDIA GPU 能發揮出卓越的推理性能。
    的頭像 發表于 12-17 17:47 ?1834次閱讀

    如何在Ollama中使用OpenVINO后端

    /GPU/NPU)為模型推理提供了高效的加速能力。這種組合不僅簡化了模型的部署和調用流程,還顯著提升了推理性能,特別適合需要高性能和易用性的場景。
    的頭像 發表于 04-14 10:22 ?1530次閱讀