国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Arm KleidiAI與XNNPack集成實現AI性能提升

Arm社區 ? 來源:Arm社區 ? 2025-08-08 15:19 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

作者:Arm 工程部首席軟件工程師 Gian Marco Iodice

自 Arm KleidiAI 首次集成到 XNNPack 已過去整整一年。KleidiAI 是一款高度優化的軟件庫,旨在加速 Arm CPU 上的人工智能 (AI) 推理。在過去一年中,從推出 INT4 矩陣乘法 (matmul) 優化以增強 Google Gemma 2 模型性能開始,到后續完成多項底層技術增強,Arm 在 XNNPack 上實現了顯著的性能提升。

而更值得注意的是,開發者對此無需做任何改動。所有這些提升均實現了完全透明化,既不用修改代碼,也無需額外的依賴項。只需像往常一樣基于 XNNPack 構建并運行應用,就能自動享受到 Arm 通過 KleidiAI 引入的最新底層優化。

本文就將為你詳細介紹最新的增強功能。

XNNPack 中的最新 KleidiAI 優化

面向 SDOT 和 i8mm 的 F32 x INT8 矩陣乘法

在先前 INT4 優化基礎上,此次優化聚焦于通過動態量化加速 INT8 矩陣乘法,拓寬性能提升的覆蓋范圍,以支持各類 AI 模型。從卷積神經網絡到前沿的生成式 AI 模型(例如 2025 年 5 月發布的 Stable Audio Open Small),這項優化帶來了切實可見的性能提升。例如,該優化使擴散模塊 (diffusion module) 的性能提升了 30% 以上。

與此前的 INT4 增強功能一樣,INT8 優化借助 SDOT 指令和 i8mm 指令,在各類 CPU 上提升了動態量化性能。

面向 F32、F16 和 INT8 矩陣乘法的 SME2 優化

近期最令人振奮的進展之一,是 Armv9 架構上對可伸縮矩陣擴展 (SME2)的支持。這為 F32 (Float32)、F16 (Float16) 和 INT8 矩陣乘法帶來了顯著的性能躍升,為新的高性能應用鋪平道路。因此,無論是對于當前還是未來的 AI 工作負載,都能從一開始實現無縫加速,且無需任何額外投入。

什么是 SME2?

SME2 是 Armv9-A CPU 架構中引入的一項全新 Arm 技術。SME2 基于可伸縮向量擴展 (SVE2) 技術構建,并通過可惠及 AI、計算機視覺、線性代數等多個領域的特性拓展了其應用范圍。

SME2 的一項突出特性是矩陣外積累加 (Matrix Outer Product Accumulate, MOPA) 指令,該指令能夠實現高效的外積運算。如下圖所示,外積與點積的區別在于,點積的運算結果是一個標量,而外積則由兩個輸入向量生成一個矩陣。

050da0de-73f4-11f0-a18e-92fbcf53809c.png

通過以下矩陣乘法示例來直觀理解這一區別:

0526e6de-73f4-11f0-a18e-92fbcf53809c.png

該矩陣乘法可分解為一系列外積運算,如下圖所示:

053ba312-73f4-11f0-a18e-92fbcf53809c.png

明確這一概念后,再來深入探討構成優化的矩陣乘法例程核心的 SME2 匯編指令:

FMOPA za0.s, p0/m, p1/m, z1.s, z3.s

各操作數的含義如下:

FMOPA:浮點矩陣外積累加指令。

ZA0.s:用于存儲和累積外積結果的 ZA 寄存器塊。

p0/m 和 p1/m:用于定義有效計算通道(掩碼操作)的 Predicate 寄存器。

z1.s 和 z3.s:參與外積運算的輸入向量。

該指令支持多種數據類型,涵蓋浮點格式(如 F32 和 F16)及整數類型(如 INT8)。得益于 SVE 技術的應用,它具備向量長度無關性,這意味著其能隨硬件向量尺寸自動適配擴展,無需修改任何代碼。

為展現 SME2 的性能潛力,不妨看看它在 Google Gemma 3 模型中通過 INT8 外積指令加速 INT4 矩陣乘法的效果。相比同一設備未啟用 SME2 的情況,當 Gemma 3 模型部署在支持 SME2 的硬件上時,聊天機器人用例的 AI 響應速度最高可提升六倍。

此外,借助單 CPU 核心上的 SME2 加速,Gemma 3 能在一秒內開始對一篇四段文字的文本內容生成摘要,充分印證了該架構在響應速度與運行效率上的提升。

優化所帶來的實際意義

通過這些更新,XNNPack 成為首個支持 SME2 的 AI 推理庫,能夠在 Arm CPU 上進一步實現前所未有的性能表現。

無論是專注于生成式 AI 還是基于 CNN 神經網絡的開發者,都能在無需修改任何代碼的情況下,在其應用上實現顯著的性能提升。

展望 Arm KleidiAI 的未來

過去一年的實踐證明,透明化加速不僅切實可行,更已具備實際應用價值。隨著 KleidiAI 不斷突破 XNNPack 上的性能表現,開發者可專注于打造出色的 AI 體驗,而運行時性能也將持續提升。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • ARM
    ARM
    +關注

    關注

    135

    文章

    9552

    瀏覽量

    391827
  • cpu
    cpu
    +關注

    關注

    68

    文章

    11277

    瀏覽量

    224938
  • AI
    AI
    +關注

    關注

    91

    文章

    39755

    瀏覽量

    301355

原文標題:集成一周年,Arm KleidiAI 與 XNNPack 實現無縫且透明性 AI 性能

文章出處:【微信號:Arm社區,微信公眾號:Arm社區】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    如何在裸機環境中運行KleidiAI微內核

    Arm KleidiAI 是一款具有突破性意義的軟件庫,專為提升 Arm CPU 上的人工智能 (AI)
    的頭像 發表于 08-08 15:16 ?3828次閱讀
    如何在裸機環境中運行<b class='flag-5'>KleidiAI</b>微內核

    Arm KleidiAI助力提升PyTorch上LLM推理性能

    熱門的深度學習框架尤為突出,許多企業均會選擇其作為開發 AI 應用的庫。通過部署 Arm Kleidi 技術,Arm 正在努力優化 PyTorch,以加速在基于 Arm 架構的處理器上
    的頭像 發表于 12-03 17:05 ?2185次閱讀
    <b class='flag-5'>Arm</b> <b class='flag-5'>KleidiAI</b>助力<b class='flag-5'>提升</b>PyTorch上LLM推理<b class='flag-5'>性能</b>

    Arm+AWS實現AI定義汽車 基于Arm KleidiAI優化并由AWS提供支持

    文中介紹的車載生成式 AI 應用演示由 Arm KleidiAI 進行優化并由 AWS 所提供的服務進行支持,展示了新興技術如何幫助解決汽車行業的實際挑戰。該解決方案可實現 1 至 3
    的頭像 發表于 04-03 19:24 ?1865次閱讀
    <b class='flag-5'>Arm</b>+AWS<b class='flag-5'>實現</b><b class='flag-5'>AI</b>定義汽車  基于<b class='flag-5'>Arm</b> <b class='flag-5'>KleidiAI</b>優化并由AWS提供支持

    Keil當下有集成AI技術的規劃嗎

    有沒有集成AI工具,可以快速編程,提升開發效率的,常用的MCU有STM32,GD32等
    發表于 04-06 14:38

    《電子發燒友電子設計周報》聚焦硬科技領域核心價值 第23期:2025.08.04--2025.08.08

    Arm方案--Arm KleidiAIXNNPack集成實現
    發表于 08-08 20:47

    Firefly支持AI引擎Tengine,性能提升,輕松搭建AI計算框架

    `Tengine 是OPEN AI LAB 為嵌入式設備開發的一個輕量級、高性能并且模塊化的引擎。基于ARM平臺高效的計算庫實現,針對特定硬件平臺的
    發表于 08-13 15:58

    重大性能更新:Wasm 后端將利用 SIMD指令和 XNNPACK多線程

    https://github.com/WebAssembly/simd XNNPACK https://github.com/google/XNNPACK 多線程 https://github.com/WebAssembly/threads 基準 SIMD 和多線程為我
    的頭像 發表于 09-30 15:15 ?1.1w次閱讀
    重大<b class='flag-5'>性能</b>更新:Wasm 后端將利用 SIMD指令和 <b class='flag-5'>XNNPACK</b>多線程

    ARM發布旗艦手機芯片:性能提升AI性能增強、節能減耗

    ARM為Cortex-X系列CPU重新命名,以強調其性能的顯著提升。據稱,X925的單核性能較X4提升了36%(依據Geekbench測試結
    的頭像 發表于 05-30 11:26 ?1970次閱讀

    Arm KleidiAI軟件庫的功能解析

    在持續快速發展的人工智能 (AI) 時代,Arm 堅定地支持全球數百萬開發者,確保他們能夠獲得 AI 創新開發所需的性能、工具和軟件庫,從而順利打造下一波令人驚嘆的
    的頭像 發表于 09-05 15:41 ?1534次閱讀
    <b class='flag-5'>Arm</b> <b class='flag-5'>KleidiAI</b>軟件庫的功能解析

    Arm成功將Arm KleidiAI軟件庫集成到騰訊自研的Angel 機器學習框架

    Arm 與騰訊攜手合作,成功將 Arm KleidiAI 軟件庫集成到騰訊自研的 Angel 機器學習框架。 ? 借助 KleidiAI
    的頭像 發表于 11-24 15:33 ?1812次閱讀

    利用Arm Kleidi技術實現PyTorch優化

    PyTorch 是一個廣泛應用的開源機器學習 (ML) 庫。近年來,Arm 與合作伙伴通力協作,持續改進 PyTorch 的推理性能。本文將詳細介紹如何利用 Arm Kleidi 技術提升
    的頭像 發表于 12-23 09:19 ?1869次閱讀
    利用<b class='flag-5'>Arm</b> Kleidi技術<b class='flag-5'>實現</b>PyTorch優化

    Arm 與微軟合作,為基于 Arm 架構的 PC 和移動設備應用提供超強 AI 體驗

    ArmKleidiAI與ONNXRuntime的集成,為Windows和安卓操作系統帶來了顯著的AI性能優化,實現高達2.6倍的AI推理速度
    的頭像 發表于 06-03 16:47 ?864次閱讀
    <b class='flag-5'>Arm</b> 與微軟合作,為基于 <b class='flag-5'>Arm</b> 架構的 PC 和移動設備應用提供超強 <b class='flag-5'>AI</b> 體驗

    Arm率先適配騰訊混元開源模型,助力端側AI創新開發

    共同賦能端側人工智能 (AI) 部署,助力本土開發者實現 AI 應用創新! 這次的首日開源適配是雙方再次攜手提升端側應用功能和用戶體驗的又一例證。去年,
    的頭像 發表于 08-08 09:16 ?1384次閱讀
    <b class='flag-5'>Arm</b>率先適配騰訊混元開源模型,助力端側<b class='flag-5'>AI</b>創新開發

    Arm神經技術是業界首創在 Arm GPU 上增添專用神經加速器的技術,移動設備上實現PC級別的AI圖形性能

    Arm 神經技術是業界首創在 Arm GPU 上增添專用神經加速器的技術,首次在移動設備上實現 PC 級別的 AI 圖形性能,為未來的端側
    的頭像 發表于 08-14 17:59 ?2759次閱讀

    全新Arm Lumex CSS平臺實現兩位數性能提升

    及下一代個人電腦加速其人工智能 (AI) 體驗的先進計算平臺。Lumex CSS 平臺集成了搭載第二代可伸縮矩陣擴展 (SME2) 技術的最高性能 Arm CPU、GPU 及系統 IP
    的頭像 發表于 09-10 16:14 ?928次閱讀
    全新<b class='flag-5'>Arm</b> Lumex CSS平臺<b class='flag-5'>實現</b>兩位數<b class='flag-5'>性能</b><b class='flag-5'>提升</b>