国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Arm技術助力Google Axion處理器加速AI工作負載推理

Arm社區 ? 來源:Arm社區 ? 2025-02-14 14:11 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

作者:Arm 基礎設施事業部高級產品經理 Ashok Bhat

由 Arm Neoverse V2 平臺賦能的 Google Axion 處理器已在 Google Cloud 上正式上線,其中,C4A 是首款基于 Axion 的云虛擬機,為基于 CPU人工智能 (AI) 推理和通用云工作負載實現了顯著的性能飛躍。

Axion CPU 延續了 Google Cloud 的定制芯片計劃,旨在提高工作負載性能和能效,標志著在重塑 AI 云計算格局方向上的重大進步。Google 選擇 Arm Neoverse 平臺是因為它具備高性能、高能效和創新靈活性,而且有著強大的軟件生態系統和廣泛的行業應用,可確保與現有應用的輕松集成。

Neoverse V2 平臺引入了新的硬件擴展,例如 SVE/SVE2、BF16 和 i8mm,與上代 Neoverse N1 相比,顯著增強了機器學習性能。這些擴展增強了向量處理、BFloat16 運算和整數矩陣乘法,使得基于 Neoverse V2 的 CPU 每周期執行的 MAC 運算次數比 N1 提高最多四倍。

從生成式 AI 到計算機視覺:加快 AI 工作負載推理速度并提升性能

立足于開源為原則的 AI 具備眾多領先的開源項目。近年來,Arm 一直與合作伙伴開展密切合作,以提高這些開源項目的性能。在許多情況下,我們會利用 Arm Kleidi 技術來提高 Neoverse 平臺上的性能,Kleidi 技術可通過 Arm Compute Library 和 KleidiAI 庫訪問。

大語言模型

由 Meta 開發的 Llama 模型包含一系列先進的大語言模型 (LLM),專為各種生成任務而設計,模型大小從 10 億到 4,050 億個參數不等。這些模型針對性能進行了優化,并可針對特定應用進行微調,因而在自然語言處理任務中用途廣泛。

Llama.cpp 是一個 C++ 實現方案,可以在不同的硬件平臺上實現這些模型的高效推理。它支持 Q4_0 量化方案,可將模型權重減少為 4 位整數。

為了展示基于 Arm 架構的服務器 CPU 在 LLM 推理方面的能力,Arm 軟件團隊和 Arm 合作伙伴對 llama.cpp 中的 int4 內核進行了優化,以利用這些新的指令。具體來說,我們增加了三種新的量化格式:為僅支持 Neon 的設備添加了 Q4_0_4_4,為支持 SVE/SVE2 和 i8mm 的設備添加了 Q4_0_4_8,為支持 SVE 256 位的設備添加了 Q4_0_8_8。

因此,與當前的 x86 架構實例相比,基于 Axion 的虛擬機在提示詞處理和詞元 (token) 生成方面的性能高出兩倍。

bc197f22-ea89-11ef-9310-92fbcf53809c.png

我們在所有實例上運行了 Llama 3.1 8B 模型,并對每個實例使用了推薦的 4 位量化方案。Axion 的數據是在 c4a-standard-48 實例上使用 Q4_0_4_8 量化方案生成的,而 Ampere Altra 的數據是在 t2a-standard-48 實例上使用 Q4_0_4_4 生成的。x86 架構的數據是在 c4-standard-48 (Intel Emerald Rapids) 和 c3d-standard-60 (AMD Genoa) 上使用 Q4_0 量化格式生成的。在所有實例中,線程數始終設置為 48。

BERT

在 C4A 虛擬機上運行 BERT 取得了顯著的速度提升,大幅減少了延遲并提高了吞吐量。此例中,我們在各種 Google Cloud 平臺實例上以單流模式(批量大小為 1)使用 PyTorch 2.2.1 運行 MLPerf BERT 模型,并測量第 90 百分位的延遲。

bc32ea16-ea89-11ef-9310-92fbcf53809c.png

ResNet-50

此外,Google Axion 的功能不僅限于 LLM,還可應用于圖像識別模型,例如 ResNet-50 就能受益于此硬件的先進特性。BF16 和 i8mm 指令集成后,實現了更高的精度和更快的訓練速度,展現了 Axion 相較基于 x86 架構實例的性能優勢。

bc4ed000-ea89-11ef-9310-92fbcf53809c.png

此例中,我們在各種 Google Cloud 平臺實例上以單流模式(批量大小為 1)使用 PyTorch 2.2.1 運行 MLPerf ResNet-50 PyTorch 模型。

XGBoost

XGBoost 是一個領先的機器學習算法庫,用于解決回歸、分類和排序問題,與 Google Cloud 上類似的 x86 架構實例相比,在 Axion 上訓練和預測所需的時間減少了 24% 到 48%。

bc669eb0-ea89-11ef-9310-92fbcf53809c.png

bc7eafaa-ea89-11ef-9310-92fbcf53809c.png

結論

從上述結果,可以發現基于 Axion 的虛擬機在性能方面超越了上一代基于 Neoverse N1 的虛擬機和 Google Cloud 上其他的 x86 架構替代方案。Google Cloud C4A 虛擬機能夠處理從 XGBoost 等傳統機器學習任務到 Llama 等生成式 AI 應用的各類工作負載,是AI 推理的理想之選。

Arm 資源:助力云遷移

為了提升 Google Axion 的使用體驗,Arm 匯集了各種資源:

[1] 通過 Arm Learning Paths 遷移到 Axion:依照詳細的指南和最佳實踐,簡化向 Axion 實例的遷移。

[2] Arm Software Ecosystem Dashboard:獲取有關 Arm 的最新軟件支持信息。

[3] Arm 開發者中心:無論是剛接觸 Arm 平臺,還是正在尋找開發高性能軟件解決方案的資源,Arm 開發者中心應有盡有,可以幫助開發者構建更卓越的軟件,為數十億設備提供豐富的體驗。歡迎開發者在 Arm 不斷壯大的全球開發者社區中,下載內容、交流學習和討論。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • ARM
    ARM
    +關注

    關注

    135

    文章

    9552

    瀏覽量

    391855
  • 計算機
    +關注

    關注

    19

    文章

    7806

    瀏覽量

    93190
  • AI
    AI
    +關注

    關注

    91

    文章

    39755

    瀏覽量

    301366
  • Neoverse
    +關注

    關注

    0

    文章

    16

    瀏覽量

    4969

原文標題:基于 Arm Neoverse 的 Google Axion 以更高性能加速 AI 工作負載推理

文章出處:【微信號:Arm社區,微信公眾號:Arm社區】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    使用NORDIC AI的好處

    原始傳感數據,可顯著降低功耗、延長電池壽命。[Edge AI 概述; Nordic Edge AI 技術頁] 降低云依賴與時延 直接在設備上做
    發表于 01-31 23:16

    瑞芯微SOC智能視覺AI處理器

    需要連接多種外設的產品。顯示: 支持雙屏異顯,最高4K@60fps輸出。 RK1126B: 一款集成自研NPU的智能視覺AI處理器,專注于視頻輸入端的AI分析與處理。CPU: 雙核A5
    發表于 12-19 13:44

    d-Matrix與Andes晶心科技合作打造下一代AI推理加速器

    一代 Raptor 推理架構的處理器。本次合作代表著針對數據中心規模的 AI計算工作,以存儲為中心的計算 (memory-centric computing) 與開放標準
    的頭像 發表于 12-17 10:47 ?863次閱讀

    瑞薩電子RZ/V系列微處理器助力邊緣AI開發

    邊緣AI越來越多地應用于諸如工業攝像頭和公共設施攝像頭等嵌入式設備中,并要求嵌入式產品小型化且具有低功耗。瑞薩電子RZ/V系列微處理器(MPU)內置AI加速器,即動態可重構
    的頭像 發表于 09-23 10:31 ?886次閱讀
    瑞薩電子RZ/V系列微<b class='flag-5'>處理器</b><b class='flag-5'>助力</b>邊緣<b class='flag-5'>AI</b>開發

    華為亮相2025金融AI推理應用落地與發展論壇

    創新技術——UCM推理記憶數據管理,旨在推動AI推理體驗升級,提升推理性價比,
    的頭像 發表于 08-15 09:45 ?1219次閱讀

    Arm KleidiAI與XNNPack集成實現AI性能提升

    Arm KleidiAI 首次集成到 XNNPack 已過去整整一年。KleidiAI 是一款高度優化的軟件庫,旨在加速 Arm CPU 上的人工智能 (AI)
    的頭像 發表于 08-08 15:19 ?2801次閱讀
    <b class='flag-5'>Arm</b> KleidiAI與XNNPack集成實現<b class='flag-5'>AI</b>性能提升

    研華科技推出緊湊型邊緣AI推理系統AIR-120

    研華科技隆重宣布,推出緊湊型邊緣AI推理系統——AIR-120。該系統搭載英特爾凌動x7433RE(Amston Lake)處理器、酷睿i3-N305處理器、N97(Alder Lak
    的頭像 發表于 07-17 17:16 ?1051次閱讀

    信而泰×DeepSeek:AI推理引擎驅動網絡智能診斷邁向 “自愈”時代

    DeepSeek-R1:強大的AI推理引擎底座DeepSeek是由杭州深度求索人工智能基礎技術研究有限公司開發的新一代AI大模型。其核心優勢在于強大的
    發表于 07-16 15:29

    Arm Kleidi助力輕松加速AI工作負載

    正如 Arm 工程部軟件高級副總裁 Mark Hambleton 在《2025 年芯片新思維》報告中所說:人工智能 (AI) 的未來發展離不開軟硬件的協同。
    的頭像 發表于 06-19 10:45 ?977次閱讀

    解讀基于Arm Neoverse V2平臺的Google Axion處理器

    云計算需求在人工智能 (AI) 時代的爆發式增長,推動了開發者尋求性能優化且高能效的解決方案,以降低總體擁有成本 (TCO)。Arm 致力于通過 Arm Neoverse 平臺滿足不斷變化的需求,Neoverse 也正因此迅速成
    的頭像 發表于 04-21 13:47 ?1070次閱讀

    谷歌第七代TPU Ironwood深度解讀:AI推理時代的硬件革命

    谷歌第七代TPU Ironwood深度解讀:AI推理時代的硬件革命 Google 發布了 Ironwood,這是其第七代張量處理單元 (TPU),專為
    的頭像 發表于 04-12 11:10 ?3721次閱讀
    谷歌第七代TPU Ironwood深度解讀:<b class='flag-5'>AI</b><b class='flag-5'>推理</b>時代的硬件革命

    Banana Pi 發布 BPI-AI2N &amp; BPI-AI2N Carrier,助力 AI 計算與嵌入式開發

    架構,賦能多場景應用 BPI-AI2N 采用 RZ/V2N 處理器,集成 4 核 Arm? Cortex?-A55(1.8GHz)與 Cortex?-M33(200MHz),提供強勁的計算能力,同時兼顧
    發表于 03-19 17:54

    Oracle 與 NVIDIA 合作助力企業加速代理式 AI 推理

    ——Oracle 和 NVIDIA 今日宣布,NVIDIA 加速計算和推理軟件與 Oracle 的 AI 基礎設施以及生成式 AI 服務首次實現集成,以幫助全球企業組織
    發表于 03-19 15:24 ?577次閱讀
    Oracle 與 NVIDIA 合作<b class='flag-5'>助力</b>企業<b class='flag-5'>加速</b>代理式 <b class='flag-5'>AI</b> <b class='flag-5'>推理</b>

    支持實時物體識別的視覺人工智能微處理器RZ/V2MA數據手冊

    DRP-AI 采用了一種由動態可重構處理器(DRP)和 AI-MAC組成的人工智能加速器,該加速器加速
    的頭像 發表于 03-18 18:12 ?916次閱讀
    支持實時物體識別的視覺人工智能微<b class='flag-5'>處理器</b>RZ/V2MA數據手冊

    AI MPU# 瑞薩RZ/V2H 四核視覺 ,采用 DRP-AI3 加速器和高性能實時處理器

    RZ/V2H 高端 AI MPU 采用瑞薩電子專有的AI 加速器-動態可重配置處理器 (DRP-AI3)、四核
    的頭像 發表于 03-15 11:50 ?2234次閱讀
    <b class='flag-5'>AI</b> MPU# 瑞薩RZ/V2H 四核視覺 ,采用 DRP-<b class='flag-5'>AI</b>3 <b class='flag-5'>加速器</b>和高性能實時<b class='flag-5'>處理器</b>