伦伦影院久久影视,天天操天天干天天射,ririsao久久精品一区 ,一本大道香蕉大久在红桃,999久久久免费精品国产色夜,色悠悠久久综合88,亚洲国产精品久久无套麻豆,亚洲香蕉毛片久久网站,一本一道久久综合狠狠老

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Arm技術(shù)助力Google Axion處理器加速AI工作負(fù)載推理

Arm社區(qū) ? 來源:Arm社區(qū) ? 2025-02-14 14:11 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

作者:Arm 基礎(chǔ)設(shè)施事業(yè)部高級(jí)產(chǎn)品經(jīng)理 Ashok Bhat

由 Arm Neoverse V2 平臺(tái)賦能的 Google Axion 處理器已在 Google Cloud 上正式上線,其中,C4A 是首款基于 Axion 的云虛擬機(jī),為基于 CPU人工智能 (AI) 推理和通用云工作負(fù)載實(shí)現(xiàn)了顯著的性能飛躍。

Axion CPU 延續(xù)了 Google Cloud 的定制芯片計(jì)劃,旨在提高工作負(fù)載性能和能效,標(biāo)志著在重塑 AI 云計(jì)算格局方向上的重大進(jìn)步。Google 選擇 Arm Neoverse 平臺(tái)是因?yàn)樗邆涓咝阅堋⒏吣苄Ш蛣?chuàng)新靈活性,而且有著強(qiáng)大的軟件生態(tài)系統(tǒng)和廣泛的行業(yè)應(yīng)用,可確保與現(xiàn)有應(yīng)用的輕松集成。

Neoverse V2 平臺(tái)引入了新的硬件擴(kuò)展,例如 SVE/SVE2、BF16 和 i8mm,與上代 Neoverse N1 相比,顯著增強(qiáng)了機(jī)器學(xué)習(xí)性能。這些擴(kuò)展增強(qiáng)了向量處理、BFloat16 運(yùn)算和整數(shù)矩陣乘法,使得基于 Neoverse V2 的 CPU 每周期執(zhí)行的 MAC 運(yùn)算次數(shù)比 N1 提高最多四倍。

從生成式 AI 到計(jì)算機(jī)視覺:加快 AI 工作負(fù)載推理速度并提升性能

立足于開源為原則的 AI 具備眾多領(lǐng)先的開源項(xiàng)目。近年來,Arm 一直與合作伙伴開展密切合作,以提高這些開源項(xiàng)目的性能。在許多情況下,我們會(huì)利用 Arm Kleidi 技術(shù)來提高 Neoverse 平臺(tái)上的性能,Kleidi 技術(shù)可通過 Arm Compute Library 和 KleidiAI 庫(kù)訪問。

大語言模型

由 Meta 開發(fā)的 Llama 模型包含一系列先進(jìn)的大語言模型 (LLM),專為各種生成任務(wù)而設(shè)計(jì),模型大小從 10 億到 4,050 億個(gè)參數(shù)不等。這些模型針對(duì)性能進(jìn)行了優(yōu)化,并可針對(duì)特定應(yīng)用進(jìn)行微調(diào),因而在自然語言處理任務(wù)中用途廣泛。

Llama.cpp 是一個(gè) C++ 實(shí)現(xiàn)方案,可以在不同的硬件平臺(tái)上實(shí)現(xiàn)這些模型的高效推理。它支持 Q4_0 量化方案,可將模型權(quán)重減少為 4 位整數(shù)。

為了展示基于 Arm 架構(gòu)的服務(wù)器 CPU 在 LLM 推理方面的能力,Arm 軟件團(tuán)隊(duì)和 Arm 合作伙伴對(duì) llama.cpp 中的 int4 內(nèi)核進(jìn)行了優(yōu)化,以利用這些新的指令。具體來說,我們?cè)黾恿巳N新的量化格式:為僅支持 Neon 的設(shè)備添加了 Q4_0_4_4,為支持 SVE/SVE2 和 i8mm 的設(shè)備添加了 Q4_0_4_8,為支持 SVE 256 位的設(shè)備添加了 Q4_0_8_8。

因此,與當(dāng)前的 x86 架構(gòu)實(shí)例相比,基于 Axion 的虛擬機(jī)在提示詞處理和詞元 (token) 生成方面的性能高出兩倍。

bc197f22-ea89-11ef-9310-92fbcf53809c.png

我們?cè)谒袑?shí)例上運(yùn)行了 Llama 3.1 8B 模型,并對(duì)每個(gè)實(shí)例使用了推薦的 4 位量化方案。Axion 的數(shù)據(jù)是在 c4a-standard-48 實(shí)例上使用 Q4_0_4_8 量化方案生成的,而 Ampere Altra 的數(shù)據(jù)是在 t2a-standard-48 實(shí)例上使用 Q4_0_4_4 生成的。x86 架構(gòu)的數(shù)據(jù)是在 c4-standard-48 (Intel Emerald Rapids) 和 c3d-standard-60 (AMD Genoa) 上使用 Q4_0 量化格式生成的。在所有實(shí)例中,線程數(shù)始終設(shè)置為 48。

BERT

在 C4A 虛擬機(jī)上運(yùn)行 BERT 取得了顯著的速度提升,大幅減少了延遲并提高了吞吐量。此例中,我們?cè)诟鞣N Google Cloud 平臺(tái)實(shí)例上以單流模式(批量大小為 1)使用 PyTorch 2.2.1 運(yùn)行 MLPerf BERT 模型,并測(cè)量第 90 百分位的延遲。

bc32ea16-ea89-11ef-9310-92fbcf53809c.png

ResNet-50

此外,Google Axion 的功能不僅限于 LLM,還可應(yīng)用于圖像識(shí)別模型,例如 ResNet-50 就能受益于此硬件的先進(jìn)特性。BF16 和 i8mm 指令集成后,實(shí)現(xiàn)了更高的精度和更快的訓(xùn)練速度,展現(xiàn)了 Axion 相較基于 x86 架構(gòu)實(shí)例的性能優(yōu)勢(shì)。

bc4ed000-ea89-11ef-9310-92fbcf53809c.png

此例中,我們?cè)诟鞣N Google Cloud 平臺(tái)實(shí)例上以單流模式(批量大小為 1)使用 PyTorch 2.2.1 運(yùn)行 MLPerf ResNet-50 PyTorch 模型。

XGBoost

XGBoost 是一個(gè)領(lǐng)先的機(jī)器學(xué)習(xí)算法庫(kù),用于解決回歸、分類和排序問題,與 Google Cloud 上類似的 x86 架構(gòu)實(shí)例相比,在 Axion 上訓(xùn)練和預(yù)測(cè)所需的時(shí)間減少了 24% 到 48%。

bc669eb0-ea89-11ef-9310-92fbcf53809c.png

bc7eafaa-ea89-11ef-9310-92fbcf53809c.png

結(jié)論

從上述結(jié)果,可以發(fā)現(xiàn)基于 Axion 的虛擬機(jī)在性能方面超越了上一代基于 Neoverse N1 的虛擬機(jī)和 Google Cloud 上其他的 x86 架構(gòu)替代方案。Google Cloud C4A 虛擬機(jī)能夠處理從 XGBoost 等傳統(tǒng)機(jī)器學(xué)習(xí)任務(wù)到 Llama 等生成式 AI 應(yīng)用的各類工作負(fù)載,是AI 推理的理想之選。

Arm 資源:助力云遷移

為了提升 Google Axion 的使用體驗(yàn),Arm 匯集了各種資源:

[1] 通過 Arm Learning Paths 遷移到 Axion:依照詳細(xì)的指南和最佳實(shí)踐,簡(jiǎn)化向 Axion 實(shí)例的遷移。

[2] Arm Software Ecosystem Dashboard:獲取有關(guān) Arm 的最新軟件支持信息。

[3] Arm 開發(fā)者中心:無論是剛接觸 Arm 平臺(tái),還是正在尋找開發(fā)高性能軟件解決方案的資源,Arm 開發(fā)者中心應(yīng)有盡有,可以幫助開發(fā)者構(gòu)建更卓越的軟件,為數(shù)十億設(shè)備提供豐富的體驗(yàn)。歡迎開發(fā)者在 Arm 不斷壯大的全球開發(fā)者社區(qū)中,下載內(nèi)容、交流學(xué)習(xí)和討論。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • ARM
    ARM
    +關(guān)注

    關(guān)注

    135

    文章

    9580

    瀏覽量

    393249
  • 計(jì)算機(jī)
    +關(guān)注

    關(guān)注

    19

    文章

    7827

    瀏覽量

    93401
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    40715

    瀏覽量

    302357
  • Neoverse
    +關(guān)注

    關(guān)注

    0

    文章

    17

    瀏覽量

    4998

原文標(biāo)題:基于 Arm Neoverse 的 Google Axion 以更高性能加速 AI 工作負(fù)載推理

文章出處:【微信號(hào):Arm社區(qū),微信公眾號(hào):Arm社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    使用NORDIC AI的好處

    原始傳感數(shù)據(jù),可顯著降低功耗、延長(zhǎng)電池壽命。[Edge AI 概述; Nordic Edge AI 技術(shù)頁(yè)] 降低云依賴與時(shí)延 直接在設(shè)備上做
    發(fā)表于 01-31 23:16

    Arm Neoverse平臺(tái)賦能新一代Google Axion實(shí)例

    從推薦引擎到語言模型,人工智能 (AI) 正在重塑各類應(yīng)用,但其背后潛藏著一項(xiàng)迫切的挑戰(zhàn):能效問題。隨著 AI 應(yīng)用規(guī)模擴(kuò)大,其運(yùn)行所需的能耗也隨之增長(zhǎng),進(jìn)而為云基礎(chǔ)設(shè)施帶來了日益嚴(yán)峻的壓力,尤其是在融合 AI 數(shù)據(jù)中心,傳統(tǒng)
    的頭像 發(fā)表于 12-31 15:51 ?1776次閱讀
    <b class='flag-5'>Arm</b> Neoverse平臺(tái)賦能新一代<b class='flag-5'>Google</b> <b class='flag-5'>Axion</b>實(shí)例

    瑞芯微SOC智能視覺AI處理器

    需要連接多種外設(shè)的產(chǎn)品。顯示: 支持雙屏異顯,最高4K@60fps輸出。 RK1126B: 一款集成自研NPU的智能視覺AI處理器,專注于視頻輸入端的AI分析與處理。CPU: 雙核A5
    發(fā)表于 12-19 13:44

    d-Matrix與Andes晶心科技合作打造下一代AI推理加速器

    一代 Raptor 推理架構(gòu)的處理器。本次合作代表著針對(duì)數(shù)據(jù)中心規(guī)模的 AI計(jì)算工作,以存儲(chǔ)為中心的計(jì)算 (memory-centric computing) 與開放標(biāo)準(zhǔn)
    的頭像 發(fā)表于 12-17 10:47 ?1109次閱讀

    瑞薩電子RZ/V系列微處理器助力邊緣AI開發(fā)

    邊緣AI越來越多地應(yīng)用于諸如工業(yè)攝像頭和公共設(shè)施攝像頭等嵌入式設(shè)備中,并要求嵌入式產(chǎn)品小型化且具有低功耗。瑞薩電子RZ/V系列微處理器(MPU)內(nèi)置AI加速器,即動(dòng)態(tài)可重構(gòu)
    的頭像 發(fā)表于 09-23 10:31 ?1031次閱讀
    瑞薩電子RZ/V系列微<b class='flag-5'>處理器</b><b class='flag-5'>助力</b>邊緣<b class='flag-5'>AI</b>開發(fā)

    華為亮相2025金融AI推理應(yīng)用落地與發(fā)展論壇

    創(chuàng)新技術(shù)——UCM推理記憶數(shù)據(jù)管理,旨在推動(dòng)AI推理體驗(yàn)升級(jí),提升推理性價(jià)比,
    的頭像 發(fā)表于 08-15 09:45 ?1359次閱讀

    今日看點(diǎn)丨華為發(fā)布AI推理創(chuàng)新技術(shù)UCM;比亞迪汽車出口暴增130%

    ? ? 降低HBM依賴,華為發(fā)布AI推理創(chuàng)新技術(shù)UCM ? 日前,華為正式發(fā)布AI推理創(chuàng)新技術(shù)U
    發(fā)表于 08-13 09:45 ?5675次閱讀

    Arm KleidiAI與XNNPack集成實(shí)現(xiàn)AI性能提升

    Arm KleidiAI 首次集成到 XNNPack 已過去整整一年。KleidiAI 是一款高度優(yōu)化的軟件庫(kù),旨在加速 Arm CPU 上的人工智能 (AI)
    的頭像 發(fā)表于 08-08 15:19 ?3092次閱讀
    <b class='flag-5'>Arm</b> KleidiAI與XNNPack集成實(shí)現(xiàn)<b class='flag-5'>AI</b>性能提升

    研華科技推出緊湊型邊緣AI推理系統(tǒng)AIR-120

    研華科技隆重宣布,推出緊湊型邊緣AI推理系統(tǒng)——AIR-120。該系統(tǒng)搭載英特爾凌動(dòng)x7433RE(Amston Lake)處理器、酷睿i3-N305處理器、N97(Alder Lak
    的頭像 發(fā)表于 07-17 17:16 ?1156次閱讀

    信而泰×DeepSeek:AI推理引擎驅(qū)動(dòng)網(wǎng)絡(luò)智能診斷邁向 “自愈”時(shí)代

    DeepSeek-R1:強(qiáng)大的AI推理引擎底座DeepSeek是由杭州深度求索人工智能基礎(chǔ)技術(shù)研究有限公司開發(fā)的新一代AI大模型。其核心優(yōu)勢(shì)在于強(qiáng)大的
    發(fā)表于 07-16 15:29

    Arm Kleidi助力輕松加速AI工作負(fù)載

    正如 Arm 工程部軟件高級(jí)副總裁 Mark Hambleton 在《2025 年芯片新思維》報(bào)告中所說:人工智能 (AI) 的未來發(fā)展離不開軟硬件的協(xié)同。
    的頭像 發(fā)表于 06-19 10:45 ?1059次閱讀

    如何在基于Arm Neoverse平臺(tái)的Google Axion處理器上構(gòu)建RAG應(yīng)用

    你是否好奇如何防止人工智能 (AI) 聊天機(jī)器人給出過時(shí)或不準(zhǔn)確的答案?檢索增強(qiáng)生成 (Retrieval-Augmented Generation, RAG) 技術(shù)提供了一種強(qiáng)大的解決方案,能夠顯著提升答案的準(zhǔn)確性和相關(guān)性。
    的頭像 發(fā)表于 04-28 14:34 ?1160次閱讀
    如何在基于<b class='flag-5'>Arm</b> Neoverse平臺(tái)的<b class='flag-5'>Google</b> <b class='flag-5'>Axion</b><b class='flag-5'>處理器</b>上構(gòu)建RAG應(yīng)用

    解讀基于Arm Neoverse V2平臺(tái)的Google Axion處理器

    云計(jì)算需求在人工智能 (AI) 時(shí)代的爆發(fā)式增長(zhǎng),推動(dòng)了開發(fā)者尋求性能優(yōu)化且高能效的解決方案,以降低總體擁有成本 (TCO)。Arm 致力于通過 Arm Neoverse 平臺(tái)滿足不斷變化的需求,Neoverse 也正因此迅速成
    的頭像 發(fā)表于 04-21 13:47 ?1176次閱讀

    光子 AI 處理器的核心原理及突破性進(jìn)展

    ,光子 AI 處理器依靠光信號(hào)的傳輸、調(diào)制及檢測(cè)來完成計(jì)算任務(wù),因其具備高速、低功耗、高帶寬等突出優(yōu)勢(shì),被視作突破現(xiàn)有計(jì)算瓶頸的關(guān)鍵技術(shù)之一。 核心原理及面臨的技術(shù)挑戰(zhàn) 光子
    的頭像 發(fā)表于 04-19 00:40 ?4469次閱讀

    谷歌第七代TPU Ironwood深度解讀:AI推理時(shí)代的硬件革命

    谷歌第七代TPU Ironwood深度解讀:AI推理時(shí)代的硬件革命 Google 發(fā)布了 Ironwood,這是其第七代張量處理單元 (TPU),專為
    的頭像 發(fā)表于 04-12 11:10 ?4088次閱讀
    谷歌第七代TPU Ironwood深度解讀:<b class='flag-5'>AI</b><b class='flag-5'>推理</b>時(shí)代的硬件革命