国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

采用阿里云倚天實例g8y對深度學(xué)習(xí)推理性能進行測試和比較

jf_9aVl32Dp ? 來源:阿里云開發(fā)者社區(qū) ? 作者:彈性計算-百曉生 ? 2022-11-25 10:33 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

簡介:本次實測涵蓋圖像分類識別、圖像目標(biāo)檢測、自然語言處理以及搜索推薦等四種常見的深度學(xué)習(xí)推理場景

近幾年,深度學(xué)習(xí)在視覺、自然語言處理、搜索廣告推薦等工業(yè)界的各個領(lǐng)域廣泛落地。深度學(xué)習(xí)模型參數(shù)量的指數(shù)級上升、以及新的業(yè)務(wù)對復(fù)雜模型的需求,都要求云廠商的彈性計算能夠降低算力成本、提高計算效率,尤其是深度學(xué)習(xí)的推理,將會成為優(yōu)化的重點。在此因素影響下,阿里云平頭哥團隊推出了全球首個5nm 制程的 ARM Server 芯片倚天710。該芯片基于 ARM Neoverse N2 架構(gòu),支持最新的 ARMv9 指令集,其中包括 i8mm,bf16等擴展指令集,能在科學(xué)/AI計算領(lǐng)域獲得性能優(yōu)勢。

在本文中,我們聚焦于采用倚天710芯片的 ECS倚天實例g8y,對深度學(xué)習(xí)推理任務(wù)的性能進行了測試和比較。

01 Workloads

本次分析,我們選擇了四種常見的深度學(xué)習(xí)推理場景,涵蓋圖像分類識別、圖像目標(biāo)檢測、自然語言處理以及搜索推薦領(lǐng)域。所使用的代表性模型如下:

Area Task Model
Vision Image Classification Resnet50-v1.5 and VGG19
Vision Object Detection SSD-Resnet34
Language Natural Language Processing BERT-Large
Recommendation Click-Through Rate Prediction DIN

02 Platforms

實例類型

我們在阿里云兩種實例類型上進行測試,分別是ECS g8y(倚天710) 和 ECS g7(Ice Lake),實例均為 8-vCPU。

Deep Learning Framework

在所有平臺,我們使用 TensorFlow v2.10.0 和 PyTorch 1.12.1。

在 Arm 設(shè)備上,TensorFlow 支持兩種后端,我們使用 OneDNN 后端。OneDNN 是一個開源的跨平臺深度學(xué)習(xí)庫,并且能夠集成 Arm Compute Library(Arm設(shè)備的機器學(xué)習(xí)計算庫)。在 Arm 設(shè)備上使用該后端能夠取得更高的性能。

OneDNN 在 PyTorch 上的支持仍然是實驗版本,因此在 PyTorch 框架上使用默認(rèn)的 OpenBLAS 后端。

BFloat16

BFloat16 (BF16) 是一種浮點數(shù)表示形式,其指數(shù)位與單精度浮點數(shù)(IEEE FP32)保持一致,但是小數(shù)位只有 7 位,因此 BF16 的表示范圍與 FP32 幾乎一致,但是精度較低。BF16 非常適合深度學(xué)習(xí),因為通常精度下降并不會顯著降低模型的預(yù)測精度,但是16位的數(shù)據(jù)格式卻能夠節(jié)省空間、加速計算。

03 TensorFlow Performance Comparison

g8y 借助新的 BF16 指令,大幅提升了深度學(xué)習(xí)模型的推理性能,在多個場景下跑出了比 g7 更優(yōu)秀的數(shù)據(jù)。此外,倚天 710 作為自研芯片,相比 g7 最大有 30% 的價格優(yōu)勢。

下面四幅圖分別是 Resnet50,SSD,BERT 和 DIN 模型下的對比結(jié)果,其中,Resnet,SSD 和 BERT 都來自 MLPerf Inference Benchmark 項目,DIN 是 alibaba 提出的點擊率預(yù)測模型。藍色柱狀條是直接性能對比,橙色柱狀條是考慮了單位價格的性能對比,例如在 Resnet50 上,g8y 的性能是 g7 的 1.43倍,單位價格的性能是 g7 的 2.05 倍。

b3637baa-6c03-11ed-8abf-dac502259ad0.png

Figure 1: Resnet50 在 g8y 和 g7 上的推理性能對比圖

說明:此處設(shè)置 Batch Size = 32,測試圖像尺寸為 224 * 224

b3a2567c-6c03-11ed-8abf-dac502259ad0.png

Figure 2: SSD 性能對比圖

說明:此處 Batch Size = 1,測試圖像尺寸為1200 * 1200

b3bdb886-6c03-11ed-8abf-dac502259ad0.png

Figure 3: BERT 性能對比圖

b3dae80c-6c03-11ed-8abf-dac502259ad0.png

Figure 4: DIN 性能對比圖

04 PyTorch Performance Comparison

Arm 上的 OneDNN 后端的 PyTorch 版本仍然是實驗性質(zhì),因此本次實驗采用默認(rèn)的 OpenBLAS 后端。OpenBLAS 是一個開源的線性代數(shù)庫,我們?yōu)槠涮砑恿酸槍?Arm Neoverse N2 的 BFloat16 矩陣乘法計算的優(yōu)化實現(xiàn)。

OpenBLAS BFloat16 矩陣乘法優(yōu)化

矩陣乘法和深度學(xué)習(xí)存在非常緊密的關(guān)系,例如深度學(xué)習(xí)中常見的 Fully Connected Layer,Convolutional Layer等,最終是被轉(zhuǎn)換成矩陣乘法實現(xiàn)的。因此,加速矩陣乘法最終能加速模型的計算。

OpenBLAS 是一個廣泛使用的計算庫,默認(rèn)作為 Numpy,PyTorch 等庫的后端,我們在調(diào)研中發(fā)現(xiàn)該庫不支持倚天 710 的 bf16 指令擴展,在和社區(qū)交流后,我們決定利用倚天 710 支持的 BFMMLA 等向量指令實現(xiàn)支持 bf16 數(shù)據(jù)格式的矩陣乘法,實現(xiàn)后性能的到大幅提升,性能對比如圖 5 所示。該實現(xiàn)目前已經(jīng)貢獻給開源社區(qū),OpenBLAS 的最新版本 0.3.21 也已經(jīng)合入。

b3fcf8c0-6c03-11ed-8abf-dac502259ad0.png

Figure5: OpenBLAS 矩陣乘法性能對比

說明:參與運算的矩陣的行數(shù)和列數(shù)均為 1000。

PyTorch CNN Performance

OpenBLAS 作為 PyTorch 的默認(rèn)后端,在矩陣乘法上的優(yōu)化可以體現(xiàn)在 PyTorch 實現(xiàn)的深度學(xué)習(xí)模型中,我們以卷積計算占比較高的模型 VGG19 為例,該模型推理時,所有的卷積算子會被轉(zhuǎn)換為矩陣乘法,并調(diào)用 OpenBLAS 完成計算。下圖是 VGG 19 的性能對比:

b41e7e28-6c03-11ed-8abf-dac502259ad0.png

Figure 6: VGG19性能對比圖

05 結(jié)論

本文的分析顯示,在阿里云倚天實例g8y上,多個深度學(xué)習(xí)模型的推理性能高于同規(guī)格 g7,這主要得益于 Arm Neoverse N2 的新指令以及不斷更新的軟件支持(OneDNN、ACL 和 OpenBLAS)。在這個過程中,阿里云編譯器團隊貢獻了一部分軟件優(yōu)化,后續(xù)我們將繼續(xù)關(guān)注該領(lǐng)域的軟硬件優(yōu)化,提高 Arm 系列實例在 ML/AI 方面的競爭力。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 芯片
    +關(guān)注

    關(guān)注

    463

    文章

    54010

    瀏覽量

    466151
  • ARM
    ARM
    +關(guān)注

    關(guān)注

    135

    文章

    9553

    瀏覽量

    391915
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5599

    瀏覽量

    124400

原文標(biāo)題:性能最高提升50%,ECS倚天實例深度學(xué)習(xí)推理性能實測

文章出處:【微信號:Arm軟件開發(fā)者,微信公眾號:Arm軟件開發(fā)者】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    今日看點:消息稱 AMD、高通考慮導(dǎo)入 SOCAMM 內(nèi)存;曦望發(fā)布新一代推理GPU芯片啟望S3

    推理深度定制的GPGPU芯片。其單芯片推理性能提升5倍,支持從FP16到FP8、FP6、FP4等多精度靈活切換,釋放低精度推理效率,這種設(shè)計
    發(fā)表于 01-28 11:09 ?399次閱讀

    DeepX OCR:以 DeepX NPU 加速 PaddleOCR 推理,在 ARM 與 x86 平臺交付可規(guī)模化的高性能 OCR 能力

    落地過程中,企業(yè)逐漸意識到:** 制約 OCR 應(yīng)用進一步擴展的核心因素,已不再是模型準(zhǔn)確率本身,而是整體推理性能與部署成本。 具體來說,規(guī)?;?OCR 應(yīng)用主要面臨以下幾方面挑戰(zhàn): 吞吐量(FPS)不足 ,難以支撐高并發(fā)或多路輸入場景; 推理
    的頭像 發(fā)表于 01-22 21:02 ?160次閱讀
    DeepX OCR:以 DeepX NPU 加速 PaddleOCR <b class='flag-5'>推理</b>,在 ARM 與 x86 平臺交付可規(guī)?;母?b class='flag-5'>性能</b> OCR 能力

    聲智科技亮相2026阿里通義智能硬件展

    1月8日至11日,備受矚目的阿里通義智能硬件展在深圳火熱開啟。作為專注聲學(xué)AI的全球創(chuàng)新企業(yè),聲智科技(SoundAI)與阿里通義大模型
    的頭像 發(fā)表于 01-19 16:06 ?528次閱讀

    Powered by XuanTie,Qwen Inside:阿里通義大模型攜手玄鐵 RISC-V開啟“端側(cè)智能”新紀(jì)元

    的優(yōu)勢,深度融合,正式推出“Powered by XuanTie,Qwen Inside”技術(shù)戰(zhàn)略——通義大模型算法與基于開源 RISC-V 架構(gòu)的玄鐵處理器將通過軟硬全鏈路協(xié)同優(yōu)化,實現(xiàn)通義大模型家族在 RISC-V 架構(gòu)上的極致高效部署和推理性能,從端到
    的頭像 發(fā)表于 01-12 11:49 ?233次閱讀
    Powered by XuanTie,Qwen Inside:<b class='flag-5'>阿里</b>通義大模型攜手玄鐵 RISC-V開啟“端側(cè)智能”新紀(jì)元

    NVIDIA TensorRT LLM 1.0推理框架正式上線

    TensorRT LLM 作為 NVIDIA 為大規(guī)模 LLM 推理打造的推理框架,核心目標(biāo)是突破 NVIDIA 平臺上的推理性能瓶頸。為實現(xiàn)這一目標(biāo),其構(gòu)建了多維度的核心實現(xiàn)路徑:一方面,針對需
    的頭像 發(fā)表于 10-21 11:04 ?1177次閱讀

    英特爾助力阿里推出多款實例和存儲方案

    AI時代數(shù)據(jù)爆發(fā)式增長,讓企業(yè)對數(shù)據(jù)的實時處理、深度分析與智能決策等提出了更高要求,同時也對基礎(chǔ)設(shè)施在性能、成本效益上的綜合能力提出了更迫切的需求。為應(yīng)對這些挑戰(zhàn),阿里
    的頭像 發(fā)表于 10-16 10:22 ?587次閱讀

    利用NVIDIA DOCA GPUNetIO技術(shù)提升MoE模型推理性能

    在第三屆 NVIDIA DPU 中國黑客松競賽中,我們見證了開發(fā)者與 NVIDIA 網(wǎng)絡(luò)技術(shù)的深度碰撞。在 23 支參賽隊伍中,有 5 支隊伍脫穎而出,展現(xiàn)了在 AI 網(wǎng)絡(luò)、存儲和安全等領(lǐng)域的創(chuàng)新突破。
    的頭像 發(fā)表于 09-23 15:25 ?1032次閱讀

    使用NVIDIA NVLink Fusion技術(shù)提升AI推理性能

    本文詳細(xì)闡述了 NVIDIA NVLink Fusion 如何借助高效可擴展的 NVIDIA NVLink scale-up 架構(gòu)技術(shù),滿足日益復(fù)雜的 AI 模型不斷增長的需求。
    的頭像 發(fā)表于 09-23 14:45 ?929次閱讀
    使用NVIDIA NVLink Fusion技術(shù)提升AI<b class='flag-5'>推理性能</b>

    華為亮相2025金融AI推理應(yīng)用落地與發(fā)展論壇

    創(chuàng)新技術(shù)——UCM推理記憶數(shù)據(jù)管理器,旨在推動AI推理體驗升級,提升推理性價比,加速AI商業(yè)正循環(huán)。同時,華為攜手中國銀聯(lián)率先在金融典型場景開展UCM技術(shù)試點應(yīng)用,并聯(lián)合發(fā)布智慧金融AI推理
    的頭像 發(fā)表于 08-15 09:45 ?1229次閱讀

    阿里設(shè)備的物模型數(shù)據(jù)里面始終沒有值是哪里的問題?

    如上圖,不知道講清楚沒有。 IG502自定義TOPIC 上發(fā)到阿里沒問題。采用阿里物模型的格式來上發(fā)就不行。請大佬指教!
    發(fā)表于 08-05 06:43

    信而泰×DeepSeek:AI推理引擎驅(qū)動網(wǎng)絡(luò)智能診斷邁向 “自愈”時代

    網(wǎng)絡(luò)智能診斷平臺。通過對私有化網(wǎng)絡(luò)數(shù)據(jù)的定向訓(xùn)練,信而泰打造了高性能、高可靠性的網(wǎng)絡(luò)診斷模型,顯著提升了AI輔助診斷的精準(zhǔn)度與實用性。該方案實現(xiàn)了網(wǎng)絡(luò)全流量深度解析能力與AI智能推理分析能力的有機融合
    發(fā)表于 07-16 15:29

    大模型推理顯存和計算量估計方法研究

    方法。 一、引言 大模型推理是指在已知輸入數(shù)據(jù)的情況下,通過深度學(xué)習(xí)模型進行預(yù)測或分類的過程。然而,大模型的推理過程對顯存和計算資源的需求較
    發(fā)表于 07-03 19:43

    廣汽集團與阿里、華為展開深度合作

    “AI+”技術(shù)正快速向汽車產(chǎn)業(yè)滲透,廣汽集團通過與阿里、華為等優(yōu)秀科技企業(yè)展開深度合作,持續(xù)構(gòu)建“廣汽AI智能生態(tài)鏈Golink”,全面推進數(shù)字化、智能化變革,加速向“數(shù)據(jù)+AI”雙輪驅(qū)動轉(zhuǎn)型,為研發(fā)、生產(chǎn)、銷售、運營及國際化
    的頭像 發(fā)表于 05-28 15:33 ?1094次閱讀

    英偉達GTC25亮點:NVIDIA Dynamo開源庫加速并擴展AI推理模型

    NVIDIA Dynamo 提高了推理性能,同時降低了擴展測試時計算 (Scaling Test-Time Compute) 的成本;在 NVIDIA Blackwell 上的推理優(yōu)化將
    的頭像 發(fā)表于 03-20 15:03 ?1237次閱讀

    從零復(fù)現(xiàn),全面開源:360 Light-R1-14B/7B帶來端側(cè)AI平權(quán)時刻

    14B開源颶風(fēng),360掀起端側(cè)推理性能革命
    的頭像 發(fā)表于 03-16 10:47 ?1105次閱讀
    從零復(fù)現(xiàn),全面開源:360 Light-R1-14B/7B帶來端側(cè)AI平權(quán)時刻