日本女优一区二区三区,天天干夜操综合高清视频,天天操天天射天天爽

阿里云震旦異構(gòu)計(jì)算加速平臺(tái)基于NVIDIA Tensor Core GPU，通過(guò)機(jī)器學(xué)習(xí)模型的自動(dòng)優(yōu)化技術(shù)，大幅提升了算子的執(zhí)行效率，刷新了NVIDIA A100、A10、T4的GPU單卡性能。并基于8張NVIDIA A100 GPU和開放規(guī)則，以離線場(chǎng)景下每秒處理107.8萬(wàn)張圖片的成績(jī)，打破MLPerf 1.0推理性能測(cè)試紀(jì)錄。

阿里云自研震旦異構(gòu)計(jì)算加速平臺(tái)，適配GPU、ASIC等多種異構(gòu)AI芯片，優(yōu)化編譯代碼，深挖和釋放異構(gòu)芯片算力，支持TensorFlow、Caffe、PAI等多種深度學(xué)習(xí)框架，可實(shí)現(xiàn)AI框架及算法的無(wú)縫遷移適配，支持云變端多場(chǎng)景快速部署，大幅提升AI應(yīng)用開發(fā)效率。

在MLPerf推理性能測(cè)試結(jié)果1.0版中，震旦異構(gòu)計(jì)算加速平臺(tái)，基于8卡NVIDIA A100 GPU配置上性能奪魁，在開放規(guī)則的離線場(chǎng)景下取得每秒處理107.8萬(wàn)張圖片的成績(jī)。

首先在頂層算法模型上，使用基于自動(dòng)機(jī)器學(xué)習(xí)（AutoML）的模型設(shè)計(jì)方式，這種方式可以獲得比人工設(shè)計(jì)更高效的模型。震旦基于MIT的先進(jìn)的神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索算法Once-For-All。

使用了基于強(qiáng)化學(xué)習(xí)的自研搜索算法獲得了高性能子網(wǎng)絡(luò)；之后通過(guò)INT8量化獲得硬件加速繼續(xù)提高性能，并在量化前進(jìn)行深度重訓(xùn)練，以保證量化后的精度能夠達(dá)到測(cè)試的精度要求。

IRB即反轉(zhuǎn)殘差塊（Inverted Residual Block），是用于網(wǎng)絡(luò)架構(gòu)搜索的基本模塊。每個(gè)反轉(zhuǎn)殘差塊包括三層卷積算子，圖上反轉(zhuǎn)殘差塊的長(zhǎng)度代表了該塊的輸出channel數(shù)量。

一般機(jī)器學(xué)習(xí)框架的算子實(shí)現(xiàn)專注于優(yōu)化主流的神經(jīng)網(wǎng)絡(luò)架構(gòu)，而對(duì)于NAS的反轉(zhuǎn)殘差塊則效率不佳，震旦使用了基于自動(dòng)調(diào)優(yōu)的大規(guī)模算子融合技術(shù)，大幅提高了推理時(shí)算子對(duì)GPU的利用率，并且可根據(jù)不同的架構(gòu)自動(dòng)調(diào)優(yōu)到最佳算子實(shí)現(xiàn)。

因此能快速發(fā)掘全新GPU架構(gòu)的潛力，例如對(duì)于A100上通過(guò)MIG（多實(shí)例GPU）技術(shù)產(chǎn)生的具有不同計(jì)算資源的GPU實(shí)例，震旦算子優(yōu)化技術(shù)可以通過(guò)自動(dòng)調(diào)優(yōu)來(lái)進(jìn)一步提升計(jì)算資源利用率。

打破紀(jì)錄的背后，在硬件平臺(tái)上也得益于NVIDIA A100 GPU 強(qiáng)大的算力支持，近5倍于上一代的INT8性能使得超越百萬(wàn)級(jí)性能成為可能。另外，NVIDIA GPU的通用性，即通過(guò)CUDA直接對(duì)硬件編程，使得用戶可以針對(duì)其特有的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行定制優(yōu)化，這讓震旦基于GPU的自動(dòng)算子調(diào)優(yōu)技術(shù)成為了現(xiàn)實(shí)。

最終獲得的調(diào)優(yōu)算子可以更高效地利用A100最新的Tensor Core硬件指令以及更大的共享內(nèi)存，從而交出了軟硬件協(xié)同優(yōu)化的滿意答卷。

在MLPerf推理性能測(cè)試結(jié)果1.0版本圖像分類性能測(cè)試中，阿里云震旦異構(gòu)計(jì)算加速平臺(tái)，基于NVIDIA A100 GPU平臺(tái)和開放規(guī)則，在離線場(chǎng)景下以每秒處理107.8萬(wàn)張圖片的成績(jī)，打破了此前谷歌保持的絕對(duì)性能榜單的世界紀(jì)錄。這也是阿里在通用GPU平臺(tái)第一次取得100萬(wàn)+這樣的成績(jī)。

此次阿里云震旦異構(gòu)計(jì)算加速平臺(tái)基于NVIDIA通用GPU硬件，通過(guò)機(jī)器學(xué)習(xí)模型的自動(dòng)優(yōu)化技術(shù)，大幅提升了算子的執(zhí)行效率，刷新了NVIDIA GPU單卡性能。無(wú)論是新推出的A100和A10，還是已面市3年的T4，都帶來(lái)了單卡性能的大幅提升。

編輯：jq

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

asic

asic

+關(guān)注

關(guān)注
34

文章
1274

瀏覽量
124575
gpu

gpu

+關(guān)注

關(guān)注
28

文章
5194

瀏覽量
135433
AI芯片

AI芯片

+關(guān)注

關(guān)注
17

文章
2126

瀏覽量
36771

原文標(biāo)題：NVIDIA A100 GPU助力阿里云打破MLPerf推理性能測(cè)試紀(jì)錄

文章出處：【微信號(hào)：murata-eetrend，微信公眾號(hào)：murata-eetrend】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

搜索歷史

阿里云震旦異構(gòu)計(jì)算加速平臺(tái)基于NVIDIA Tensor Core GPU

評(píng)論