国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

阿里云震旦異構(gòu)計(jì)算加速平臺(tái)基于NVIDIA Tensor Core GPU

GLeX_murata_eet ? 來(lái)源:NVIDIA英偉達(dá)企業(yè)解決方案 ? 作者:NVIDIA英偉達(dá)企業(yè)解 ? 2021-08-13 10:17 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

阿里云震旦異構(gòu)計(jì)算加速平臺(tái)基于NVIDIA Tensor Core GPU,通過(guò)機(jī)器學(xué)習(xí)模型的自動(dòng)優(yōu)化技術(shù),大幅提升了算子的執(zhí)行效率,刷新了NVIDIA A100、A10、T4的GPU單卡性能。并基于8張NVIDIA A100 GPU和開放規(guī)則,以離線場(chǎng)景下每秒處理107.8萬(wàn)張圖片的成績(jī),打破MLPerf 1.0推理性能測(cè)試紀(jì)錄。

阿里云自研震旦異構(gòu)計(jì)算加速平臺(tái),適配GPU、ASIC等多種異構(gòu)AI芯片,優(yōu)化編譯代碼,深挖和釋放異構(gòu)芯片算力,支持TensorFlow、Caffe、PAI等多種深度學(xué)習(xí)框架,可實(shí)現(xiàn)AI框架及算法的無(wú)縫遷移適配,支持云變端多場(chǎng)景快速部署,大幅提升AI應(yīng)用開發(fā)效率。

在MLPerf推理性能測(cè)試結(jié)果1.0版中,震旦異構(gòu)計(jì)算加速平臺(tái),基于8卡NVIDIA A100 GPU配置上性能奪魁,在開放規(guī)則的離線場(chǎng)景下取得每秒處理107.8萬(wàn)張圖片的成績(jī)。

首先在頂層算法模型上,使用基于自動(dòng)機(jī)器學(xué)習(xí)(AutoML)的模型設(shè)計(jì)方式,這種方式可以獲得比人工設(shè)計(jì)更高效的模型。震旦基于MIT的先進(jìn)的神經(jīng)網(wǎng)絡(luò)架構(gòu)搜索算法Once-For-All。

使用了基于強(qiáng)化學(xué)習(xí)的自研搜索算法獲得了高性能子網(wǎng)絡(luò);之后通過(guò)INT8量化獲得硬件加速繼續(xù)提高性能,并在量化前進(jìn)行深度重訓(xùn)練,以保證量化后的精度能夠達(dá)到測(cè)試的精度要求。

IRB即反轉(zhuǎn)殘差塊(Inverted Residual Block),是用于網(wǎng)絡(luò)架構(gòu)搜索的基本模塊。每個(gè)反轉(zhuǎn)殘差塊包括三層卷積算子,圖上反轉(zhuǎn)殘差塊的長(zhǎng)度代表了該塊的輸出channel數(shù)量。

一般機(jī)器學(xué)習(xí)框架的算子實(shí)現(xiàn)專注于優(yōu)化主流的神經(jīng)網(wǎng)絡(luò)架構(gòu),而對(duì)于NAS的反轉(zhuǎn)殘差塊則效率不佳,震旦使用了基于自動(dòng)調(diào)優(yōu)的大規(guī)模算子融合技術(shù),大幅提高了推理時(shí)算子對(duì)GPU的利用率,并且可根據(jù)不同的架構(gòu)自動(dòng)調(diào)優(yōu)到最佳算子實(shí)現(xiàn)。

因此能快速發(fā)掘全新GPU架構(gòu)的潛力,例如對(duì)于A100上通過(guò)MIG(多實(shí)例GPU)技術(shù)產(chǎn)生的具有不同計(jì)算資源的GPU實(shí)例,震旦算子優(yōu)化技術(shù)可以通過(guò)自動(dòng)調(diào)優(yōu)來(lái)進(jìn)一步提升計(jì)算資源利用率。

打破紀(jì)錄的背后,在硬件平臺(tái)上也得益于NVIDIA A100 GPU 強(qiáng)大的算力支持,近5倍于上一代的INT8性能使得超越百萬(wàn)級(jí)性能成為可能。另外,NVIDIA GPU的通用性,即通過(guò)CUDA直接對(duì)硬件編程,使得用戶可以針對(duì)其特有的神經(jīng)網(wǎng)絡(luò)模型進(jìn)行定制優(yōu)化,這讓震旦基于GPU的自動(dòng)算子調(diào)優(yōu)技術(shù)成為了現(xiàn)實(shí)。

最終獲得的調(diào)優(yōu)算子可以更高效地利用A100最新的Tensor Core硬件指令以及更大的共享內(nèi)存,從而交出了軟硬件協(xié)同優(yōu)化的滿意答卷。

在MLPerf推理性能測(cè)試結(jié)果1.0版本圖像分類性能測(cè)試中,阿里云震旦異構(gòu)計(jì)算加速平臺(tái),基于NVIDIA A100 GPU平臺(tái)和開放規(guī)則,在離線場(chǎng)景下以每秒處理107.8萬(wàn)張圖片的成績(jī),打破了此前谷歌保持的絕對(duì)性能榜單的世界紀(jì)錄。這也是阿里在通用GPU平臺(tái)第一次取得100萬(wàn)+這樣的成績(jī)。

此次阿里云震旦異構(gòu)計(jì)算加速平臺(tái)基于NVIDIA通用GPU硬件,通過(guò)機(jī)器學(xué)習(xí)模型的自動(dòng)優(yōu)化技術(shù),大幅提升了算子的執(zhí)行效率,刷新了NVIDIA GPU單卡性能。無(wú)論是新推出的A100和A10,還是已面市3年的T4,都帶來(lái)了單卡性能的大幅提升。

編輯:jq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • asic
    +關(guān)注

    關(guān)注

    34

    文章

    1274

    瀏覽量

    124575
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5194

    瀏覽量

    135433
  • AI芯片
    +關(guān)注

    關(guān)注

    17

    文章

    2126

    瀏覽量

    36771

原文標(biāo)題:NVIDIA A100 GPU助力阿里云打破MLPerf推理性能測(cè)試紀(jì)錄

文章出處:【微信號(hào):murata-eetrend,微信公眾號(hào):murata-eetrend】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    借助NVIDIA CUDA Tile IR后端推進(jìn)OpenAI Triton的GPU編程

    NVIDIA CUDA Tile 是基于 GPU 的編程模型,其設(shè)計(jì)目標(biāo)是為 NVIDIA Tensor Cores 提供可移植性,從而釋放 GPU
    的頭像 發(fā)表于 02-10 10:31 ?240次閱讀

    NVIDIA RTX PRO 5000 Blackwell GPU的深度評(píng)測(cè)

    NVIDIA RTX PRO 5000 Blackwell 是 NVIDIA RTX 5000 Ada Generation 的升級(jí)迭代產(chǎn)品,其各項(xiàng)核心指標(biāo)均針對(duì) GPU 加速工作流的
    的頭像 發(fā)表于 01-06 09:51 ?2257次閱讀
    <b class='flag-5'>NVIDIA</b> RTX PRO 5000 Blackwell <b class='flag-5'>GPU</b>的深度評(píng)測(cè)

    在Python中借助NVIDIA CUDA Tile簡(jiǎn)化GPU編程

    模型更高的層級(jí)來(lái)實(shí)現(xiàn)算法。至于如何將計(jì)算任務(wù)拆分到各個(gè)線程,完全由編譯器和運(yùn)行時(shí)在底層自動(dòng)處理。不僅如此,tile kernels 還能夠屏蔽 Tensor Core 等專用硬件的細(xì)節(jié),寫出的代碼還能
    的頭像 發(fā)表于 12-13 10:12 ?1191次閱讀
    在Python中借助<b class='flag-5'>NVIDIA</b> CUDA Tile簡(jiǎn)化<b class='flag-5'>GPU</b>編程

    PCIe協(xié)議分析儀能測(cè)試哪些設(shè)備?

    PCIe協(xié)議分析儀能測(cè)試多種依賴PCIe總線進(jìn)行高速數(shù)據(jù)傳輸?shù)脑O(shè)備,其測(cè)試范圍覆蓋計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)及異構(gòu)計(jì)算等多個(gè)領(lǐng)域,具體設(shè)備類型及測(cè)試場(chǎng)景如下:一、核心計(jì)算設(shè)備 GPU(圖形處理器
    發(fā)表于 07-25 14:09

    NVIDIA助力CoreWeave平臺(tái)性能升級(jí)

    AI 變革正在重塑數(shù)據(jù)中心格局,亟需能夠提供更靈活、高性價(jià)比的計(jì)算和數(shù)據(jù)能力的平臺(tái)。為了滿足這些需求,作為推動(dòng) AI 變革的超大規(guī)模服務(wù)提供商,CoreWeave 致力于開發(fā)一種用于加速
    的頭像 發(fā)表于 07-23 10:49 ?1295次閱讀
    <b class='flag-5'>NVIDIA</b>助力CoreWeave<b class='flag-5'>云</b><b class='flag-5'>平臺(tái)</b>性能升級(jí)

    異構(gòu)計(jì)算解決方案(兼容不同硬件架構(gòu))

    異構(gòu)計(jì)算解決方案通過(guò)整合不同類型處理器(如CPU、GPU、NPU、FPGA等),實(shí)現(xiàn)硬件資源的高效協(xié)同與兼容,滿足多樣化計(jì)算需求。其核心技術(shù)與實(shí)踐方案如下: 一、硬件架構(gòu)設(shè)計(jì) 異構(gòu)處理
    的頭像 發(fā)表于 06-23 07:40 ?849次閱讀

    NVIDIA計(jì)劃打造全球首個(gè)工業(yè)AI平臺(tái)

    NVIDIA 宣布,其正在為歐洲制造商構(gòu)建全球首個(gè)工業(yè) AI 。這家總部位于德國(guó)的 AI 工廠將配備 1 萬(wàn)個(gè) GPU,包括通過(guò) NVIDIA DGX B200 系統(tǒng) 和
    的頭像 發(fā)表于 06-16 14:17 ?1431次閱讀

    如何釋放異構(gòu)計(jì)算的潛能?Imagination與Baya Systems的系統(tǒng)架構(gòu)實(shí)踐啟示

    報(bào)告作者:PallaviSharma,Imaginaiton產(chǎn)品管理總監(jiān)Dr.EricNorige,BayaSystems首席軟件架構(gòu)師關(guān)注Imagination公眾號(hào),消息框發(fā)送【異構(gòu)計(jì)算】,即可
    的頭像 發(fā)表于 06-13 08:33 ?1137次閱讀
    如何釋放<b class='flag-5'>異構(gòu)計(jì)算</b>的潛能?Imagination與Baya Systems的系統(tǒng)架構(gòu)實(shí)踐啟示

    能效提升3倍!異構(gòu)計(jì)算架構(gòu)讓AI跑得更快更省電

    電子發(fā)燒友網(wǎng)報(bào)道(文/李彎彎)異構(gòu)計(jì)算架構(gòu)通過(guò)集成多種不同類型的處理單元(如CPU、GPU、NPU、FPGA、DSP等),針對(duì)不同計(jì)算任務(wù)的特點(diǎn)進(jìn)行分工協(xié)作,從而在性能、能效和靈活性之間實(shí)現(xiàn)最優(yōu)平衡
    的頭像 發(fā)表于 05-25 01:55 ?3987次閱讀

    Imagination與澎峰科技攜手推動(dòng)GPU+AI解決方案,共拓計(jì)算生態(tài)

    近日, Imagination Technologies 與國(guó)內(nèi)領(lǐng)先的異構(gòu)計(jì)算軟件與智算混合服務(wù)提供商 澎峰科技 ( PerfXLab )正式簽署合作備忘錄( MoU ),圍繞 GPU 與 AI
    發(fā)表于 05-21 09:40 ?1218次閱讀

    Imagination與澎峰科技攜手推動(dòng)GPU+AI解決方案,共拓計(jì)算生態(tài)

    近日,ImaginationTechnologies與國(guó)內(nèi)領(lǐng)先的異構(gòu)計(jì)算軟件與智算混合服務(wù)提供商澎峰科技(PerfXLab)正式簽署合作備忘錄(MoU),圍繞GPU與AI的深度融合展開合作。雙方將
    的頭像 發(fā)表于 05-20 08:33 ?930次閱讀
    Imagination與澎峰科技攜手推動(dòng)<b class='flag-5'>GPU</b>+AI解決方案,共拓<b class='flag-5'>計(jì)算</b>生態(tài)

    RAKsmart智能算力架構(gòu):異構(gòu)計(jì)算+低時(shí)延網(wǎng)絡(luò)驅(qū)動(dòng)企業(yè)AI訓(xùn)練范式升級(jí)

    在AI大模型參數(shù)量突破萬(wàn)億、多模態(tài)應(yīng)用爆發(fā)的今天,企業(yè)AI訓(xùn)練正面臨算力效率與成本的雙重挑戰(zhàn)。RAKsmart推出的智能算力架構(gòu),以異構(gòu)計(jì)算資源池化與超低時(shí)延網(wǎng)絡(luò)為核心,重構(gòu)AI訓(xùn)練基礎(chǔ)設(shè)施,助力企業(yè)實(shí)現(xiàn)訓(xùn)練速度提升、硬件成本下降與算法迭代加速的三重突破。
    的頭像 發(fā)表于 04-17 09:29 ?761次閱讀

    NVIDIA實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)渲染技術(shù)的突破性增強(qiáng)功能

    發(fā)者能使用 NVIDIA GeForce RTX GPU 中的 AI Tensor Cores,在游戲的圖形渲染管線內(nèi)加速神經(jīng)網(wǎng)絡(luò)渲染。
    的頭像 發(fā)表于 04-07 11:33 ?1166次閱讀

    使用NVIDIA RTX PRO Blackwell系列GPU加速AI開發(fā)

    NVIDIA GTC 推出新一代專業(yè)級(jí) GPU 和 AI 賦能的開發(fā)者工具—同時(shí),ChatRTX 更新現(xiàn)已支持 NVIDIA NIM,RTX Remix 正式結(jié)束測(cè)試階段,本月的 NVIDIA
    的頭像 發(fā)表于 03-28 09:59 ?1302次閱讀

    阿里是什么?企業(yè)不可不知的云端架構(gòu)服務(wù)!

    阿里是什么?中國(guó)高速連線阿里 CDN 服務(wù) 阿里為國(guó)內(nèi)云端市場(chǎng)中市占有率第一的
    的頭像 發(fā)表于 03-16 09:43 ?1645次閱讀