2020年7月30日,MLPerf組織發(fā)布第三個(gè)版本MLPerf Trainingv0.7基準(zhǔn)測(cè)試(Benchmark)結(jié)果。結(jié)果顯示,英偉達(dá)基于今年5月最新發(fā)布的Ampere架構(gòu)A100 TensorCore GPU,和HDR InfiniBand實(shí)現(xiàn)多個(gè)DGXA100系統(tǒng)互聯(lián)的龐大集群——DGX SuperPOD系統(tǒng)在性能上開創(chuàng)了八個(gè)全新里程碑,共打破16項(xiàng)紀(jì)錄。
MLPerf是成立于2018年5月的行業(yè)基準(zhǔn)測(cè)試組織,致力于機(jī)器學(xué)習(xí)硬件、軟件和服務(wù)的訓(xùn)練和推理性能測(cè)試,囊括行業(yè)中幾乎所有知名企業(yè)和機(jī)構(gòu),比如Intel、NVIDIA、Google、微軟、阿里巴巴等。
DGX SuperPOD系統(tǒng)公布于去年6月17號(hào)。最初由96臺(tái)NVIDIA DGX-2H超級(jí)計(jì)算機(jī)和Mellanox互連技術(shù)在短短三周內(nèi)建成,提供9.4千兆次的處理能力,用于該公司在無人駕駛車輛部署計(jì)劃中的需求。
而此次創(chuàng)造紀(jì)錄的NVIDIA DGX SuperPOD系統(tǒng)主要基于Ampere架構(gòu)以及Volta架構(gòu),并且搭載了今年5月份發(fā)布的Ampere架構(gòu)GPU A100。
黃仁勛在GTC 2020大會(huì)上說道,A100是迄今為止人類制造出的最大7納米制程芯片。A100采用目前最先進(jìn)的臺(tái)積電(TSMC)7納米工藝,擁有540億個(gè)晶體管,它是一塊3D堆疊芯片,面積高達(dá)826mm^2,GPU的最大功率達(dá)到了400W。
這塊GPU上搭載了容量40G的三星HBM2顯存(比DDR5速度還快得多,就是很貴),第三代TensorCore。同時(shí)它的并聯(lián)效率也有了巨大提升,其采用帶寬600GB/s的新版NVLink,幾乎達(dá)到了10倍PCIE互聯(lián)速度。
隨著安培架構(gòu)出現(xiàn)的三代TensorCore對(duì)稀疏張量運(yùn)算進(jìn)行了特別加速:執(zhí)行速度提高了一倍,也支持TF32、FP16、BFLOAT16、INT8和INT4等精度的加速——系統(tǒng)會(huì)自動(dòng)將數(shù)據(jù)轉(zhuǎn)為TF32格式加速運(yùn)算,現(xiàn)在你無需修改任何代碼量化了,直接自動(dòng)訓(xùn)練即可。
A100也針對(duì)云服務(wù)的虛擬化進(jìn)行了升級(jí),因?yàn)槿碌膍ulti-instanceGPU機(jī)制,在模擬實(shí)例時(shí),每塊GPU的吞吐量增加了7倍。
最終在跑AI模型時(shí),如果用PyTorch框架,相比上一代V100芯片,A100在BERT模型的訓(xùn)練上性能提升6倍,BERT推斷時(shí)性能提升7倍。
電子發(fā)燒友綜合報(bào)道,參考自鎂客網(wǎng)、機(jī)器之心,轉(zhuǎn)載請(qǐng)注明來源和出處。
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5594瀏覽量
109756 -
gpu
+關(guān)注
關(guān)注
28文章
5194瀏覽量
135474
發(fā)布評(píng)論請(qǐng)先 登錄
阿里神秘AI芯片正式官宣!GPGPU路線,性能超越A100
每塊GPU對(duì)應(yīng)16TB SSD,英偉達(dá)KV緩存虹吸高性能TLC SSD
NVIDIA RTX PRO 5000 Blackwell GPU的深度評(píng)測(cè)
NVIDIA RTX PRO 4000 Blackwell GPU性能測(cè)試
亞馬遜發(fā)布新一代AI芯片Trainium3,性能提升4倍
NVIDIA RTX PRO 2000 Blackwell GPU性能測(cè)試
新手小白必看!關(guān)于A100云主機(jī)租用,你想知道的一切都在這!
通過NVIDIA Jetson AGX Thor實(shí)現(xiàn)7倍生成式AI性能
使用NVIDIA NVLink Fusion技術(shù)提升AI推理性能
AI 芯片浪潮下,職場(chǎng)晉升新契機(jī)?
NVIDIA桌面GPU系列擴(kuò)展新產(chǎn)品
NVIDIA Jetson AGX Thor開發(fā)者套件概述
NVIDIA Blackwell GPU優(yōu)化DeepSeek-R1性能 打破DeepSeek-R1在最小延遲場(chǎng)景中的性能紀(jì)錄
性能提升20倍!NVIDIA A100 GPU打破16項(xiàng)AI芯片性能記錄
評(píng)論