“天下武功,唯快不破”,你需要以“快”制勝。
如今,全球頂級公司的研究人員和數據科學家團隊們都在致力于創建更為復雜的AI模型。但是,AI模型的創建工作不僅僅是設計模型,還需要對模型進行快速地訓練。
這就是為什么說,如果想在AI領域保持領導力,就首先需要有賴于AI基礎設施的領導力。而這也正解釋了為什么MLPerf AI訓練結果如此之重要。
通過完成全部6項MLPerf基準測試,NVIDIA展現出了全球一流的性能表現和多功能性。NVIDIA AI平臺在訓練性能方面創下了八項記錄,其中包括三項大規模整體性能紀錄和五項基于每個加速器的性能紀錄。

表1:NVIDIA MLPerf AI紀錄
每個加速器的比較基于早前報告的基于單一NVIDIA DGX-2H(16個V100 GPU)、與其他同規模相比較的MLPerf 0.6的性能(除MiniGo采用的是基于8個V100 GPU的NVIDIA DGX-1)|最大規模MLPerf ID:Mask R-CNN:0.6-23,GNMT:0.6-26,MiniGo:0.6-11 |每加速器MLPerf ID:Mask R-CNN,SSD,GNMT,Transformer:全部使用0.6-20,MiniGo:0.6-10
以上測試結果數據由谷歌、英特爾、百度、NVIDIA、以及創建MLPerf AI基準測試的其他數十家頂級技術公司和大學提供背書,能夠轉化為具有重要意義的創新。
簡而言之,NVIDIA的AI平臺如今能夠在不到兩分鐘的時間內完成此前需要一個工作日才能完成的模型訓練。
各公司都知道,釋放生產力是一件重中之重的要務。超級計算機如今已經成為了AI的必備工具,樹立AI領域的領導力首先需要強大的AI計算基礎設施支持。
NVIDIA最新的MLPerf結果很好地展示了將NVIDIA V100 Tensor核心GPU應用于超算級基礎設施中所能帶來的益處。
在2017年春季的時候,使用搭載了V100 GPU的NVIDIA DGX-1系統訓練圖像識別模型ResNet-50,需要花費整整一個工作日(8小時)的時間。
而如今,同樣的任務,NVIDIA DGX SuperPOD使用相同的V100 GPU,采用Mellanox InfiniBand進行互聯,并借助可用于分布式AI訓練的最新NVIDIA優化型AI軟件,僅需80秒即可完成。
80秒的時間,甚至都不夠用來沖一杯咖啡。

圖1:AI時間機器
2019年MLPerf ID(按圖表從上到下的順序):ResNet-50:0.6-30 | Transformer:0.6-28 | GNMT:0.6-14 | SSD:0.6-27 | MiniGo:0.6-11 | Mask R-CNN:0
AI的必備工具:DGX SuperPOD能夠更快速地完成工作負載
仔細觀察今日的MLPerf結果,會發現NVIDIA DGX SuperPOD是唯一在所有六個MLPerf類別中耗時都少于20分鐘的AI平臺:
?圖2:DGX SuperPOD打破大規模AI紀錄
大規模MLPerf 0.6性能|大規模MLPerf ID:RN50 v1.5:0.6-30,0.6-6 | Transformer:0.6-28,0.6-6 | GNMT:0.6-26,0.6-5 | SSD:0.6-27,0.6-6 | MiniGo:0.6-11,0.6-7 | Mask R-CNN:0.6-23,0.6-3
更進一步觀察會發現,針對重量級目標檢測和強化學習,這些最困難的AI問題,NVIDIA AI平臺在總體訓練時間方面脫穎而出。
使用Mask R-CNN深度神經網絡的重量級目標檢測可為用戶提供高級實例分割。其用途包括將其與多個數據源(攝像頭、傳感器、激光雷達、超聲波等)相結合,以精確識別并定位特定目標。
這類AI工作負載有助于訓練自動駕駛汽車,為其提供行人和其他目標的精確位置。另外,在醫療健康領域,它能夠幫助醫生在醫療掃描中查找并識別腫瘤。其意義的重要性非同小可。
NVIDIA的“重量級目標檢測”用時不到19分鐘,性能幾乎是第二名的兩倍。
強化學習是另一有難度的類別。這種AI方法能夠用于訓練工廠車間機器人,以簡化生產。城市也可以用這種方式來控制交通燈,以減少擁堵。NVIDIA采用NVIDIA DGX SuperPOD,在創紀錄的13.57分鐘內完成了對MiniGo AI強化訓練模型的訓練。
咖啡還沒好,任務已完成:即時AI基礎設施提供全球領先性能
打破基準測試紀錄不是目的,加速創新才是目標。這就是為什么NVIDIA構建的DGX SuperPOD不僅性能強大,而且易于部署。DGX SuperPOD全面配置了可通過NGC容器注冊表免費獲取的優化型CUDA-X AI軟件,可提供開箱即用的全球領先AI性能。
在這個由130多萬名CUDA開發者組成的生態系統中,NVIDIA與開發者們合作,致力于為所有AI框架和開發環境提供有力支持。
我們已經助力優化了數百萬行代碼,讓我們的客戶能夠將其AI項目落地,無論您身在何處都可以找到NVIDIA GPU,無論是在云端,還是在數據中心,亦或是邊緣。
AI基礎設施如今有夠快,未來會更快
更好的一點在于,這一平臺的速度一直在提升。NVIDIA每月都會發布CUDA-X AI軟件的新優化和性能改進,集成型軟件堆??稍贜GC容器注冊表中免費下載,包括容器化的框架、預先訓練好的模型和腳本。借助在CUDA-X AI軟件堆棧上的創新,NVIDIA DGX-2H服務器的MLPerf 0.6吞吐量比NVIDIA七個月前發布的結果提升了80%。

圖3:基于同一服務器,性能提升高達80%
對單個歷元上單一DGX-2H服務器的吞吐量進行比較(數據集單次通過神經網絡)| MLPerf ID 0.5 / 0.6比較:ResNet-50 v1.5: 0.5-20/0.6-30 | Transformer: 0.5-21/0.6-20 | SSD: 0.5-21/0.6-20 | GNMT: 0.5-19/0.6-20 | Mask R-CNN: 0.5-21/0.6-20
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。
舉報投訴
-
AI
+關注
關注
91文章
39793瀏覽量
301383 -
MLPerf基準測試
+關注
關注
0文章
2瀏覽量
1185 -
模型訓練
+關注
關注
0文章
21瀏覽量
1546
發布評論請先 登錄
相關推薦
熱點推薦
如何突破AI存儲墻?深度解析ONFI 6.0高速接口與Chiplet解耦架構
1. 行業核心痛點:AI“存儲墻”危機在大模型訓練與推理場景中,算力演進速度遠超存儲帶寬,計算與存儲之間的性能鴻溝(存儲墻)已成為限制系統能效的關鍵瓶頸。? Scale-up需求:單節點內需要極高
發表于 01-29 17:32
NVIDIA DGX SuperPOD為Rubin平臺橫向擴展提供藍圖
NVIDIA DGX Rubin 系統整合了 NVIDIA 在計算、網絡和軟件領域的最新突破,將推理 token 成本降至 NVIDIA Blackwell 平臺的十分之一,可加速
NVIDIA CEO黃仁勛暢談AI時代最新藍圖
在主題演講中,NVIDIA 創始人兼首席執行官黃仁勛勾勒出了 AI 時代的最新藍圖。從大規模 GPU 部署和量子技術突破,到
【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI芯片到AGI芯片
、分布式群體智能
1)物聯網AGI系統
優勢:
組成部分:
2)分布式AI訓練
7、發展重點:基于強化學習的后訓練與推理
8、超越大模型:神經符號計算
三、AGI芯片的
發表于 09-18 15:31
【「AI芯片:科技探索與AGI愿景」閱讀體驗】+可期之變:從AI硬件到AI濕件
,又分為真菌計算和基于DNA的計算。
圖4 基本的真菌計算機結構
在用化學和生物方法實現AI功能的過程中,要經歷5個階段,見圖5所示。
圖5 以化學和生物方法實現AI功能各階段
期待
發表于 09-06 19:12
NVIDIA助力樞途科技突破視頻提取具身數據技術鴻溝
技術,加速了從互聯網視頻提取具身智能模型訓練數據,實現了從視頻三維大世界重建、任務語義信息理解、物體細節及軌跡提取、多模態數據采集、具身智能算法訓練
睿海光電以高效交付與廣泛兼容助力AI數據中心800G光模塊升級
NVIDIA Quantum-2交換機等主流設備。
平滑擴展:與現有400G/100G設備無縫互通,降低數據中心升級成本。
多場景覆蓋:從AI訓練集群的“大象流”
發表于 08-13 19:01
加速AI未來,睿海光電800G OSFP光模塊重構數據中心互聯標準
800Gbps,完美適配大模型訓練等高帶寬場景
廣泛兼容 :通過NVIDIA Quantum-2交換機、Spectrum-4以太網設備的嚴格兼容性測試
穩定可靠 :平均無故障時間(MTBF)突破300萬
發表于 08-13 16:38
NVIDIA AI助力科學研究領域持續突破
隨著 AI 技術的廣泛應用,AI 正在成為科學研究的引擎。NVIDIA 作為重要的技術推手,持續驅動著 AI 系統解鎖更多領域的科學突破。
NVIDIA攜手微軟加速代理式AI發展
代理式 AI 正在重新定義科學探索,推動各行各業的研究突破和創新發展。NVIDIA 和微軟正通過深化合作提供先進的技術,從云到 PC 加速代
海思SD3403邊緣計算AI數據訓練概述
AI數據訓練:基于用戶特定應用場景,用戶采集照片或視頻,通過AI數據訓練工程師**(用戶公司****員工)** ,進行特征標定后,將標定好的訓練
發表于 04-28 11:11
RAKsmart智能算力架構:異構計算+低時延網絡驅動企業AI訓練范式升級
在AI大模型參數量突破萬億、多模態應用爆發的今天,企業AI訓練正面臨算力效率與成本的雙重挑戰。RAKsmart推出的智能算力架構,以異構計算資源池化與超低時延網絡為核心,重構
首創開源架構,天璣AI開發套件讓端側AI模型接入得心應手
猛增50倍,將訓練時間從一整天縮短至半小時。更快的端側LoRA訓練,讓端側AI基于用戶端側數據提升個性化體驗,讓終端成為更懂用戶的個性化智慧伙伴。
智能體用戶體驗的進化,
發表于 04-13 19:52
摩爾線程GPU原生FP8計算助力AI訓練
近日,摩爾線程正式開源MT-MegatronLM與MT-TransformerEngine兩大AI框架。通過深度融合FP8混合訓練策略和高性能算子庫,這兩大框架在國產全功能GPU上實現
從8小時到80秒,NVIDIA如何實現AI訓練用時大突破?
評論