国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

MLPerf 聯(lián)盟公布7項測試構成了當前機器學習領域的全新行業(yè)基準測試

NVIDIA英偉達企業(yè)解決方案 ? 來源:lq ? 2018-12-24 14:12 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

近日,MLPerf 聯(lián)盟公布了其7項測試的首批結果,此7項測試構成了當前機器學習領域的全新行業(yè)基準測試。NVIDIA參與了其中6個類別的測試,在這6項測試中,從單節(jié)點測試到大規(guī)模測試,NVIDIA平臺的測試結果都遙遙領先,證明了NVIDIA平臺方法在加速機器學習領域的強大實力。

MLPerf 聯(lián)盟的宗旨是“ 致力于確立一套通用的基準測試,助力機器學習 (ML) 領域跨移動設備和云服務測量系統(tǒng)的訓練和推理性能。”NVIDIA 一直以來都是 MLPerf 聯(lián)盟的主要成員,與其他成員一同積極構建、完善和發(fā)展首套商定一致的工作負載,以便可以跨用例范圍地直接比較各平臺性能。

作為快速成長的新興市場,機器學習領域缺少用來評估平臺性能的行業(yè)測試基準。雖然 ResNet-50 等網絡經常用作訓練和推理的性能代理,但其仍是一套主要基于圖像任務的單一CNN,不能提供機器學習平臺的完整性能圖景。機器學習還包含許多其他用例,例如語音、翻譯和推薦系統(tǒng)等。

認識 MLPerf

MLPerf 的關鍵設計目標之一是工作負載的多樣化。因此,它涵蓋了對圖像和自然語言的使用,以及推薦系統(tǒng)和強化學習等,共 7 項測試。目前,這些工作負載僅可用于測試訓練,未來版本的工作負載將計劃以推理為重點。

NVIDIA最初致力于研究封閉組,旨在針對ML訓練系統(tǒng)(包括硬件和軟件)提供有價值的對比。為實現這一目標,封閉組要求所有提交成果均使用相同的數據準備和訓練程序來訓練相同的神經網絡模型架構。從應用程序角度看,這將確保所有條目盡可能等同,性能的差異只歸因于軟件、硬件或規(guī)模不同。選擇封閉組的網絡模型、數據集和訓練程序作為當今機器學習社區(qū)中的通用計算方法。另一方面,公開組不用于系統(tǒng)對比,而是用于鼓勵網絡模型架構和其算法方面的創(chuàng)新。

NVIDIA提交了7項測試類別中的6類測試結果,未提交強化學習測試,是因為這項測試基于戰(zhàn)略游戲《GO》,該游戲最初在配備Tesla P100 GPU的服務器上進行開發(fā)。但目前情況是,服務器中包含重要的CPU組件,因此只能提供有限的擴展。

MLPerf分數的計算方法是,首先測量訓練到達指定目標精度的時間,然后歸一化為參考平臺上未執(zhí)行優(yōu)化所需的時間。歸一化的目的是將不同的基準測試轉化為相似的分數量級,因為各基準測試所需的訓練時間不同。訓練時間和 MLPerf 分數均發(fā)布在 MLPerf 網站上,為此我們以分鐘為單位公布訓練時間。以下是 NVIDIA 達到收斂結果的時間,包括單節(jié)點和大規(guī)模的實現:

單節(jié)點封閉組 GPU 性能:

測試平臺:DGX-2H – 雙路Xeon Platinum 8174、1.5TB 系統(tǒng) RAM、16 個 32GB Tesla V100 SXM-3 GPU通過NVSwitch互通。

大規(guī)模封閉組 GPU 性能:

測試平臺:DGX-1V 集群,適用于圖像分類和非重復性翻譯。DGX-2H 集群,適用于重型物體檢測和輕量型物體檢測、重復性翻譯。每個DGX-1V配備雙路 Xeon E5-2698 V4、512GB 系統(tǒng) RAM、8 個16GB Tesla V100 SXM-2 GPU。每個DGX-2H配備雙路Xeon Platinum 8174、1.5TB系統(tǒng)RAM、16個32GB Tesla V100 SXM-3 GPU通過NVSwitch互通。

從以上數字可以看出:單個DGX-2節(jié)點能夠在20分鐘內完成多數工作負載。在大規(guī)模提交中,除1次測試外,都在7分鐘內完成這些任務。與第二快的提交相比,GPU的交付速度提高達 5.3 倍。鑒于深度學習早期階段的訓練以天和周計算,上述完成時間證明我們在過去幾年中取得了巨大進步。以下圖表說明我們在訓練 ResNet-50 模型方面取得的進步程度:

很顯然,因為一系列平臺創(chuàng)新,過去幾年里性能提升巨大。這些創(chuàng)新包括:

NVLink 結構技術:Pascal 架構中引入NVLink允許GPU以300GB/秒的速度進行通信,比PCIe快近10倍。

Tensor Cores:Volta架構中引入Tensor Cores,加速了大型矩陣運算(這是AI的核心),在單次運算中執(zhí)行混合精度矩陣乘法和累加計算。

NVSwitch:首款節(jié)點交換架構,在單個服務器節(jié)點中支持16個全互聯(lián)GPU,并驅動全部8對GPU 分別以300GB/s的速度同時通信。這16個GPU 還可作為單個大型加速器,擁有0.5TB的統(tǒng)一內存空間和每秒2千萬億次的深度學習計算性能。

全棧優(yōu)化:方法得當

NVIDIA的加速深度學習方法包含整套平臺,并在硬件、軟件和生態(tài)系統(tǒng)支持下持續(xù)創(chuàng)新。這種方法為深度學習社區(qū)帶來巨大的優(yōu)勢,允許開發(fā)人員在任何提供商的云服務上使用任何熱門框架,或者使用自己的GPU基礎架構實現卓越的性能。NVIDIA向MLPerf提交的測試使用MXNet處理圖像分類工作負載(ResNet-50),使用PyTorch提交涵蓋翻譯、對象檢測和實例分割以及推薦器的工作負載。谷歌的TernsorFlow團隊也展示了在谷歌云平臺上使用NVIDIA V100 GPU處理ResNet-50的出色表現。

這些框架均可在NVIDIA GPU云(NGC)容器注冊服務器中免費獲取,并且每月更新一次,性能持續(xù)改進。此前發(fā)表的一篇博客中說明 11 月 18.11 版本的容器中對 NVIDIA 深度學習軟件堆棧的最新改進。以下將簡述這些改進:

MXNet

添加了 Horovod,改進跨多個節(jié)點訓練的性能。

借助小批量 (<= 32) 優(yōu)化大規(guī)模多節(jié)點訓練的性能

有關更多詳細信息,請參閱AWS上的博客,其中具體概述了MXNet的最新改進。

TensorFlow

更新了XLA圖形編譯器,優(yōu)化了運算符融合以節(jié)省內存帶寬,優(yōu)化了Tensor Core數據布局。谷歌最近的一篇博客詳細介紹了更具體的細節(jié)。

PyTorch

Apex中新添實用程序,并融合實施Adam優(yōu)化器,通過減少冗余GPU設備內存通道、改進卷積翻譯模型的層歸一化性能以及為多進程和多節(jié)點訓練改進DistributedDataParallel包裝器,以提高性能。

cuDNN

多方面顯著性改進了卷積性能,尤其在每個GPU 小批量處理數據之時;優(yōu)化了Tensor Core的Persistent RNNs算法。

DALI

對象檢測模型所需的各種圖像預處理例程提速,現在它們可在GPU上運行,而無需CPU。

結束語

NVIDIA對第一組公布結果感到深受鼓舞,并對在AI社區(qū)中與各個框架開發(fā)團隊的合作深感自豪。MLPerf作為一種工具,允許AI平臺制造商使用一組商定的用例來比較他們的產品,我們將繼續(xù)與MLPerf聯(lián)盟合作,并隨AI工作負載的進展,迭代這一基準。以上這些技術現已面向AI開發(fā)者社區(qū)開放,可從我們的 NGC容器注冊服務器獲取。敬請關注我們的開發(fā)者博客更新,了解有關 TensorFlow、PyTorch和MXNet框架中的具體優(yōu)化的更多信息。www.mlperf.org 上提供MLPerf基準模型,可根據相關基準目錄中的自述文件運行。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • NVIDIA
    +關注

    關注

    14

    文章

    5594

    瀏覽量

    109778
  • 機器學習
    +關注

    關注

    66

    文章

    8553

    瀏覽量

    136975
  • 自然語言
    +關注

    關注

    1

    文章

    292

    瀏覽量

    13991
  • MLPerf
    +關注

    關注

    0

    文章

    37

    瀏覽量

    970

原文標題:NVIDIA 在全球首個全行業(yè) AI 基準測試中拔得頭籌

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    如何評估憶聯(lián)Gen5 eSSD UH812a在AI場景中的性能表現

    隨著AI大模型進入萬億參數時代,傳統(tǒng)存儲性能測試已難以真實反映存儲系統(tǒng)在實際訓練場景中對成本與效率的核心影響。為此,全球權威AI基準測評組織MLCommons正式推出MLPerf Storage
    的頭像 發(fā)表于 02-05 09:56 ?1020次閱讀
    如何評估憶聯(lián)Gen5 eSSD UH812a在AI場景中的性能表現

    人工智能與機器學習在這些行業(yè)的深度應用

    自人工智能和機器學習問世以來,多個在線領域的數字化格局迎來了翻天覆地的變化。這些技術從誕生之初就為企業(yè)賦予了競爭優(yōu)勢,而在線行業(yè)正是受其影響最為顯著的
    的頭像 發(fā)表于 02-04 14:44 ?489次閱讀

    時間基準的核心力量:低相噪銣原子振蕩時鐘的多領域應用解析

    夠為通信系統(tǒng)提供統(tǒng)一的時間基準,保障多設備協(xié)同工作的協(xié)調性,助力通信網絡向更高速度、更高容量、更高可靠性演進。二、航天航空:護航極端環(huán)境下的精準操控 航天航空領域的每一任務都關乎生命安全與國
    發(fā)表于 01-16 10:20

    重磅發(fā)布 | 泰克(Tektronix)推出全新7系列DPO示波器與MP5000系列模塊化精密測試

    重磅新品發(fā)布2025年9月16日,俄勒岡州比弗頓時間今天是泰克科技(Tektronix)發(fā)展史上的里程碑時刻。我們正式發(fā)布兩突破性成果——全新7系列DPO示波器與MP5000系列模塊化精密
    的頭像 發(fā)表于 09-19 17:17 ?1456次閱讀
    重磅發(fā)布 | 泰克(Tektronix)推出<b class='flag-5'>全新</b><b class='flag-5'>7</b>系列DPO示波器與MP5000系列模塊化精密<b class='flag-5'>測試</b>

    泰克科技推出全新7系列DPO示波器與MP5000系列模塊化精密測試系統(tǒng)

    今天是泰克科技(Tektronix)發(fā)展史上的里程碑時刻。我們正式發(fā)布兩突破性成果——全新7系列DPO示波器與MP5000系列模塊化精密測試系統(tǒng),它們將重新定義
    的頭像 發(fā)表于 09-17 09:13 ?2161次閱讀

    全屋WiFi強電款WiFi6 86面板一站式測試解決方案

    WiFi6 86面板一站式測試方案,以精益生產邏輯重構測試流程,破解行業(yè)痛點,為智能硬件測試環(huán)節(jié)的提效、降本、安全升級提供全新思路 。 一、
    發(fā)表于 08-21 14:49

    RWC2500A Plus音頻廣播測試領域全新解決方案

    在音頻廣播領域測試設備是確保通信質量、優(yōu)化廣播發(fā)射機性能以及排查故障的關鍵工具。FMAB 作為一款經典的音頻廣播測試設備,憑借其穩(wěn)定的性能和廣泛的應用場景,長期以來在行業(yè)內占據重要地
    的頭像 發(fā)表于 08-18 09:42 ?3868次閱讀
    RWC2500A Plus音頻廣播<b class='flag-5'>測試</b><b class='flag-5'>領域</b><b class='flag-5'>全新</b>解決方案

    登頂!華為OceanStor A系列存儲再登MLPerf全球性能之巔

    2025年8月5日,全球權威AI性能評測組織公布最新MLPerf? Storage v2.0基準測試結果,華為OceanStor A系列存儲聯(lián)合濟南超級計算技術研究院(簡稱“JNIST
    的頭像 發(fā)表于 08-07 14:02 ?838次閱讀

    愛立信攜手Telstra創(chuàng)下全新行業(yè)里程碑

    愛立信近日攜手Telstra創(chuàng)下全新行業(yè)里程碑,在悉尼北部50多個商用5G-A站點成功部署自動載波聚合技術,使Telstra成為首個在商用網絡環(huán)境中應用該功能的運營商。
    的頭像 發(fā)表于 08-06 16:45 ?1.7w次閱讀

    西部數據通過 MLPerfa Storage V2 測試結果,驗證其真實場景下的AI存儲性能

    。西部數據(NASDAQ: WDC)近日公布MLPerf? Storage V2?測試結果,驗證了旗下 OpenFlex? Data24 4000?系列?NVMe-oF??存儲平臺
    發(fā)表于 08-05 18:15 ?940次閱讀

    橫掃葵花獎14大獎,德施曼刷新行業(yè)記錄!領航AI時代!

    2025年7月9日,中國建博會現場——全球智能家居最高榮譽“第九屆葵花獎頒獎盛典”圓滿落幕。德施曼憑借顛覆性的技術突破與全球化的品牌勢能,一舉斬獲14頂級大獎,成為行業(yè)獲獎最多的品牌,包攬最高榮譽
    的頭像 發(fā)表于 07-10 21:49 ?1524次閱讀
    橫掃葵花獎14<b class='flag-5'>項</b>大獎,德施曼刷<b class='flag-5'>新行業(yè)</b>記錄!領航AI時代!

    慧通測控的協(xié)作機器人有哪些測試項目?

    在智能制造與自動化浪潮席卷全球的當下,協(xié)作機器人(Cobots)以其能夠與人類安全、高效協(xié)同作業(yè)的特性,成為工業(yè)、醫(yī)療、物流等領域的 “新寵”。然而,要確保協(xié)作機器人在復雜場景中穩(wěn)定運行,一系列嚴格且全面的
    的頭像 發(fā)表于 06-05 14:30 ?588次閱讀
    慧通測控的協(xié)作<b class='flag-5'>機器</b>人有哪些<b class='flag-5'>測試</b>項目?

    電纜耐壓測試儀誰家比較好?

    “一帶一路” 沿線 18 國重點項目中,其工頻耐壓試驗裝置單套設備完成 8 公里電纜串聯(lián)耐壓測試,刷新行業(yè)效率紀錄,還能通過云端數據管理平臺,支持 10 萬組波形智能分析,自動生成設備健康度三維圖
    發(fā)表于 04-28 09:54

    手動檢測的終結者:機器人氣密性測試設備來襲

    在制造業(yè)的精密檢測領域,氣密性測試一直是保證產品質量的關鍵環(huán)節(jié)。然而,傳統(tǒng)的手動檢測方法存在效率低下、誤差較大等問題,已經無法滿足現代工業(yè)對高質量和高效率的追求。隨著科技的進步,機器人氣密性
    的頭像 發(fā)表于 04-16 14:50 ?705次閱讀
    手動檢測的終結者:<b class='flag-5'>機器</b>人氣密性<b class='flag-5'>測試</b>設備來襲

    1.9倍性能提升!英特爾至強6在MLPerf基準測試中表現卓越

    與第五代至強處理器相比,英特爾至強6性能核的性能平均提高了1.9倍。 今日,MLCommons公布了最新的MLPerf推理v5.0基準測試結果,其中,英特爾??至強??6性能核處理器在
    的頭像 發(fā)表于 04-07 10:58 ?681次閱讀