国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

NVIDIA A100 GPU推理性能237倍碾壓CPU

工程師鄧生 ? 來源:雷鋒網 ? 作者:包永剛 ? 2020-10-23 17:40 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

MLPerf組織今天發布最新的推理基準測試(Benchmark)MLPerf Inference v0.7結果,總共有23個組織提交了結果,相比上一個版本(MLPerf Inference v0.5)的12個提交者增加了近一倍。

結果顯示,今年5月NVIDIA(Nvidia)發布的安培(Ampere)架構A100 Tensor Core GPU,在云端推理的基準測試性能是最先進Intel CPU的237倍。

MLPerf Inference V0.7部分結果截圖

最新的AI推理測試結果意味著,NVIDIA未來可能在AI推理和訓練市場都占據領導地位,給云端AI推理市場擁有優勢的Intel帶來更大壓力的同時,也將讓其他追趕者面臨更大挑戰。

MLPerf推理基準測試進一步完善的價值

與2019年的MLPerf Inference v0.5版本相比,最新的0.7版本將測試從AI研究的核心視覺和語言的5項測試,擴展了到了包括推薦系統、自然語言理解、語音識別和醫療影像應用的6項測試,并且有分別針對云端和終端推理的測試,還加入了手機和筆記本電腦的結果。

擴展的測試項從MLPerf和業界兩個角度都有積極意義。

MLPerf Inference v0.5測試項

MLPerf Inference v0.7數據中心測試項

MLPerf Inference v0.7邊緣端測試項

任何一個基準測試都需要給業界具有參考價值的指標。MLPerf基準測試是在業界缺乏對AI芯片公認的評價標準的2018年誕生,因此,MLPerf組織既需要給出各方都認可的成績,還需要根據AI行業的發展完善評價標準。

不過,AI行業發展迅速,AI模型的參數越來越多,應用的場景也越來越廣泛。評價AI芯片和系統的推理性能需要涵蓋可編程性、延遲、準確性、模型大小、吞吐量、能效等指標,也需要選擇更具指導價值的模型和應用。

此次增加的推薦系統測試對于互聯網公司意義重大。在王喆的《深度學習推薦系統》一書中提到,2019年天貓“雙11”的成交額是2684億元,假設推薦系統進行了優化,整體的轉化率提高1%,那么增加的成交額大約為26.84億元。

另外,MLPerf Inference v0.7中增加醫療影像3D U-Net模型測試與新冠大流行以及AI在醫療行業的重要性與日俱增密切相關,比如一家初創公司使用AI簡化了超聲心電圖的采集工作,在新冠大流行初期發揮了作用。

基準測試從v0.5到v0.7,能夠為要選用AI芯片和系統的公司提供更直觀和有價值的參考是MLPerf基準測試的價值所在,比如,幫助金融結構的會話式AI更快速回答客戶問題,幫助零售商使用AI保證貨架庫存充足。

與此同時,這也將促進MLPerf組織在業界的受認可程度,從接近翻倍的提交成績的組織就能看出來。

GPU云端推理性能最高是CPU的237倍

過去幾年,云端AI訓練市場NVIDIA擁有絕對優勢,云端AI推理市場被Intel賺取了大部分利潤是事實。這讓不少人都產生了GPU更適合訓練而CPU更適合推理的認知,但MLPerf最新的推理測試結果可能會改變這一觀點。

MLPerf Inference V0.7的測試結果顯示,在數據中心OFFLINE(離線)測試模式下,賽靈思U250和IntelCooper Lake在各個測試模型下與NVIDIAT4的差距不大,但A100對比CPU、FPGA和自家的T4就有明顯的性能差距。

在SERVER模式下的推薦系統DLRM模型下,A100 GPU對比IntelCooper Lake有最高237倍的性能差距,在其他模型下也有比較顯著的差距。值得注意的是,Intel的Cooper Lake系統的狀態還是預覽,其余三款芯片的系統都已經可用。

A100 GPU的優勢也在邊緣推理中也十分明顯。在單數據流(Singel-Stream)測試中,A100對比NVIDIAT4和面向邊緣終端的NVIDIAJetson AGX Xavier有幾倍到十幾倍的性能優勢。在多數據流(Multi-Stream)測試中,A100對比另外兩款自家產品在不同AI模型中有幾倍到二十多倍的性能優勢。

在邊緣OFFLINE模式下,A100對比T4和Jetson AGX Xavier也有幾倍到二十多倍的性能優勢。

這很好地說明A100的安培架構以及其第三代Tensor Core優勢的同時,也表明了NVIDIA能夠覆蓋整個AI推理市場。

在此次提交結果的23家公司中,除了NVIDIA外還有11家其合作伙伴提交了基于NVIDIA GPU的1029個測試結果,占數據中心和邊緣類別中參評測試結果總數的85%以上。

從提交結果的合作伙伴的系統中可以看到,NVIDIAT4仍然是企業的邊緣服務器推理平臺的主要選擇。A100提升到新高度的性能意味著未來企業邊緣服務器在選擇AI推理平臺的時候,可以從T4升級到A100,對于功耗受限的設備,可以選擇Jeston系列產品。

特別值得注意的是,NVIDIA GPU首次在公有云中實現了超越CPU的AI推理能力。

臨界點到來?AI推理芯片市場競爭門檻更高

五年前,只有少數領先的高科技公司使用GPU進行推理。如今,NVIDIAGPU首次在公有云市場實現超越CPU的AI推理能力,或許意味著AI推理市場臨界點的到來。NVIDIA還預測,基于其GPU的總體云端AI推理計算能力每兩年增長約10倍,增長速度高于CPU。

另外,NVIDIA還強調基于A100高性能系統的成本效益。NVIDIA表示,一套DGX A100系統可以提供相當于近1000臺雙插槽CPU服務器的性能,能為客戶AI推薦系統模型從研發走向生產的過程,具有極高的成本效益。

同時,NVIDIA也在不斷優化推理軟件堆棧,進一步提升在推理市場的競爭力。

最先感受到影響的會是Intel,但在云端AI推理市場體現出顯著變化至少需要幾年時間,因為企業在更換平臺的時候會更加謹慎,生態的護城河此時也更能體現出價值。

但無論如何,我們都看到NVIDIA在AI市場的強勢地位。雷鋒網七月底報道,在MLPerf發布的MLPerf Training v0.7基準測試中,A100 Tensor Core GPU,和HDR InfiniBand實現多個DGX A100 系統互聯的龐大集群DGX SuperPOD系統在性能上開創了八個全新里程碑,共打破16項紀錄。

安培架構A100在MLPerf最新的訓練和推理成績表明NVIDIA不僅給云端AI訓練的競爭者更大的壓力,也可能改變AI推理市場的格局。

NVIDIA將其在云端訓練市場的優勢進一步拓展到云端和邊緣推理市場符合AI未來的發展趨勢。有預測指出,隨著AI模型的成熟,市場對云端AI訓練需求的增速將會降低,云端AI推理的市場規模將會迅速增加,并有望在2022年超過訓練市場。

另據市場咨詢公司ABI Research的數據,預計到2025年,邊緣AI芯片市場收入將達到122億美元,云端AI芯片市場收入將達到119億美元,邊緣AI芯片市場將超過云端AI芯片市場。

憑借強大的軟硬件生態系統,NVIDIA和Intel依舊會是AI市場的重要玩家,只是隨著他們競爭力的不斷提升,其他參與AI市場競爭的AI芯片公司們面臨的壓力也隨之增加。
責任編輯:PSY

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • NVIDIA
    +關注

    關注

    14

    文章

    5594

    瀏覽量

    109730
  • gpu
    gpu
    +關注

    關注

    28

    文章

    5194

    瀏覽量

    135444
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    今日看點:消息稱 AMD、高通考慮導入 SOCAMM 內存;曦望發布新一代推理GPU芯片啟望S3

    推理深度定制的GPGPU芯片。其單芯片推理性能提升5,支持從FP16到FP8、FP6、FP4等多精度靈活切換,釋放低精度推理效率,這種設計更貼合當前MoE和長上下文模型在
    發表于 01-28 11:09 ?393次閱讀

    NVIDIA RTX PRO 5000 Blackwell GPU的深度評測

    NVIDIA RTX PRO 5000 Blackwell 是 NVIDIA RTX 5000 Ada Generation 的升級迭代產品,其各項核心指標均針對 GPU 加速工作流的高性能
    的頭像 發表于 01-06 09:51 ?2292次閱讀
    <b class='flag-5'>NVIDIA</b> RTX PRO 5000 Blackwell <b class='flag-5'>GPU</b>的深度評測

    NVIDIA RTX PRO 2000 Blackwell GPU性能測試

    越來越多的應用正在使用 AI 加速,而無論工作站的大小或形態如何,都有越來越多的用戶需要 AI 性能NVIDIA RTX PRO 2000 Blackwell 是全新 NVIDIA
    的頭像 發表于 11-28 09:39 ?6301次閱讀
    <b class='flag-5'>NVIDIA</b> RTX PRO 2000 Blackwell <b class='flag-5'>GPU</b><b class='flag-5'>性能</b>測試

    新手小白必看!關于A100云主機租用,你想知道的一切都在這!

    “我想租一臺A100云主機來跑我的模型,但完全不知道從何下手。”——這是我們聽到最多的來自AI新手的聲音。A100,這個聽起來就“高大上”的名詞,背后其實是一套清晰、可操作的流程。今天,我們就用
    的頭像 發表于 10-31 19:24 ?1587次閱讀
    新手小白必看!關于<b class='flag-5'>A100</b>云主機租用,你想知道的一切都在這!

    通過NVIDIA Jetson AGX Thor實現7生成式AI性能

    Jetson Thor 平臺還支持多種主流量化格式,包括 NVIDIA Blackwell GPU 架構的新 NVFP4 格式,有助于進一步優化推理性能。該平臺同時支持推測解碼等新技術,為在邊緣端加速生成式 AI 工作負載提供了
    的頭像 發表于 10-29 16:53 ?1428次閱讀

    NVIDIA TensorRT LLM 1.0推理框架正式上線

    TensorRT LLM 作為 NVIDIA 為大規模 LLM 推理打造的推理框架,核心目標是突破 NVIDIA 平臺上的推理性能瓶頸。為實
    的頭像 發表于 10-21 11:04 ?1174次閱讀

    利用NVIDIA DOCA GPUNetIO技術提升MoE模型推理性能

    在第三屆 NVIDIA DPU 中國黑客松競賽中,我們見證了開發者與 NVIDIA 網絡技術的深度碰撞。在 23 支參賽隊伍中,有 5 支隊伍脫穎而出,展現了在 AI 網絡、存儲和安全等領域的創新突破。
    的頭像 發表于 09-23 15:25 ?1026次閱讀

    使用NVIDIA NVLink Fusion技術提升AI推理性能

    本文詳細闡述了 NVIDIA NVLink Fusion 如何借助高效可擴展的 NVIDIA NVLink scale-up 架構技術,滿足日益復雜的 AI 模型不斷增長的需求。
    的頭像 發表于 09-23 14:45 ?923次閱讀
    使用<b class='flag-5'>NVIDIA</b> NVLink Fusion技術提升AI<b class='flag-5'>推理性能</b>

    DeepSeek R1 MTP在TensorRT-LLM中的實現與優化

    TensorRT-LLM 在 NVIDIA Blackwell GPU 上創下了 DeepSeek-R1 推理性能的世界紀錄,Multi-Token Prediction (MTP) 實現了大幅提速
    的頭像 發表于 08-30 15:47 ?4449次閱讀
    DeepSeek R1 MTP在TensorRT-LLM中的實現與優化

    NVIDIA桌面GPU系列擴展新產品

    NVIDIA 桌面 GPU 系列擴展,推出 NVIDIA RTX PRO 4000 SFF Edition GPU 和 RTX PRO 2000 Blackwell
    的頭像 發表于 08-18 11:50 ?1412次閱讀

    NVIDIA從云到邊緣加速OpenAI gpt-oss模型部署,實現150萬TPS推理

    的發布持續深化了雙方的 AI 創新合作。NVIDIANVIDIA Blackwell 架構上優化了這兩款全新的開放權重模型并實現了推理性能加速,在 NVIDIA 系統上至高達到每
    的頭像 發表于 08-15 20:34 ?2303次閱讀
    <b class='flag-5'>NVIDIA</b>從云到邊緣加速OpenAI gpt-oss模型部署,實現150萬TPS<b class='flag-5'>推理</b>

    【「算力芯片 | 高性能 CPU/GPU/NPU 微架構分析」閱讀體驗】+NVlink技術從應用到原理

    。。) 原理學習 在「算力芯片 | 高性能 CPU/GPU/NPU 微架構分析」書中,作者詳解了從帕斯卡架構到40系的Hopper架構的技術演變進化,按照出版時間算是囊括了NVIDIA
    發表于 06-18 19:31

    如何在Ollama中使用OpenVINO后端

    /GPU/NPU)為模型推理提供了高效的加速能力。這種組合不僅簡化了模型的部署和調用流程,還顯著提升了推理性能,特別適合需要高性能和易用性的場景。
    的頭像 發表于 04-14 10:22 ?1535次閱讀

    英偉達GTC25亮點:NVIDIA Dynamo開源庫加速并擴展AI推理模型

    NVIDIA Dynamo 提高了推理性能,同時降低了擴展測試時計算 (Scaling Test-Time Compute) 的成本;在 NVIDIA Blackwell 上的推理優化
    的頭像 發表于 03-20 15:03 ?1233次閱讀

    從零復現,全面開源:360 Light-R1-14B/7B帶來端側AI平權時刻

    14B開源颶風,360掀起端側推理性能革命
    的頭像 發表于 03-16 10:47 ?1098次閱讀
    從零復現,全面開源:360 Light-R1-14B/7B帶來端側AI平權時刻