国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

兩種GPU之間的延遲對比 AMD RDNA2完勝NVIDIA安培

ss ? 來源:快科技 ? 作者:快科技 ? 2021-04-21 13:51 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

CPU緩存與內存延遲測試,相信大家都有所耳聞,但是GPU同樣的測試卻幾乎沒人做過。

ChipsAndCheese就做了一次特別的測試,對比考察了AMD、NVIDIAGPU架構的緩存、顯存遲問題。

首先是AMDRDNA2、NVIDIAAmpere兩家最新架構的比拼,代表是RX6900XT、RTX3090,前者在幾乎所有階段都完勝。

RNDA2架構創新性地加入了InfinityCache無限緩存,提升帶寬的同時,延遲也可圈可點,二級緩存命中率上只增加了大約20ns的延遲,明顯低于Ampere。

更驚人的是,RDNA2顯存延遲和Ampere幾乎一模一樣,但是別忘了,Ampere只有兩個層級的緩存,RDNA2卻有四個。

Ampere的緩存架構更加傳統,SM陣列私有一級緩存到二級緩存要增加超過100ns的延遲,RDNA2從零級緩存到二級緩存則只增加了約66ns。看起來,GA102核心面積過大,也直接增加了延遲。

這正好可以解釋AMDRDNA2架構在低分辨率下性能、能效更優秀,因為二級緩存、三級緩存延遲很低,更適合執行較小的負載。Ampere則相反,高負載下優勢明顯,比如說4K分辨率。

說完了GPU之間的對比,那么GPU、CPU放在一起怎么樣呢?這里以RX6900XT、Intel四代酷睿i7-4770為例來看看。

CPU的緩存自然不是一個級別的,所以這里Y軸用了線性數據,可以看到全程大大低于RDNA2,搭配DDR3-1600CL9內存延遲只有63ns,RX6900XT、GDDR6的組合則有226ns,另外末級緩存平均延遲分別是53.42ns、123.2ns。

再看看前幾代的NVIDIAGPU,包括Maxwell架構的GTX980Ti、Pascal架構的GTX1080、Turing架構的RTX2060Mobile。

Maxwell、Pascal其實差不多,前者整體略高一些,可能是受制于芯片面積較大、核心頻率較低。

Turing則已經有了Ampere的樣子,一級緩存延遲低得多,二級差不多,奇怪的是顯存延遲在32MB之后偏高,原因未知。

AMD考察了TeraScale架構的HD5850/6950、GCN架構的HD7970,再加上RX6900XT,很明顯在逐代降低,而且是各級緩存都在同時進步。

編輯:jq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • amd
    amd
    +關注

    關注

    25

    文章

    5684

    瀏覽量

    139974
  • cpu
    cpu
    +關注

    關注

    68

    文章

    11279

    瀏覽量

    225008
  • 數據
    +關注

    關注

    8

    文章

    7335

    瀏覽量

    94774
  • gpu
    gpu
    +關注

    關注

    28

    文章

    5194

    瀏覽量

    135461
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    借助NVIDIA CUDA Tile IR后端推進OpenAI Triton的GPU編程

    NVIDIA CUDA Tile 是基于 GPU 的編程模型,其設計目標是為 NVIDIA Tensor Cores 提供可移植性,從而釋放 GPU 的極限性能。CUDA Tile 的
    的頭像 發表于 02-10 10:31 ?245次閱讀

    NVIDIA RTX PRO 5000 Blackwell GPU的深度評測

    NVIDIA RTX PRO 5000 Blackwell 是 NVIDIA RTX 5000 Ada Generation 的升級迭代產品,其各項核心指標均針對 GPU 加速工作流的高性能
    的頭像 發表于 01-06 09:51 ?2319次閱讀
    <b class='flag-5'>NVIDIA</b> RTX PRO 5000 Blackwell <b class='flag-5'>GPU</b>的深度評測

    在Python中借助NVIDIA CUDA Tile簡化GPU編程

    NVIDIA CUDA 13.1 版本新增了基于 Tile 的GPU 編程模式。它是自 CUDA 發明以來 GPU 編程最核心的更新之一。借助 GPU tile kernels,可以用
    的頭像 發表于 12-13 10:12 ?1202次閱讀
    在Python中借助<b class='flag-5'>NVIDIA</b> CUDA Tile簡化<b class='flag-5'>GPU</b>編程

    ADI GMSL技術兩種視頻數據傳輸模式的區別

    本文深入介紹GMSL技術,重點說明用于視頻數據傳輸的像素模式和隧道模式之間的差異。文章將闡明這兩種模式之間的主要區別,并探討成功實施需要注意的具體事項。
    的頭像 發表于 10-10 13:49 ?2320次閱讀
    ADI GMSL技術<b class='flag-5'>兩種</b>視頻數據傳輸模式的區別

    AMD Vivado IP integrator的基本功能特性

    我們還將帶您了解在 AMD Zynq UltraScale+ MPSoC 開發板與 AMD Versal 自適應 SoC 開發板上使用 IP integrator 時,兩種設計流程之間
    的頭像 發表于 10-07 13:02 ?2152次閱讀
    <b class='flag-5'>AMD</b> Vivado IP integrator的基本功能特性

    NVIDIA Isaac Lab多GPU多節點訓練指南

    NVIDIA Isaac Lab 是一個適用于機器人學習的開源統一框架,基于 NVIDIA Isaac Sim 開發,其模塊化高保真仿真適用于各種訓練環境,可提供各種物理 AI 功能和由 GPU 驅動的物理仿真,縮小仿真與現實世
    的頭像 發表于 09-23 17:15 ?2411次閱讀
    <b class='flag-5'>NVIDIA</b> Isaac Lab多<b class='flag-5'>GPU</b>多節點訓練指南

    兩種散熱路徑的工藝與應用解析

    背景:兩種常見的散熱設計思路 在大電流或高功率器件應用中,散熱和載流能力是PCB設計中必須解決的難題。常見的兩種思路分別是: 厚銅板方案:通過整體增加銅箔厚度(如3oz、6oz甚至更高),增強導熱
    的頭像 發表于 09-15 14:50 ?787次閱讀

    NVIDIA RTX PRO 4500 Blackwell GPU測試分析

    今天我們帶來全新 NVIDIA Blackwell 架構 GPU —— NVIDIA RTX PRO 4500 Blackwell 的測試,對比上一代產品
    的頭像 發表于 08-28 11:02 ?3995次閱讀
    <b class='flag-5'>NVIDIA</b> RTX PRO 4500 Blackwell <b class='flag-5'>GPU</b>測試分析

    NVIDIA桌面GPU系列擴展新產品

    NVIDIA 桌面 GPU 系列擴展,推出 NVIDIA RTX PRO 4000 SFF Edition GPU 和 RTX PRO 2000 Blackwell
    的頭像 發表于 08-18 11:50 ?1417次閱讀

    aicube的n卡gpu索引該如何添加?

    請問有人知道aicube怎樣才能讀取n卡的gpu索引呢,我已經安裝了cuda和cudnn,在全局的py里添加了torch,能夠調用gpu,當還是只能看到默認的gpu0,顯示不了gpu1
    發表于 07-25 08:18

    AMD FPGA異步模式與同步模式的對比

    本文講述了AMD UltraScale /UltraScale+ FPGA 原生模式下,異步模式與同步模式的對比及其對時鐘設置的影響。
    的頭像 發表于 07-07 13:47 ?1639次閱讀

    NVIDIA Blackwell GPU優化DeepSeek-R1性能 打破DeepSeek-R1在最小延遲場景中的性能紀錄

    本文將探討 NVIDIA TensorRT-LLM 如何基于 8 個 NVIDIA Blackwell GPU 的配置,打破 DeepSeek-R1 在最小延遲場景中的性能紀錄:在 G
    的頭像 發表于 07-02 19:31 ?3292次閱讀
    <b class='flag-5'>NVIDIA</b> Blackwell <b class='flag-5'>GPU</b>優化DeepSeek-R1性能 打破DeepSeek-R1在最小<b class='flag-5'>延遲</b>場景中的性能紀錄

    【「算力芯片 | 高性能 CPU/GPU/NPU 微架構分析」閱讀體驗】+NVlink技術從應用到原理

    兩種結構: ①GPU-GPU ②CPU-GPU 這是書中介紹的一個包括了個完全通過NVlink連接的8 GPU混合立方網狀拓撲結構: N
    發表于 06-18 19:31

    銣原子鐘與CPT原子鐘:兩種時間標準的區別

    在物理學的世界中,精密的時間測量是至關重要的。這就需要一個高度準確且穩定的時間標準,這就是原子鐘。今天我們將探討兩種重要的原子鐘:銣原子鐘和CPT原子鐘,以及它們之間的主要區別。首先,我們來了解一下
    的頭像 發表于 05-22 15:49 ?740次閱讀
    銣原子鐘與CPT原子鐘:<b class='flag-5'>兩種</b>時間標準的區別

    使用NVIDIA RTX PRO Blackwell系列GPU加速AI開發

    NVIDIA GTC 推出新一代專業級 GPU 和 AI 賦能的開發者工具—同時,ChatRTX 更新現已支持 NVIDIA NIM,RTX Remix 正式結束測試階段,本月的 NVIDIA
    的頭像 發表于 03-28 09:59 ?1306次閱讀