国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

GPU競爭壁壘:微架構和平臺生態

架構師技術聯盟 ? 來源:架構師技術聯盟 ? 2023-05-15 11:00 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

據Global Market Insights 數據,全球 GPU 市場預計將以 CAGR 25.9%持續增長,至 2030 年達到 4000 億美元規模。其中 AI 領域大語言模型的持續推出以及參數量的不斷增長有望驅動模型訓練端、推理端 GPU 需求快速增長。

近年來,國產 GPU 廠商在圖形渲染 GPU 和高性能計算 GPGPU 領域上均推出了較為成熟的產品,在性能上不斷追趕行業主流產品,在特定領域達到業界一流水平。生態方面國產廠商大多兼容英偉達 CUDA,融入大生態進而實現客戶端不斷導入。在高端GPU 芯片進口受限的背景下,國產 GPU 廠商預計將乘政策東風,抓住國產替代契機快速成長。

a0f44268-f251-11ed-90ce-dac502259ad0.png

GPU(圖形處理器)最初是為了解決 CPU 在圖形處理領域性能不足的問題而誕生。CPU 作為核心控制計算單元,高速緩沖存儲器(Cache)、控制單元(Control)在 CPU 硬件架構設計中所占比例較大,主要為實現低延遲和處理單位內核性能要求較高的工作而存在,而計算單元(ALU)所占比例較小,這使得 CPU 的大規模并行計算表現不佳。GPU 架構內主要為計算單元,采用極簡的流水線進行設計,適合處理高度線程化、相對簡單的并行計算,在圖像渲染等涉及大量重復運算的領域擁有更強運算能力。 GPGPU脫胎于GPU,通用性提升

a0ff6404-f251-11ed-90ce-dac502259ad0.png

CPU+GPU 異構計算解決多元化計算需求

a10960ee-f251-11ed-90ce-dac502259ad0.png

大語言模型開啟 AI 元年

a110f944-f251-11ed-90ce-dac502259ad0.png

常見的AI 加速芯片主要為GPU、FPGAASIC

a11ae1ac-f251-11ed-90ce-dac502259ad0.png

大語言模型有望拉動 GPU 需求增量

a12385d2-f251-11ed-90ce-dac502259ad0.png

a12faf6a-f251-11ed-90ce-dac502259ad0.png

GPU 的微架構是用以實現指令執行的硬件電路結構設計 以 Nvidia 第一個實現統一著色器模型的 Tesla 微架構為例,從頂層 Host Interface 接受來自 CPU 的數據,藉由 Vertex(頂點)、Pixel(片元)、Compute(計算著色器)分發給各 TPC(Texture Processing Clusters 紋理處理集群)進行處理。

a13a875a-f251-11ed-90ce-dac502259ad0.png

流處理器、特殊函數計算單元構成計算核心 在單個 TPC 中主要的運算結構為SM(Streaming Multiprocessor 流式多處理器),其內在蘊含 I Cache(指令緩存)、C Cache(常量緩存)以及核心的計算單元 SP(Streaming Processor 流處理器)和 SFU(Special Function Unit 特殊函數計算單元),外加 Texture Unit(紋理單元)。

a1467a60-f251-11ed-90ce-dac502259ad0.png

解耦計算單元,擁抱通用計算 由于圖形渲染流管線相對固定,Nvidia 在 Tesla構中將部分重要環節剝離并實現可編程,解耦出 SM 計算單元用于通用計算,即可實現根據具體任務需要分配相應線程實現通用計算處理。

a14f464a-f251-11ed-90ce-dac502259ad0.png

計算核心、紋理單元增加, GPC 功能更加完整,Nvidia Fermi 架構奠定完整GPU 計算架構基礎。

a1596788-f251-11ed-90ce-dac502259ad0.png

在Tesla 之后,Nvidia 第一個完整的 GPU 計算架構 Fermi通過制程微縮增加更多計算核心、紋理單元,并且通過增加 PolyMorph Engine(多形體引擎)和 Raster Engine(光柵引擎)使得原來 TPC 升級成為擁有更加完整功能的 GPC(Graphics Processing Clusters 圖形處理器集群)。Fermi 架構共包含 4 個 GPC,16 個 SM,512 個CUDA Core。

英偉達GPU從最初 Fermi 架構到最新的 Ampere 架構和 Hopper 架構

a166f9f2-f251-11ed-90ce-dac502259ad0.png

每一階段都在性能和能效比方面得到提升,引入了新技術,如 CUDA、GPUBoost、RT 核心和 Tensor 核心等,在圖形渲染、科學計算和深度學習等領域發揮重要作用。最新一代 Hopper 架構在 2022 年 3 月推出,旨在加速 AI 模型訓練,使用 Hopper Tensor Core 進行 FP8 和 FP16 的混合精度計算,以大幅加速Transformer 模型的 AI 計算。與上一代相比,Hopper 還將 TF32、FP64、FP16 和INT8 精度的每秒浮點運算(FLOPS)提高了 3 倍。

AMD 作為全球第二大GPU廠商,亦通過持續的架構演進保持其市場領先地位

a16fa23c-f251-11ed-90ce-dac502259ad0.png

從2010年以來,AMD 相繼推出:GCN 架構、RDNA 架構、RDNA 2 架構、RDNA 3 架構、CDNA 架構和 CDNA 2 架構。最新一代面向高性能計算和人工智能 CDNA 2 架構于架構采用增強型 Matrix Core 技術,支持更廣泛的數據型和應用,針對高性能計算工作負載帶來全速率雙精度和全新 FP64 矩陣運算。基于 CDNA2 架構的 AMD Instinct MI250X GPU FP64 雙精度運算算力最高可達 95.7 TFLOPs。

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • gpu
    gpu
    +關注

    關注

    28

    文章

    5194

    瀏覽量

    135441
  • 微架構
    +關注

    關注

    0

    文章

    22

    瀏覽量

    7332

原文標題:GPU競爭壁壘:微架構和平臺生態

文章出處:【微信號:架構師技術聯盟,微信公眾號:架構師技術聯盟】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    HarmonyOS首登信公開課,分享跨平臺適配與體驗提升實踐經驗

    的兼容性挑戰與解決方案。此次分享作為信與HarmonyOS共建生態的一次具體實踐,展現了雙方在技術開發方面的積極交流與協作。 作為生態每年一度的核心溝通
    的頭像 發表于 02-02 09:22 ?306次閱讀
    HarmonyOS首登<b class='flag-5'>微</b>信公開課,分享跨<b class='flag-5'>平臺</b>適配與體驗提升實踐經驗

    景嘉JM1100生態合作推介會深圳站成功舉辦

    自主 GPU 產品為紐帶,搭建起開放共享、合作共贏的交流平臺,推動技術創新與產業應用深度融合,助力國產軟硬件生態持續壯大。
    的頭像 發表于 11-17 14:20 ?860次閱讀

    打破智能家居生態壁壘,樂鑫一站式Matter解決方案實現無縫互聯

    樂鑫科技作為CSA聯盟核心成員,提供一站式Matter解決方案,助力打破智能家居生態壁壘。方案覆蓋Wi-Fi、Thread等多種連接方式,支持ESP32全系列硬件平臺,并配套提供ESP-Matter
    的頭像 發表于 11-06 15:19 ?1270次閱讀
    打破智能家居<b class='flag-5'>生態</b><b class='flag-5'>壁壘</b>,樂鑫一站式Matter解決方案實現無縫互聯

    瑞芯這幾年為啥那么火?

    還支持8K視頻編解碼。 異構計算架構:瑞芯很多CPU采用“CPU+GPU+NPU”異構計算架構,例如旗艦芯片RK3588集成8核CPU、高性能GP
    發表于 10-20 15:50

    景嘉JM1100生態合作推介會北京站圓滿落幕

    10 月 16 日,以 “自主創芯 生態共建” 為主題的景嘉 JM1100 生態合作推介會第二站在北京圓滿落幕。大會匯聚專業協會與行業伙伴,圍繞 JM1100 技術落地、場景應用及生態
    的頭像 發表于 10-18 11:41 ?1649次閱讀

    如何看懂GPU架構?一分鐘帶你了解GPU參數指標

    GPU架構參數如CUDA核心數、顯存帶寬、TensorTFLOPS、互聯方式等,并非“冰冷的數字”,而是直接關系設備能否滿足需求、如何發揮最大價值、是否避免資源浪費等問題的核心要素。本篇文章將全面
    的頭像 發表于 10-09 09:28 ?1134次閱讀
    如何看懂<b class='flag-5'>GPU</b><b class='flag-5'>架構</b>?一分鐘帶你了解<b class='flag-5'>GPU</b>參數指標

    景嘉JM1100生態合作推介會長沙站圓滿結束

    近日,以 “自主創芯 生態共建” 為主題的景嘉JM1100 生態合作推介會(長沙站)圓滿結束。本次推介會匯聚了產業鏈各級領導、知名學者以及上下游企業代表,大家圍繞景嘉自主全新一代
    的頭像 發表于 09-16 17:53 ?1790次閱讀

    適應邊緣AI全新時代的GPU架構

    電子發燒友網站提供《適應邊緣AI全新時代的GPU架構.pdf》資料免費下載
    發表于 09-15 16:42 ?47次下載

    【「算力芯片 | 高性能 CPU/GPU/NPU 架構分析」閱讀體驗】+NVlink技術從應用到原理

    前言 【「算力芯片 | 高性能 CPU/GPU/NPU 架構分析」書中的芯片知識是比較接近當前的頂尖芯片水平的,同時包含了芯片架構的基礎知識,但該部分知識比較晦澀難懂,或許是由于我一
    發表于 06-18 19:31

    從封閉到開放:聚徽解碼安卓工控機如何打破工業軟件生態壁壘

    、模塊化設計與生態協同能力,正成為破解工業軟件生態壁壘的關鍵突破口。 一、開源架構:重構工業軟件開發范式 安卓系統的開源特性徹底顛覆了傳統工業軟件開發模式。傳統工控系統依賴廠商封閉AP
    的頭像 發表于 06-09 15:42 ?666次閱讀

    GPU架構深度解析

    GPU架構深度解析從圖形處理到通用計算的進化之路圖形處理單元(GPU),作為現代計算機中不可或缺的一部分,已經從最初的圖形渲染專用處理器,發展成為強大的并行計算引擎,廣泛應用于人工智能、科學計算
    的頭像 發表于 05-30 10:36 ?1854次閱讀
    <b class='flag-5'>GPU</b><b class='flag-5'>架構</b>深度解析

    ARM Mali GPU 深度解讀

    ARM Mali GPU 深度解讀 ARM Mali 是 Arm 公司面向移動設備、嵌入式系統和基礎設施市場設計的圖形處理器(GPU)IP 核,憑借其異構計算架構、能效優化和生態協同,
    的頭像 發表于 05-29 10:12 ?4326次閱讀

    iTOP-3588S開發板四核心架構GPU內置GPU可以完全兼容0penGLES1.1、2.0和3.2。

    性能強 iTOP-3588S開發板采用瑞芯RK3588S處理器,是全新一代AloT高端應用芯片,搭載八核64位CPU,四核Cortex-A76和四核Cortex-A55架構主頻高達2.4GHZ
    發表于 05-15 10:36

    iTOP-3588開發板采用瑞芯RK3588處理器四核心架構GPU內置獨立NPU強大的視頻編解碼

    架構,主頻高達2.4GHz。 四核心架構GPU 集成Mali G610 MP4四核GPU、支持OpenGLES 1.1.2.0、 3.2, OpenCL 2.2和Vulkan1.2。帶
    發表于 04-09 16:09

    突破工業接口壁壘!ARK(方舟)DMZ42C10S讓PLC\\\"萬能適配\\\"成為現實!

    突破工業接口壁壘!ARK(方舟)DMZ42C10S讓PLC\"萬能適配\"成為現實!
    發表于 03-27 15:20