国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

GPU平臺生態,英偉達CUDA和AMD ROCm對比分析

架構師技術聯盟 ? 來源:架構師技術聯盟 ? 2023-05-18 09:57 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

成熟且完善的平臺生態是 GPU 廠商的護城河。相較于持續迭代的微架構帶來的技術壁壘硬實力,成熟的軟件生態形成的強大用戶粘性將在長時間內塑造 GPU廠商的軟實力。以英偉達 CUDA 為例的軟硬件設計架構提供了硬件的直接訪問接口,不必依賴圖形 API 映射,降低 GPGPU 開發者編譯難度,以此實現高粘性的開發者生態。目前主流的開發平臺還包括 AMD ROCm 以及 OpenCL。

CUDA(Compute Unified Device Architectecture),是 NVIDIA 于 2006 年推出的通用并行計算架構,包含 CUDA 指令集架構(ISA)和 GPU 內部的并行計算引擎。該架構允許開發者使用高級編程語言(例如 C 語言)利用 GPU 硬件的并行計算能力并對計算任務進行分配和管理,CUDA 提供了一種比 CPU 更有效的解決大規模數據計算問題的方案,在深度學習訓練和推理領域被廣泛使用。

b8d6af22-f50a-11ed-90ce-dac502259ad0.png

CUDA 除了是并行計算架構外,還是 CPU 和 GPU 協調工作的通用語言。在CUDA 編程模型中,主要有 Host(主機)和 Device(設備)兩個概念,Host 包含 CPU 和主機內存,Device 包含 GPU 和顯存,兩者之間通過 PCI Express 總線進行數據傳輸。在具體的 CUDA 實現中,程序通常劃分為兩部分,在主機上運行的 Host 代碼和在設備上運行的 Device 代碼。Host 代碼負責程序整體的流程控制和數據交換,而 Device 代碼則負責執行具體的計算任務。

一個完整的 CUDA程序是由一系列的設備端函數并行部分和主機端的串行處理部分共同組成的,主機和設備通過這種方式可以高效地協同工作,實現 GPU 的加速計算。

b907a262-f50a-11ed-90ce-dac502259ad0.png

CUDA 在 Host 運行的函數庫包括了開發庫(Libraries)、運行時(Runtime)和驅動(Driver)三大部分。其中,Libraries 提供了一些常見的數學和科學計算任務運算庫,Runtime API 提供了便捷的應用開發接口和運行期組件,開發者可以通過調用 API 自動管理 GPU 資源,而 Driver API 提供了一系列 C 函數庫,能更底層、更高效地控制 GPU 資源,但相應的開發者需要手動管理模塊編譯等復雜任務。

b9216454-f50a-11ed-90ce-dac502259ad0.png

CUDA 在 Device 上執行的函數為內核函數(Kernel)通常用于并行計算和數據處理。在 Kernel 中,并行部分由 K 個不同的 CUDA 線程并行執行 K 次,而有別于普通的 C/C++函數只有 1 次。每一個 CUDA 內核都以一個聲明指定器開始,程序員通過使用內置變量__global__為每個線程提供一個唯一的全局 ID。一組線程被稱為 CUDA 塊(block)。CUDA 塊被分組為一個網格(grid),一個內核以線程塊的網格形式執行。每個 CUDA 塊由一個流式多處理器(SM)執行,不能遷移到 GPU 中的其他 SM,一個 SM 可以運行多個并發的 CUDA 塊,取決于CUDA 塊所需的資源,每個內核在一個設備上執行,CUDA 支持在一個設備上同時運行多個內核。

b950e29c-f50a-11ed-90ce-dac502259ad0.png

b99494b0-f50a-11ed-90ce-dac502259ad0.png

豐富而成熟的軟件生態是 CUDA 被廣泛使用的關鍵原因。

(1)編程語言:CUDA 從最初的 1.0 版本僅支持 C 語言編程,到現在的 CUDA 12.0 支持 C、C++、Fortran、Python 等多種編程語言。此外,NVIDIA 還支持了如 PyCUDA、ltimesh Hybridizer、OpenACC 等眾多第三方工具鏈,不斷提升開發者的使用體驗。

(2)庫:NVIDIA 在 CUDA 平臺上提供了名為 CUDA-X 的集合層,開發人員可以通過 CUDA-X 快速部署如 cuBLA、NPP、NCCL、cuDNN、TensorRT、OpenCV 等多領域常用庫。

(3)其他:NVIDIA 還為 CUDA 開發人員提供了容器部署流程簡化以及集群環境擴展應用程序的工具,讓應用程序更易加速,使得CUDA 技術能夠適用于更廣泛的領域。

ROCm (Radeon Open Compute Platform )是 AMD 基于開源項目的 GPU計算生態系統,類似于 NVIDIA 的 CUDA。ROCm 支持多種編程語言、編譯器、庫和工具,以加速科學計算、人工智能機器學習等領域的應用。ROCm還支持多種加速器廠商和架構,提供了開放的可移植性和互操作性。

ROCm 支持HIP(類 CUDA)和 OpenCL 兩種 GPU 編程模型,可實現 CUDA 到 ROCm 的遷移。最新的 ROCm 5.0 支持 AMD Infinity Hub 上的人工智能框架容器,包括TensorFlow 1.x、PyTorch 1.8、MXNet 等,同時改進了 ROCm 庫和工具的性能和穩定性,包括 MIOpen、MIVisionX、rocBLAS、rocFFT、rocRAND 等。

b9cd4288-f50a-11ed-90ce-dac502259ad0.png

b9f20fc8-f50a-11ed-90ce-dac502259ad0.png

OpenCL(Open Compute Language),是面向異構系統通用并行編程、可以在多個平臺和設備上運行的開放標準。OpenCL 支持多種編程語言和環境,并提供豐富的工具來幫助開發和調試,可以同時利用 CPU、GPU、DSP 等不同類型的加速器來執行任務,并支持數據傳輸和同步。

ba0f6302-f50a-11ed-90ce-dac502259ad0.png

ba2f7e30-f50a-11ed-90ce-dac502259ad0.png

此外,OpenCL 支持細粒度和粗粒度并行編程模型,可根據應用需求選擇合適模型提高性能和效率。而 OpenCL可移植性有限,不同平臺和設備的功能支持和性能表現存在一定差異,與 CUDA相比缺少廣泛的社區支持和成熟的生態圈。

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • gpu
    gpu
    +關注

    關注

    28

    文章

    5177

    瀏覽量

    135228
  • 指令集
    +關注

    關注

    0

    文章

    229

    瀏覽量

    24341
  • 英偉達
    +關注

    關注

    23

    文章

    4077

    瀏覽量

    99013

原文標題:GPU平臺生態,英偉達CUDA和AMD ROCm對比分析

文章出處:【微信號:架構師技術聯盟,微信公眾號:架構師技術聯盟】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    RV生態又一里程碑:英偉達官宣CUDA將兼容RISC-V架構!

    電子發燒友網報道(文/梁浩斌)英偉生態護城河CUDA,從最初支持x86、Power?CPU架構,到2019年宣布支持Arm?CPU,不斷拓展在數據中心的應用生態。 在2019年至今的
    的頭像 發表于 07-19 00:04 ?6529次閱讀
    RV<b class='flag-5'>生態</b>又一里程碑:<b class='flag-5'>英偉</b>達官宣<b class='flag-5'>CUDA</b>將兼容RISC-V架構!

    國產GPU再下一城,群起突圍英偉+AMD

    上市。 ? 根據Jon Peddie Research的數據,獨立GPU市場英偉一家獨大,近年來持續維持超80%的市場份額,而AMD公司則占據剩余近20%的市場份額。自人工智能市場爆
    的頭像 發表于 07-07 08:59 ?7191次閱讀
    國產<b class='flag-5'>GPU</b>再下一城,群起突圍<b class='flag-5'>英偉</b><b class='flag-5'>達</b>+<b class='flag-5'>AMD</b>

    在Python中借助NVIDIA CUDA Tile簡化GPU編程

    NVIDIA CUDA 13.1 版本新增了基于 Tile 的GPU 編程模式。它是自 CUDA 發明以來 GPU 編程最核心的更新之一。借助 GP
    的頭像 發表于 12-13 10:12 ?1152次閱讀
    在Python中借助NVIDIA <b class='flag-5'>CUDA</b> Tile簡化<b class='flag-5'>GPU</b>編程

    無源探頭與高壓探頭技術對比分析

    本文對比分析了無源探頭與高壓探頭的技術原理、性能參數及應用場景,為選擇合適探頭提供參考。
    的頭像 發表于 11-30 15:47 ?642次閱讀

    ROCm部署PP-StructureV3到AMD GPU

    作者:AVNET 李鑫杰 我們在上一篇文章中介紹了ROCm+PP-OCRv5,為實現在AMD計算平臺上完成復雜文檔的端到端智能解析,本文基于ROCm軟件棧,提供一套完整的PP-Stru
    的頭像 發表于 11-13 16:56 ?5506次閱讀
    用<b class='flag-5'>ROCm</b>部署PP-StructureV3到<b class='flag-5'>AMD</b> <b class='flag-5'>GPU</b>上

    英偉發布 NVQLink 開放系統架構;國內首個汽車芯片標準驗證平臺投入使用

    英偉發布 NVQLink 開放系統架構 在華盛頓特區舉行的英偉全球技術大會上,英偉(NVI
    發表于 10-29 10:33 ?1197次閱讀

    英偉自研HBM基礎裸片

    "后的下一代AI GPU "Feynman"。 ? 有分析指出,英偉此舉或是將部分GPU功能集成到基礎裸片中,旨在提高HBM和
    的頭像 發表于 08-21 08:16 ?2742次閱讀

    aicube的n卡gpu索引該如何添加?

    請問有人知道aicube怎樣才能讀取n卡的gpu索引呢,我已經安裝了cuda和cudnn,在全局的py里添加了torch,能夠調用gpu,當還是只能看到默認的gpu0,顯示不了
    發表于 07-25 08:18

    英偉CUDA 已經開始移植到 RISC-V 架構上

    7 月 17 日,在第五屆(2025)RISC-V 中國峰會主論壇上,英偉副總裁 Frans Sijstermanns 分享了題為《在英偉計算
    發表于 07-17 16:30 ?3941次閱讀

    國內外電機結構 工藝對比分析

    純分享帖,需要者可點擊附件免費獲取完整資料~~~*附件:國內外電機結構 工藝對比分析.pdf【免責聲明】本文系網絡轉載,版權歸原作者所有。本文所用視頻、圖片、文字如涉及作品版權問題,請第一時間告知,刪除內容!
    發表于 05-29 14:06

    英偉擬再推中國特供GPU,今年6月量產!

    電子發燒友網綜合報道 近年來,美國政府對華半導體出口管制政策不斷收緊,英偉等半導體企業面臨嚴峻挑戰。為保持在中國市場的競爭力,英偉推出了多款特供版
    發表于 05-27 00:03 ?4772次閱讀

    主流汽車電子SoC芯片對比分析

    主流汽車電子SoC芯片對比分析 隨著汽車智能化、電動化趨勢加速,系統級芯片(SoC)已成為汽車電子核心硬件。本文從技術參數、市場定位、應用場景及國產化進程等維度,對主流汽車電子SoC芯片進行對比分析
    的頭像 發表于 05-23 15:33 ?5704次閱讀

    新思科技攜手英偉加速芯片設計,提升芯片電子設計自動化效率

    宣布在英偉 Grace Blackwell 平臺上實現高達 30 倍的預期性能提升,加速下一代半導體的電路仿真 ? 摘要: 在今年GTC主題演講中,新思科技作為生態系統的一部分,展示
    發表于 03-19 17:59 ?483次閱讀

    新思科技亮相英偉GTC 2025大會

    為了實現這一速度提升,新思科技在GTC全球AI大會上宣布,正在使用英偉 CUDA-X庫優化其下一代半導體開發解決方案。公司還在擴大對英偉
    的頭像 發表于 03-19 17:53 ?1266次閱讀

    英偉殺瘋了!Blackwell橫掃市場,AMD、英特爾加入降本浪潮

    電子發燒友網報道(文/莫婷婷)2月27日凌晨,英偉公布了2025財年第四財季的財務數據,這是DeepSeek面世后的第一份財報,業內人士尤為關注DeepSeek給英偉或者是
    的頭像 發表于 03-02 00:02 ?2661次閱讀
    <b class='flag-5'>英偉</b><b class='flag-5'>達</b>殺瘋了!Blackwell橫掃市場,<b class='flag-5'>AMD</b>、英特爾加入降本浪潮