国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

CUDA簡介:CUDA編程模型和接口

星星科技指導員 ? 來源:NVIDIA ? 作者:Ken He ? 2022-04-19 15:38 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

本項目為CUDA官方手冊的中文翻譯版,有個人翻譯并添加自己的理解。主要介紹CUDA編程模型和接口

1.1 我們為什么要使用GPU

GPU(Graphics Processing Unit)在相同的價格和功率范圍內,比CPU提供更高的指令吞吐量和內存帶寬。許多應用程序利用這些更高的能力,在GPU上比在CPU上運行得更快(參見GPU應用程序)。其他計算設備,如FPGA,也非常節能,但提供的編程靈活性要比GPU少得多。

GPU和CPU在功能上的差異是因為它們的設計目標不同。雖然 CPU 旨在以盡可能快的速度執行一系列稱為線程的操作,并且可以并行執行數十個這樣的線程。但GPU卻能并行執行成千上萬個(攤銷較慢的單線程性能以實現更大的吞吐量)。

GPU 專門用于高度并行計算,因此設計時更多的晶體管用于數據處理,而不是數據緩存和流量控制。

下圖顯示了 CPU 與 GPU 的芯片資源分布示例。

pYYBAGJeZ2KATOe0AABsHBaw-Os076.png

將更多晶體管用于數據處理,例如浮點計算,有利于高度并行計算。GPU可以通過計算隱藏內存訪問延遲,而不是依靠大數據緩存和復雜的流控制來避免長時間的內存訪問延遲,這兩者在晶體管方面都是昂貴的。

1.2 CUDA?:通用并行計算平臺和編程模型

2006 年 11 月,NVIDIA? 推出了 CUDA?,這是一種通用并行計算平臺和編程模型,它利用 NVIDIA GPU 中的并行計算引擎以比 CPU 更有效的方式解決許多復雜的計算問題。

CUDA 附帶一個軟件環境,允許開發人員使用 C++ 作為高級編程語言。 如下圖所示,支持其他語言、應用程序編程接口或基于指令的方法,例如 FORTRAN、DirectCompute、OpenACC。

poYBAGJeZ1yAKiiLAAH1q_EpXUQ299.png

1.3 可擴展的編程模型

多核 CPU 和眾核 GPU 的出現意味著主流處理器芯片現在是并行系統。挑戰在于開發能夠透明地擴展可并行的應用軟件,來利用不斷增加的處理器內核數量。就像 3D 圖形應用程序透明地將其并行性擴展到具有廣泛不同內核數量的多核 GPU 一樣。

CUDA 并行編程模型旨在克服這一挑戰,同時為熟悉 C 等標準編程語言的程序員保持較低的學習曲線。

其核心是三個關鍵抽象——線程組的層次結構、共享內存和屏障同步——它們只是作為最小的語言擴展集向程序員公開。

這些抽象提供了細粒度的數據并行和線程并行,嵌套在粗粒度的數據并行和任務并行中。它們指導程序員將問題劃分為可以由線程塊并行獨立解決的粗略子問題,并將每個子問題劃分為可以由塊內所有線程并行協作解決的更精細的部分。

這種分解通過允許線程在解決每個子問題時進行協作來保留語言表達能力,同時實現自動可擴展性。實際上,每個線程塊都可以在 GPU 內的任何可用multiprocessor上以亂序、并發或順序調度,以便編譯的 CUDA 程序可以在任意數量的多處理器上執行,如下圖所示,并且只有運行時系統需要知道物理multiprocessor個數。

這種可擴展的編程模型允許 GPU 架構通過簡單地擴展multiprocessor和內存分區的數量來跨越廣泛的市場范圍:高性能發燒友 GeForce GPU ,專業的 Quadro 和 Tesla 計算產品 (有關所有支持 CUDA 的 GPU 的列表,請參閱支持 CUDA 的 GPU)。

pYYBAGJeZ1WAWhqdAAAqnDtQ7Es238.png

注意:GPU 是圍繞一系列流式多處理器 (SM: Streaming Multiprocessors) 構建的(有關詳細信息,請參閱硬件實現)。 多線程程序被劃分為彼此獨立執行的線程塊,因此具有更多multiprocessor的 GPU 將比具有更少多處理器的 GPU 在更短的時間內完成程序執行。

關于作者

Ken He 是 NVIDIA 企業級開發者社區經理 & 高級講師,擁有多年的 GPU 和人工智能開發經驗。自 2017 年加入 NVIDIA 開發者社區以來,完成過上百場培訓,幫助上萬個開發者了解人工智能和 GPU 編程開發。在計算機視覺,高性能計算領域完成過多個獨立項目。并且,在機器人無人機領域,有過豐富的研發經驗。對于圖像識別,目標的檢測與跟蹤完成過多種解決方案。曾經參與 GPU 版氣象模式GRAPES,是其主要研發者。

審核編輯:郭婷

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • NVIDIA
    +關注

    關注

    14

    文章

    5594

    瀏覽量

    109760
  • gpu
    gpu
    +關注

    關注

    28

    文章

    5194

    瀏覽量

    135496
  • 人工智能
    +關注

    關注

    1817

    文章

    50099

    瀏覽量

    265444
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    RV生態又一里程碑:英偉達官宣CUDA將兼容RISC-V架構!

    電子發燒友網報道(文/梁浩斌)英偉達生態護城河CUDA,從最初支持x86、Power?CPU架構,到2019年宣布支持Arm?CPU,不斷拓展在數據中心的應用生態。 在2019年至今的六年
    的頭像 發表于 07-19 00:04 ?6599次閱讀
    RV生態又一里程碑:英偉達官宣<b class='flag-5'>CUDA</b>將兼容RISC-V架構!

    摩爾線程快速完成對Qwen3.5模型全面適配

    MUSA C編程語言及Triton-MUSA工具鏈高效完成模型部署與優化。 在Qwen3.5的適配過程中,摩爾線程驗證了MUSA生態的兩大核心能力:原生MUSA C支持讓開發者可直接使用MUSA C進行
    發表于 02-18 08:32 ?170次閱讀

    借助NVIDIA CUDA Tile IR后端推進OpenAI Triton的GPU編程

    NVIDIA CUDA Tile 是基于 GPU 的編程模型,其設計目標是為 NVIDIA Tensor Cores 提供可移植性,從而釋放 GPU 的極限性能。CUDA Tile 的
    的頭像 發表于 02-10 10:31 ?250次閱讀

    如何在NVIDIA CUDA Tile中編寫高性能矩陣乘法

    本博文是系列課程的一部分,旨在幫助開發者學習 NVIDIA CUDA Tile 編程,掌握構建高性能 GPU 內核的方法,并以矩陣乘法作為核心示例。
    的頭像 發表于 01-22 16:43 ?4840次閱讀
    如何在NVIDIA <b class='flag-5'>CUDA</b> Tile中編寫高性能矩陣乘法

    NVIDIA CUDA Tile的創新之處、工作原理以及使用方法

    NVIDIA CUDA 13.1 推出 NVIDIA CUDA Tile,這是自 2006 年 NVIDIA CUDA 平臺發明以來,最大的一次技術進步。這一令人振奮的創新引入了一套面向
    的頭像 發表于 12-24 10:17 ?474次閱讀
    NVIDIA <b class='flag-5'>CUDA</b> Tile的創新之處、工作原理以及使用方法

    在Python中借助NVIDIA CUDA Tile簡化GPU編程

    NVIDIA CUDA 13.1 版本新增了基于 Tile 的GPU 編程模式。它是自 CUDA 發明以來 GPU 編程最核心的更新之一。借助 GPU tile kernels,可以用
    的頭像 發表于 12-13 10:12 ?1204次閱讀
    在Python中借助NVIDIA <b class='flag-5'>CUDA</b> Tile簡化GPU<b class='flag-5'>編程</b>

    NVIDIA CUDA 13.1版本的新增功能與改進

    NVIDIA CUDA 13.1 是自 CUDA 二十年前發明以來,規模最大、內容最全面的一次更新。
    的頭像 發表于 12-13 10:08 ?2209次閱讀

    首款全國產訓推一體AI芯片發布,兼容CUDA生態

    CUDA生態體系。該芯片支持從單機多卡到千卡級集群的靈活擴展,能效比達3.41 TFLOPS/W——在同等功
    的頭像 發表于 11-30 07:20 ?9530次閱讀
    首款全國產訓推一體AI芯片發布,兼容<b class='flag-5'>CUDA</b>生態

    aicube的n卡gpu索引該如何添加?

    請問有人知道aicube怎樣才能讀取n卡的gpu索引呢,我已經安裝了cuda和cudnn,在全局的py里添加了torch,能夠調用gpu,當還是只能看到默認的gpu0,顯示不了gpu1,gpu0是集顯,訓練速度太感人了 你只有一塊英偉達的卡,aicube不支持AMD的顯卡,所以搜索到的只有一張卡
    發表于 07-25 08:18

    英偉達:CUDA 已經開始移植到 RISC-V 架構上

    ,著重介紹了將 CUDA 移植到 RISC-V 架構的相關工作和計劃,展現了對 RISC-V 架構的高度重視與積極布局。 ? Frans Sijstermanns 首先回顧了英偉達與 RISC-V 之間
    發表于 07-17 16:30 ?3959次閱讀

    進迭時空同構融合RISC-V AI CPU的Triton算子編譯器實踐

    Triton是由OpenAI開發的一個開源編程語言和編譯器,旨在簡化高性能GPU內核的編寫。它提供了類似Python的語法,并通過高級抽象降低了GPU編程的復雜性,同時保持了高性能。目前
    的頭像 發表于 07-15 09:04 ?1882次閱讀
    進迭時空同構融合RISC-V AI CPU的Triton算子編譯器實踐

    FA模型和Stage模型API切換概述

    API切換概述 FA模型和Stage模型由于線程模型和進程模型的差異,部分接口僅在FA模型下才
    發表于 06-06 06:29

    FA模型訪問Stage模型DataShareExtensionAbility說明

    DataAbilityHelper提供對外接口,服務端是由DataAbility提供數據庫的讀寫服務。 Stage模型中,客戶端是由DataShareHelper提供對外接口,服務端是由
    發表于 06-04 07:53

    如何基于Kahn處理網絡定義AI引擎圖形編程模型

    本白皮書探討了如何基于 Kahn 處理網絡( KPN )定義 AI 引擎圖形編程模型。KPN 模型有助于實現數據流并行化,進而提高系統的整體性能。
    的頭像 發表于 04-17 11:31 ?874次閱讀
    如何基于Kahn處理網絡定義AI引擎圖形<b class='flag-5'>編程</b><b class='flag-5'>模型</b>

    使用NVIDIA CUDA-X庫加速科學和工程發展

    NVIDIA GTC 全球 AI 大會上宣布,開發者現在可以通過 CUDA-X 與新一代超級芯片架構的協同,實現 CPU 和 GPU 資源間深度自動化整合與調度,相較于傳統加速計算架構,該技術可使計算工程工具運行速度提升至原來的 11 倍,計算規模增加至 5 倍。
    的頭像 發表于 03-25 15:11 ?1539次閱讀