国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

NVIDIA CUDA 13.1版本的新增功能與改進

NVIDIA英偉達企業解決方案 ? 來源:NVIDIA英偉達企業解決方案 ? 2025-12-13 10:08 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

NVIDIA CUDA 13.1 是自 CUDA 二十年前發明以來,規模最大、內容最全面的一次更新。

最新的版本包含一系列新功能與改進,旨在提升性能并推動加速計算,主要包括:

推出NVIDIA CUDA Tile:它是基于 tile 的全新編程模型,對包括 Tensor Cores 在內的專用硬件做了抽象

暴露了綠色上下文運行時的 API

在 NVIDIA cuBLAS 中實現雙精度與單精度仿真功能

全新編寫的CUDA 編程指南,面向 CUDA 初學者到資深開發者

CUDA Tile 編程

為了幫助開發者開發適配當前及未來的 GPU 開發軟件,NVIDIA CUDA 13.1 推出了CUDA Tile。該編程模型允許開發者在 SIMT 編程模型之上更高層級編寫 GPU 內核。在 SIMT 編程中,開發者實現一個內核需要手動劃分數據,并為每個線程指定執行路徑。而在 CUDA Tile 編程中,你可以用更高的抽象層級實現內核,直接對稱為“Tile”的數據塊指定執行路徑:只需指定要在這些 Tile 上執行的數學運算,編譯器和運行時會自動決定如何將任務最優地分配給各個線程。這種 Tile 編程模型隱藏了 Tensor Cores 等專用硬件的具體細節,使 Tile 代碼能夠兼容未來的 GPU 架構。

CUDA 13.1 發布了 Tile 編程的兩大組件

CUDA Tile IR:用于 NVIDIA GPU 編程的全新虛擬指令集架構(ISA)。

cuTile Python:全新領域特定的編程語言(DSL),用于在 Python 中編寫基于數組和 Tile 的內核。

如需了解更多關于 CUDA Tile IR 與cuTile Python的信息,請查看相關詳細介紹。

CUDA軟件更新

本次 CUDA 版本還包括以下重要軟件更新。

運行時暴露綠色上下文

CUDA 中的綠色上下文是傳統 CUDA 上下文的一種輕量級替代方案,旨在為開發者提供一種對 GPU 進行更細顆粒度的空間劃分和資源分配的機制。自 CUDA 12.4 起,該功能可在驅動 API 中使用;而從本版本開始,綠色上下文也正式支持運行時 API。

綠色上下文使用戶可以定義并管理 GPU 資源(主要是 Streaming Multiprocessors,SMs)的不同分區,并將特定的 SM 集合分配給某個上下文。隨后,在該綠色上下文該所擁有的資源范圍內啟動中 CUDA 內核并管理 CUDA 流。一個典型應用場景是:當應用程序包含對延遲敏感的代碼,且其優先級高于所有其他 GPU 任務時,可以將一部分 SM 資源分配給一個專用于此代碼的綠色上下文,其余 SM 分配給處理其他任務的另一個綠色上下文,即可確保關鍵計算始終擁有可用的 SM 資源。

CUDA 13.1 還引入了可定制程度更高的 split() API。開發者可以構建此前需要多次 API 調用才能完成的 SM 分區,并能夠配置工作隊列,以減少在不同綠色上下文中提交任務時可能產生的偽依賴。

有關這些功能及綠色上下文運行時的更多信息,請參閱CUDA Programming Guide。

CUDA 多進程服務(MPS)更新

CUDA 13.1 為多進程服務新增了多項功能特性。有關這些新功能的完整信息,請參閱MPS 文檔。其中的重點內容包括:內存局部性優化分區、靜態流多處理器分區、cuBLAS 中的雙精度與單精度仿真。

開發者工具

開發者工具是 CUDA 平臺至關重要的一環,本次發布帶來了多項創新與功能優化。

CUDA Tile 內核性能分析工具

NVIDIA Nsight Compute 2025.4 現可對 CUDA Tile 內核進行性能分析。相關更新包括:在摘要頁面新增“結果類型”列,用于區分內核屬于 Tile 還是 SIMT 類型;詳情頁面新增“Tile 統計信息”區域,匯總 Tile 維度及關鍵流程的利用率情況;源頁面也支持將性能指標映射到高級別的 cuTile 內核源代碼。此外,本次 Nsight Compute 版本還新增了兩項功能:支持對設備端啟動的 CUDA 圖節點進行性能分析;同時改進了源頁面導航,現在無論是編譯器生成的標簽還是用戶自定義的標簽,都支持以可點擊鏈接的形式快速跳轉。

編譯時修補

NVIDIA Compute Sanitizer 2025.4 現可通過編譯器標志 -fdevice-sanitize=memcheck 對 NVIDIA CUDA 編譯器進行編譯時修補。此功能增強了內存錯誤檢測能力并提升了 Compute Sanitizer 的運行性能。編譯時插樁可將錯誤檢測直接集成到 NVCC 中,這樣不僅運行速度更快,還能通過先進的基址-邊界分析捕捉到更隱蔽的如相鄰分配非法訪問的內存問題。這意味著開發者可以在不犧牲調試速度的前提下,排查內存問題,運行更多測試,從而保持開發效率。目前,該功能僅支持 memcheck。有關編譯時插樁的完整信息,請參閱 compute-sanitizer文檔。

NVIDIA Nsight Systems

NVIDIA Nsight Systems 2025.6.1 與 CUDA Toolkit 13.1 同步發布,新增多項剖析功能,主要包括:

系統級 CUDA 剖析:新增 -cuda-trace-scope 參數,支持跨進程樹或整個系統進行剖析。

CUDA 主機函數剖析:支持剖析 CUDA Graph 主機函數節點及 cudaLaunchHostFunc();該函數在主機端執行,并會阻塞所在流。

綠色上下文時間軸:現在其提示信息會顯示 SM 分配情況,幫助用戶了解 GPU 資源利用率。

數學函數庫

本次核心 CUDA 工具包的數學函數庫引入了多項新功能,主要包括:NVIDIA cuBLAS、NVIDIA cuSPARSE、NVIDIA cuFFT。

NVIDIA CUDA 核心計算庫

NVIDIA CUDA 核心計算庫(CCCL)為CUB庫帶來了多項創新與增強:

確定性浮點數縮減:作為 CUDA 13.1 一部分, NVIDIA CCCL 3.1 提供了兩種額外的浮點確定性選項,以便在確定性和性能之間進行權衡:

Not-guaranteed:使用原子操作進行單輪歸約。此選項不保證為多次運行提供位級相同的結果。

GPU-to-GPU:基于 Kate Clark 在 NVIDIAGTC 2024演講中提出的可復現歸約算法。其結果始終是位級相同的。

更便捷的單階段CUB API:CCCL 3.1 為部分 CUB 算法新增了重載函數,它們可以直接接受內存資源參數,從而省去查詢、分配、釋放臨時存儲的步驟。

了解更多

CUDA 13.1 帶來了眾多新功能,并開啟了以 CUDA Tile 為核心的GPU 編程新時代,了解更多關于 CUDA 13.1 的更新。

歡迎探索CUDA Tile相關資源,下載CUDA Toolkit 13.1,立即開始體驗。

關于作者 —

Jonathan Bentz

領導 NVIDIA 的 CUDA 技術營銷工程團隊,其團隊專注于創建和提供引人入勝的內容,并與 CUDA 開發者建立聯系。Jonathan 擁有愛荷華州立大學化學博士學位和計算機科學碩士學位。

Tony Scudiero

是 CUDA 平臺的技術營銷工程師。他致力于將 CUDA 帶給各種類型和能力的開發者。在 NVIDIA 任職期間,他曾使用過大型 HPC 系統和應用、實時聲學模擬 (VRWorks Audio) 和 Omniverse RTX 渲染器。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • NVIDIA
    +關注

    關注

    14

    文章

    5513

    瀏覽量

    109200
  • gpu
    gpu
    +關注

    關注

    28

    文章

    5118

    瀏覽量

    134556
  • 編程語言
    +關注

    關注

    10

    文章

    1960

    瀏覽量

    39095
  • CUDA
    +關注

    關注

    0

    文章

    126

    瀏覽量

    14413

原文標題:NVIDIA CUDA 13.1 引入 NVIDIA CUDA Tile 等新功能,為下一代 GPU 編程提供更強動力

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    在Python中借助NVIDIA CUDA Tile簡化GPU編程

    NVIDIA CUDA 13.1 版本新增了基于 Tile 的GPU 編程模式。它是自 CUDA
    的頭像 發表于 12-13 10:12 ?671次閱讀
    在Python中借助<b class='flag-5'>NVIDIA</b> <b class='flag-5'>CUDA</b> Tile簡化GPU編程

    AMD Vivado Design Suite 2025.2版本現已發布

    AMD Vivado Design Suite 2025.2 版本現已發布,新增對 AMD Versal 自適應 SoC 的設計支持,包含新器件支持、QoR 功能及易用性增強。
    的頭像 發表于 12-09 15:11 ?487次閱讀

    開鴻Bot系列大版本更新:體驗穩定升級,樂享高效協同!

    V5.0.1.22版本開鴻Bot系列今日,開鴻Bot系列迎來第二次大版本更新——V5.0.1.22。此次版本更新致力于進一步提升系統穩定性與用戶體驗,新增多項實用
    的頭像 發表于 09-26 17:06 ?1155次閱讀
    開鴻Bot系列大<b class='flag-5'>版本</b>更新:體驗穩定升級,樂享高效協同!

    NVIDIA RAPIDS 25.06版本新增多項功能

    RAPIDS 是一套面向 Python 數據科學的 NVIDIA CUDA-X 庫,最新發布的 25.06 版本引入了多項亮眼新功能,其中包括 Polars GPU 流執行引擎——這是
    的頭像 發表于 09-09 09:54 ?785次閱讀

    匠芯創發布新版GUI開發工具 新增多國語言設置等功能

    。此次版本更新,為用戶帶來了諸多實用的新功能,進一步提升了設計體驗和開發效率。在V1.3.0版本中,AiUIBuilder新增了多國語言切換功能
    的頭像 發表于 08-07 15:36 ?953次閱讀
    匠芯創發布新版GUI開發工具 <b class='flag-5'>新增</b>多國語言設置等<b class='flag-5'>功能</b>

    NVIDIA DOCA 3.0版本的亮點解析

    NVIDIA DOCA 框架已發展成為新一代 AI 基礎設施的重要組成部分。從初始版本到備受期待的 NVIDIA DOCA 3.0 發布,每個版本都擴展了
    的頭像 發表于 07-04 14:27 ?997次閱讀
    <b class='flag-5'>NVIDIA</b> DOCA 3.0<b class='flag-5'>版本</b>的亮點解析

    【文章轉載】CANoe產品體系19版本功能(下) - 基礎功能與XIL測試

    版本持續為智能電動網聯汽車軟件開發測試帶來全新功能,IDE開發環境支持.NET8.0、Python、MATLAB2024b,VisualStudioCode集成測試開發和調試功能,支持
    的頭像 發表于 06-25 10:03 ?1403次閱讀
    【文章轉載】CANoe產品體系19<b class='flag-5'>版本</b>新<b class='flag-5'>功能</b>(下) - 基礎<b class='flag-5'>功能與</b>XIL測試

    CANoe產品體系19版本新特性及新增Option(上)

    版本持續助力當前車輛E/E架構中ECU開發驗證,同時賦能后續智能網聯電動車型預研驗證。新版本CANoe產品體系新增數據驅動的DDS、車輛互聯服務和高效電機模型庫,進一步支持CANXL
    的頭像 發表于 06-11 10:03 ?2609次閱讀
    CANoe產品體系19<b class='flag-5'>版本</b>新特性及<b class='flag-5'>新增</b>Option(上)

    借助NVIDIA技術加速半導體芯片制造

    NVIDIA Blackwell GPU、NVIDIA Grace CPU、高速 NVIDIA NVLink 網絡架構和交換機,以及諸如 NVIDIA cuDSS 和
    的頭像 發表于 05-27 13:59 ?915次閱讀

    NVIDIA虛擬GPU 18.0版本的亮點

    NVIDIA 虛擬 GPU(vGPU)技術可在虛擬桌面基礎設施(VDI)中解鎖 AI 功能,使其比以往更加強大、用途更加廣泛。vGPU 通過為各種虛擬化環境中的 AI 驅動工作負載提供動力,提高了
    的頭像 發表于 04-07 11:28 ?1181次閱讀

    使用NVIDIA CUDA-X庫加速科學和工程發展

    NVIDIA GTC 全球 AI 大會上宣布,開發者現在可以通過 CUDA-X 與新一代超級芯片架構的協同,實現 CPU 和 GPU 資源間深度自動化整合與調度,相較于傳統加速計算架構,該技術可使計算工程工具運行速度提升至原來的 11 倍,計算規模增加至 5 倍。
    的頭像 發表于 03-25 15:11 ?1265次閱讀

    Altium Designer 25.4.2版本的新功能

    在原理圖元件的屬性中,新增了對動態(條目級)參數的可見性支持。這些動態參數的值可以在源數據庫 / PLM系統中進行更改,并同步到已放置的工作區庫元件中,而無需創建這些元件的新修訂版本。現在,當在
    的頭像 發表于 03-24 11:34 ?1645次閱讀
    Altium Designer 25.4.2<b class='flag-5'>版本</b>的新<b class='flag-5'>功能</b>

    ABViewer 15.2版本現已發布

    我們的團隊很高興宣布ABViewer 15.2版本現已發布。新版本對軟件的所有主要功能進行了改進。下面您將找到我們所做更改的詳細列表。 PDF轉DWG
    的頭像 發表于 02-11 11:49 ?870次閱讀

    motorBench 2.45.0版本說明

    電子發燒友網站提供《motorBench 2.45.0版本說明.pdf》資料免費下載
    發表于 01-22 16:15 ?0次下載
    motorBench 2.45.0<b class='flag-5'>版本</b>說明

    新思科技LucidShape 2024.09新增功能

    LucidShape的最新版本2024.09帶來了一系列新功能與增強功能,旨在解決光學開發者面臨的最常見和最復雜的挑戰。從微透鏡陣列(MLA)的自動掩模計算,到高級分析功能
    的頭像 發表于 01-21 09:16 ?1010次閱讀
    新思科技LucidShape 2024.09<b class='flag-5'>新增</b><b class='flag-5'>功能</b>