NVIDIA CUDA 13.1 是自 CUDA 二十年前發明以來,規模最大、內容最全面的一次更新。
最新的版本包含一系列新功能與改進,旨在提升性能并推動加速計算,主要包括:
推出NVIDIA CUDA Tile:它是基于 tile 的全新編程模型,對包括 Tensor Cores 在內的專用硬件做了抽象
暴露了綠色上下文運行時的 API
在 NVIDIA cuBLAS 中實現雙精度與單精度仿真功能
全新編寫的CUDA 編程指南,面向 CUDA 初學者到資深開發者
CUDA Tile 編程
為了幫助開發者開發適配當前及未來的 GPU 開發軟件,NVIDIA CUDA 13.1 推出了CUDA Tile。該編程模型允許開發者在 SIMT 編程模型之上更高層級編寫 GPU 內核。在 SIMT 編程中,開發者實現一個內核需要手動劃分數據,并為每個線程指定執行路徑。而在 CUDA Tile 編程中,你可以用更高的抽象層級實現內核,直接對稱為“Tile”的數據塊指定執行路徑:只需指定要在這些 Tile 上執行的數學運算,編譯器和運行時會自動決定如何將任務最優地分配給各個線程。這種 Tile 編程模型隱藏了 Tensor Cores 等專用硬件的具體細節,使 Tile 代碼能夠兼容未來的 GPU 架構。
CUDA 13.1 發布了 Tile 編程的兩大組件
CUDA Tile IR:用于 NVIDIA GPU 編程的全新虛擬指令集架構(ISA)。
cuTile Python:全新領域特定的編程語言(DSL),用于在 Python 中編寫基于數組和 Tile 的內核。
如需了解更多關于 CUDA Tile IR 與cuTile Python的信息,請查看相關詳細介紹。
CUDA軟件更新
本次 CUDA 版本還包括以下重要軟件更新。
運行時暴露綠色上下文
CUDA 中的綠色上下文是傳統 CUDA 上下文的一種輕量級替代方案,旨在為開發者提供一種對 GPU 進行更細顆粒度的空間劃分和資源分配的機制。自 CUDA 12.4 起,該功能可在驅動 API 中使用;而從本版本開始,綠色上下文也正式支持運行時 API。
綠色上下文使用戶可以定義并管理 GPU 資源(主要是 Streaming Multiprocessors,SMs)的不同分區,并將特定的 SM 集合分配給某個上下文。隨后,在該綠色上下文該所擁有的資源范圍內啟動中 CUDA 內核并管理 CUDA 流。一個典型應用場景是:當應用程序包含對延遲敏感的代碼,且其優先級高于所有其他 GPU 任務時,可以將一部分 SM 資源分配給一個專用于此代碼的綠色上下文,其余 SM 分配給處理其他任務的另一個綠色上下文,即可確保關鍵計算始終擁有可用的 SM 資源。
CUDA 13.1 還引入了可定制程度更高的 split() API。開發者可以構建此前需要多次 API 調用才能完成的 SM 分區,并能夠配置工作隊列,以減少在不同綠色上下文中提交任務時可能產生的偽依賴。
有關這些功能及綠色上下文運行時的更多信息,請參閱CUDA Programming Guide。
CUDA 多進程服務(MPS)更新
CUDA 13.1 為多進程服務新增了多項功能特性。有關這些新功能的完整信息,請參閱MPS 文檔。其中的重點內容包括:內存局部性優化分區、靜態流多處理器分區、cuBLAS 中的雙精度與單精度仿真。
開發者工具
開發者工具是 CUDA 平臺至關重要的一環,本次發布帶來了多項創新與功能優化。
CUDA Tile 內核性能分析工具
NVIDIA Nsight Compute 2025.4 現可對 CUDA Tile 內核進行性能分析。相關更新包括:在摘要頁面新增“結果類型”列,用于區分內核屬于 Tile 還是 SIMT 類型;詳情頁面新增“Tile 統計信息”區域,匯總 Tile 維度及關鍵流程的利用率情況;源頁面也支持將性能指標映射到高級別的 cuTile 內核源代碼。此外,本次 Nsight Compute 版本還新增了兩項功能:支持對設備端啟動的 CUDA 圖節點進行性能分析;同時改進了源頁面導航,現在無論是編譯器生成的標簽還是用戶自定義的標簽,都支持以可點擊鏈接的形式快速跳轉。
編譯時修補
NVIDIA Compute Sanitizer 2025.4 現可通過編譯器標志 -fdevice-sanitize=memcheck 對 NVIDIA CUDA 編譯器進行編譯時修補。此功能增強了內存錯誤檢測能力并提升了 Compute Sanitizer 的運行性能。編譯時插樁可將錯誤檢測直接集成到 NVCC 中,這樣不僅運行速度更快,還能通過先進的基址-邊界分析捕捉到更隱蔽的如相鄰分配非法訪問的內存問題。這意味著開發者可以在不犧牲調試速度的前提下,排查內存問題,運行更多測試,從而保持開發效率。目前,該功能僅支持 memcheck。有關編譯時插樁的完整信息,請參閱 compute-sanitizer文檔。
NVIDIA Nsight Systems
NVIDIA Nsight Systems 2025.6.1 與 CUDA Toolkit 13.1 同步發布,新增多項剖析功能,主要包括:
系統級 CUDA 剖析:新增 -cuda-trace-scope 參數,支持跨進程樹或整個系統進行剖析。
CUDA 主機函數剖析:支持剖析 CUDA Graph 主機函數節點及 cudaLaunchHostFunc();該函數在主機端執行,并會阻塞所在流。
綠色上下文時間軸:現在其提示信息會顯示 SM 分配情況,幫助用戶了解 GPU 資源利用率。
數學函數庫
本次核心 CUDA 工具包的數學函數庫引入了多項新功能,主要包括:NVIDIA cuBLAS、NVIDIA cuSPARSE、NVIDIA cuFFT。
NVIDIA CUDA 核心計算庫
NVIDIA CUDA 核心計算庫(CCCL)為CUB庫帶來了多項創新與增強:
確定性浮點數縮減:作為 CUDA 13.1 一部分, NVIDIA CCCL 3.1 提供了兩種額外的浮點確定性選項,以便在確定性和性能之間進行權衡:
Not-guaranteed:使用原子操作進行單輪歸約。此選項不保證為多次運行提供位級相同的結果。
GPU-to-GPU:基于 Kate Clark 在 NVIDIAGTC 2024演講中提出的可復現歸約算法。其結果始終是位級相同的。
更便捷的單階段CUB API:CCCL 3.1 為部分 CUB 算法新增了重載函數,它們可以直接接受內存資源參數,從而省去查詢、分配、釋放臨時存儲的步驟。
了解更多
CUDA 13.1 帶來了眾多新功能,并開啟了以 CUDA Tile 為核心的GPU 編程新時代,了解更多關于 CUDA 13.1 的更新。
歡迎探索CUDA Tile相關資源,下載CUDA Toolkit 13.1,立即開始體驗。
關于作者 —
Jonathan Bentz
領導 NVIDIA 的 CUDA 技術營銷工程團隊,其團隊專注于創建和提供引人入勝的內容,并與 CUDA 開發者建立聯系。Jonathan 擁有愛荷華州立大學化學博士學位和計算機科學碩士學位。
Tony Scudiero
是 CUDA 平臺的技術營銷工程師。他致力于將 CUDA 帶給各種類型和能力的開發者。在 NVIDIA 任職期間,他曾使用過大型 HPC 系統和應用、實時聲學模擬 (VRWorks Audio) 和 Omniverse RTX 渲染器。
-
NVIDIA
+關注
關注
14文章
5513瀏覽量
109200 -
gpu
+關注
關注
28文章
5118瀏覽量
134556 -
編程語言
+關注
關注
10文章
1960瀏覽量
39095 -
CUDA
+關注
關注
0文章
126瀏覽量
14413
原文標題:NVIDIA CUDA 13.1 引入 NVIDIA CUDA Tile 等新功能,為下一代 GPU 編程提供更強動力
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
AMD Vivado Design Suite 2025.2版本現已發布
開鴻Bot系列大版本更新:體驗穩定升級,樂享高效協同!
NVIDIA RAPIDS 25.06版本新增多項功能
NVIDIA DOCA 3.0版本的亮點解析
【文章轉載】CANoe產品體系19版本新功能(下) - 基礎功能與XIL測試
CANoe產品體系19版本新特性及新增Option(上)
借助NVIDIA技術加速半導體芯片制造
NVIDIA虛擬GPU 18.0版本的亮點
使用NVIDIA CUDA-X庫加速科學和工程發展
Altium Designer 25.4.2版本的新功能
ABViewer 15.2版本現已發布
新思科技LucidShape 2024.09新增功能

NVIDIA CUDA 13.1版本的新增功能與改進
評論