cuBLAS 庫(kù)可提供基本線性代數(shù)子程序(BLAS)的 GPU 加速實(shí)現(xiàn)。cuBLAS 利用針對(duì) NVIDIA GPU 高度優(yōu)化的插入式行業(yè)標(biāo)準(zhǔn) BLAS API,加速 AI 和 HPC 應(yīng)用。cuBLAS 庫(kù)包含用于批量運(yùn)算、跨多個(gè) GPU 的執(zhí)行以及混合精度和低精度執(zhí)行的擴(kuò)展程序。通過(guò)使用 cuBLAS,應(yīng)用將能自動(dòng)從定期性能提升及新的 GPU 體系架構(gòu)中受益。cuBLAS 庫(kù)包含在 NVIDIA HPC SDK 和 CUDA 工具包中。
cuBLAS 多 GPU 擴(kuò)展
cuBLASMg 提供了先進(jìn)的多 GPU 矩陣間乘法,您可在多臺(tái)設(shè)備間以 2D 塊循環(huán)方式分發(fā)每個(gè)矩陣。cuBLASMg 目前已加入 CUDA 數(shù)學(xué)庫(kù)搶先體驗(yàn)計(jì)劃。
cuBLAS 性能
cuBLAS 庫(kù)針對(duì) NVIDIAGPU 上的性能進(jìn)行了高度優(yōu)化,并利用 Tensor Core 對(duì)低精度和混合精度矩陣乘法進(jìn)行加速。



cuBLAS 的主要特性
全面支持 152 個(gè)標(biāo)準(zhǔn) BLAS 例程
支持半精度和整數(shù)矩陣乘法
GEMM 和 GEMM 擴(kuò)展程序針對(duì) Volta 及 Turing Tensor Core 進(jìn)行了優(yōu)化
針對(duì)各種深度學(xué)習(xí)模型中使用的規(guī)模調(diào)整 GEMM 性能
支持用于并發(fā)操作的 CUDA 流
您將能夠使用最基本的 CUDA 工具和技術(shù),加速和優(yōu)化僅適用于 CPU 的 C/C++ 應(yīng)用程序。您將了解 CUDA 開(kāi)發(fā)的迭代風(fēng)格,這將幫助您快速發(fā)布加速應(yīng)用程序。
加速計(jì)算基礎(chǔ)——CUDA Python
您將了解使用 CUDA 和 Numba 編譯器在大規(guī)模并行 GPU 上加速運(yùn)行 Python 應(yīng)用程序的基本工具和技能。
通過(guò) CUDA C++ 在多個(gè) GPU 之間擴(kuò)展工作負(fù)載
您將學(xué)習(xí)如何在單個(gè)節(jié)點(diǎn)上使用多個(gè) GPU,構(gòu)建強(qiáng)大高效的 CUDA C++ 應(yīng)用程序。
通過(guò)并發(fā)流加速 CUDA C++ 應(yīng)用程序
您將在 CUDA C++ 應(yīng)用程序中,學(xué)習(xí)利用 CUDA Streams 進(jìn)行復(fù)制/計(jì)算重疊。
審核編輯:劉清
-
gpu
+關(guān)注
關(guān)注
28文章
5194瀏覽量
135432 -
矩陣
+關(guān)注
關(guān)注
1文章
448瀏覽量
36084 -
HPC
+關(guān)注
關(guān)注
0文章
346瀏覽量
24973
原文標(biāo)題:DevZone | NVIDIA cuBLAS庫(kù)
文章出處:【微信號(hào):NVIDIA-Enterprise,微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
NVIDIA RTX PRO 5000 Blackwell GPU的深度評(píng)測(cè)
NVIDIA RTX PRO 4000 Blackwell GPU性能測(cè)試
在Python中借助NVIDIA CUDA Tile簡(jiǎn)化GPU編程
利用NVIDIA Cosmos開(kāi)放世界基礎(chǔ)模型加速物理AI開(kāi)發(fā)
NVIDIA RTX PRO 2000 Blackwell GPU性能測(cè)試
Cadence 借助 NVIDIA DGX SuperPOD 模型擴(kuò)展數(shù)字孿生平臺(tái)庫(kù),加速 AI 數(shù)據(jù)中心部署與運(yùn)營(yíng)
NVIDIA RTX PRO 4500 Blackwell GPU測(cè)試分析
NVIDIA桌面GPU系列擴(kuò)展新產(chǎn)品
借助NVIDIA技術(shù)加速半導(dǎo)體芯片制造
NVIDIA虛擬GPU 18.0版本的亮點(diǎn)
使用NVIDIA RTX PRO Blackwell系列GPU加速AI開(kāi)發(fā)
使用NVIDIA CUDA-X庫(kù)加速科學(xué)和工程發(fā)展
英偉達(dá)GTC2025亮點(diǎn):Oracle與NVIDIA合作助力企業(yè)加速代理式AI推理
英偉達(dá)GTC25亮點(diǎn):NVIDIA Dynamo開(kāi)源庫(kù)加速并擴(kuò)展AI推理模型
Oracle 與 NVIDIA 合作助力企業(yè)加速代理式 AI 推理
NVIDIA cuBLAS庫(kù)加速BLAS的GPU設(shè)計(jì)實(shí)現(xiàn)
評(píng)論