NVIDIA 集合通信庫(NCCL)可實現(xiàn)針對 NVIDIA GPU 和網(wǎng)絡(luò)進行性能優(yōu)化的多 GPU 和多節(jié)點通信基元。
關(guān)于 NVIDIA 集合通信庫(NCCL)
NCCL 提供了 all-gather、all-reduce、broadcast、reduce、reduce-scatter、point-to-point send 和 receive 等例程,這些例程均經(jīng)過優(yōu)化,可通過節(jié)點內(nèi)的 PCIe 和 NVLink 高速互聯(lián)以及節(jié)點間的 NVIDIA Mellanox 網(wǎng)絡(luò)實現(xiàn)高帶寬和低延遲。
先進的深度學(xué)習(xí)框架(例如 Caffe2、Chainer、MXNet、PyTorch和 TensorFlow)已集成 NCCL,以在多 GPU 多節(jié)點的系統(tǒng)上加快深度學(xué)習(xí)訓(xùn)練速度。

便捷性能
使用 NCCL,開發(fā)者無需針對特定機器優(yōu)化其應(yīng)用,因而更加便捷。NCCL 可在節(jié)點內(nèi)和節(jié)點間實現(xiàn)多個 GPU 的快速集合。
簡化編程
NCCL 使用可從多種編程語言輕松訪問的簡單 C API,且嚴格遵循 MPI(消息傳遞接口)定義的主流集合 API。
兼容性
NCCL 幾乎可與任何多 GPU 并行模型兼容,例如:單線程、多線程(每個 GPU 使用一個線程)和多進程模型(MPI 與 GPU 上的多線程操作相結(jié)合)。
主要特性
對 AMD、Arm、PCI Gen4 和 IB HDR 上的高帶寬路徑進行自動拓撲檢測
憑借利用 SHARPV2 的網(wǎng)絡(luò)內(nèi) all reduce 操作,將峰值帶寬提升 2 倍
通過圖形搜索,找到更佳的高帶寬、低延遲的環(huán)和樹集合
支持多線程和多進程應(yīng)用
InfiniBand verbs、libfabric、RoCE 和 IP Socket 節(jié)點間通信
使用 Infiniband 動態(tài)路由重新路由流量,緩解端口擁塞
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5592瀏覽量
109721 -
gpu
+關(guān)注
關(guān)注
28文章
5194瀏覽量
135431 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5598瀏覽量
124396
原文標題:DevZone | NVIDIA集合通信庫(NCCL)
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
機器學(xué)習(xí)和深度學(xué)習(xí)中需避免的 7 個常見錯誤與局限性
穿孔機頂頭檢測儀 機器視覺深度學(xué)習(xí)
【團購】獨家全套珍藏!龍哥LabVIEW視覺深度學(xué)習(xí)實戰(zhàn)課(11大系列課程,共5000+分鐘)
【團購】獨家全套珍藏!龍哥LabVIEW視覺深度學(xué)習(xí)實戰(zhàn)課程(11大系列課程,共5000+分鐘)
借助NVIDIA Megatron-Core大模型訓(xùn)練框架提高顯存使用效率
NVIDIA Isaac Lab多GPU多節(jié)點訓(xùn)練指南
如何在機器視覺中部署深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)
??FourCastNet 3實現(xiàn)快速精準的大型集合天氣預(yù)報
NVIDIA Isaac Lab可用環(huán)境與強化學(xué)習(xí)腳本使用指南
如何破解GPU集群集合通信路徑的“黑盒”難題?
NVIDIA NVLink 深度解析
借助OpenUSD與合成數(shù)據(jù)推動人形機器人發(fā)展
使用NVIDIA CUDA-X庫加速科學(xué)和工程發(fā)展
用樹莓派搞深度學(xué)習(xí)?TensorFlow啟動!
NVIDIA 集合通信庫加快深度學(xué)習(xí)訓(xùn)練速度
評論