十年前,AWS(Amazon Web Services)發布了首個采用 NVIDIA M2050 GPU 的實例。當時,基于 CUDA 的應用主要專注于加速科學模擬,AI 和深度學習還遙遙無期。
自那時起,AW 就不斷擴充云端 GPU 實例陣容,包括 K80(p2)、K520(g3)、M60(g4)、V100(p3 / p3dn)和 T4(g4)。
現在,已全面上市的全新 AWS P4d 實例采用最新 NVIDIA A100 Tensor Core GPU,開啟了加速計算的下一個十年。
全新的 P4d 實例,為機器學習訓練和高性能計算應用提供 AWS 上性能與成本效益最高的 GPU 平臺。與默認的 FP32 精度相比,全新實例將 FP16 機器學習模型的訓練時間減少多達 3 倍,將 TF32 機器學習模型的訓練的時間減少多達 6 倍。
這些實例還提供出色的推理性能。NVIDIA A100 GPU 在最近的 MLPerf Inference 基準測試中一騎絕塵,實現了比 CPU 快 237 倍的性能。

每個 P4d 實例均內置八個 NVIDIA A100 GPU,通過 AWS UltraClusters,客戶可以利用 AWS 的 Elastic Fabric Adapter(EFA)和 Amazon FSx 提供的可擴展高性能存儲,按需、可擴展地同時訪問多達 4,000 多個 GPU。P4d 提供 400Gbps 網絡,通過使用 NVLink、NVSwitch、NCCL 和 GPUDirect RDMA 等 NVIDIA 技術,進一步加速深度學習訓練的工作負載。EFA 上的 NVIDIA GPUDirect RDMA 在服務器之間可通過 GPU 傳輸數據,無需通過 CPU 和系統內存,從而確保網絡的低延遲。
此外,許多 AWS 服務都支持 P4d 實例,包括 Amazon Elastic Container Services、Amazon Elastic Kubernetes Service、AWS ParallelCluster 和 Amazon SageMaker。P4d 還可使用所有 NGC 提供的經過優化的容器化軟件,包括 HPC 應用、AI 框架、預訓練模型、Helm 圖表以及 TensorRT 和 Triton Inference Server 等推理軟件。
目前,P4d 實例已在美國東部和西部上市,并將很快擴展到其他地區。用戶可以通過按需實例(On-Demand)、Savings Plans、預留實例(Reserved Instances)或競價型實例(Spot Instances)幾種不同的方式進行購買。
GPU 云計算發展最初的十年,已為市場帶來超過 100 exaflops 的 AI 計算。隨著基于 NVIDIA A100 GPU 的 Amazon EC2 P4d 實例的問世,GPU 云計算的下一個十年將迎來一個美好的開端。
NVIDIA 和 AWS 不斷幫助各種應用突破 AI 的界限,以便了解客戶將如何運用 AI 強大的性能。
編輯:hfy
-
NVIDIA
+關注
關注
14文章
5592瀏覽量
109722 -
gpu
+關注
關注
28文章
5194瀏覽量
135433 -
AI
+關注
關注
91文章
39769瀏覽量
301372 -
機器學習
+關注
關注
66文章
8553瀏覽量
136935 -
AWS
+關注
關注
0文章
444瀏覽量
26559
發布評論請先 登錄
借助NVIDIA CUDA Tile IR后端推進OpenAI Triton的GPU編程
NVIDIA RTX PRO 5000 Blackwell GPU的深度評測
在Python中借助NVIDIA CUDA Tile簡化GPU編程
NVIDIA RTX PRO 2000 Blackwell GPU性能測試
Lambda采用Supermicro NVIDIA Blackwell GPU服務器集群構建人工智能工廠
NVIDIA RTX PRO 4500 Blackwell GPU測試分析
首個采用NVIDIA M2050 GPU的實例 開啟GPU云計算下個十年
評論