Blackwell 完成的每一項測試,都為各項 AI 應用樹立了訓練性能新標桿。
對于使用文本、計算機代碼、蛋白質鏈、摘要、視頻甚至 3D 圖形的生成式 AI 應用,它們需要數據中心規模的加速計算來高效地訓練其背后的大語言模型(LLM)。
在 MLPerf Training 4.1 行業基準測試中,NVIDIA Blackwell 平臺在所有參與測試的工作負載上都取得了令人贊嘆的測試結果。在 LLM 基準測試中,每塊 GPU 的性能提高了 2.2 倍,其中包括 Llama 2 70B 微調和 GPT-3 175B 預訓練。
此外,NVIDIA 提交的 NVIDIA Hopper 平臺測試結果繼續在所有基準測試上保持了規模級的記錄,包括使用 11,616 塊 Hopper GPU 進行的 GPT-3 175B 基準測試。
Blackwell 帶來性能躍升
這是 NVIDIA 首次向 MLCommons 聯盟提交 Blackwell 的訓練測試結果,其結果突顯了該架構是如何提高生成式 AI 訓練性能的。MLCommons 聯盟為業內公司創建了標準化、公正且經過嚴格的同行評審的測試。
例如,Blackwell 架構包括新的核函數,它們可以更高效地使用 Tensor Core。這些核函數執行優化的專用數學運算,例如矩陣乘,是許多深度學習算法的主要計算。
Blackwell 擁有更高的每塊 GPU 計算吞吐量以及更大、更快的高帶寬內存,使其能夠在更少的 GPU 上運行 GPT-3 175B 基準測試,同時實現出色的每塊 GPU 性能。
通過利用容量更大、帶寬更高的 HBM3e 內存,僅僅 64 塊 Blackwell GPU 就能夠運行 GPT-3 LLM 基準測試,并且不損失每塊 GPU 性能。使用 Hopper 進行相同的基準測試時則需要 256 塊 GPU。
在提交 Blackwell 的訓練測試結果之前,NVIDIA 還提交了 MLPerf Inference 4.1 推理測試結果。在該測試中,Blackwell 的 LLM 推理性能比 Hopper 高出 4 倍。測試結果顯示,通過利用 Blackwell 架構的 FP4 精度以及 NVIDIA QUASAR 量化系統,Blackwell 在滿足基準測試的精度要求的同時展現出了強大的性能。
持續優化
經過持續的軟件開發,NVIDIA 平臺在各種框架、模型和應用的訓練和推理方面獲得了性能提升和功能改進。
在本輪提交的 MLPerf 訓練測試結果中,當使用 GPT-3 175B 進行訓練時,Hopper 的每塊 GPU 訓練性能比上次提交該基準測試時提高了 1.3 倍。
NVIDIA 還提交了 GPT-3 175B 基準測試的大規模測試結果,該測試使用了 11,616 塊 Hopper GPU,這些 GPU 通過 NVIDIA NVLink 和 NVSwitch 高帶寬 GPU 間通信以及 NVIDIA Quantum-2 InfiniBand 網絡連接在一起。
自去年以來,NVIDIA Hopper GPU 在 GPT-3 175B 基準測試中的規模和性能提升了三倍多。此外,在 Llama 2 70B LoRA 微調基準測試中,NVIDIA 在使用相同數量的 Hopper GPU 的情況下將性能提高了 26%,這體現了軟件方面的持續優化。
NVIDIA 持續優化加速計算平臺的努力,使其 MLPerf 測試結果得以不斷提升——提高了容器化軟件的性能,為使用現有平臺的合作伙伴和客戶帶來更強大的算力,并讓他們從平臺投資中獲得更高的回報。
攜手合作
NVIDIA 的合作伙伴——包括華碩、Azure、思科、戴爾、富士通、Giga Computing、Lambda Labs、聯想、Oracle Cloud、云達科技和超微等系統制造商和云服務提供商——也在最新一輪 MLPerf 測試中提交了令人印象深刻的測試結果。
作為 MLCommons 的創始成員,NVIDIA 認為,行業標準的基準測試和基準測試最佳實踐對于 AI 計算而言至關重要。通過獲取經過同行評審、精簡的 AI 和 HPC 各個平臺的對比信息,企業可以跟上最新的 AI 計算創新步伐,并獲得有助于指導其重大平臺投資決策的關鍵數據。
-
NVIDIA
+關注
關注
14文章
5592瀏覽量
109713 -
gpu
+關注
關注
28文章
5194瀏覽量
135425 -
計算機
+關注
關注
19文章
7806瀏覽量
93188 -
LLM
+關注
關注
1文章
346瀏覽量
1329
原文標題:巔峰的訓練性能:Blackwell 在 MLPerf 測試中將訓練性能帶到新高度
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
NVIDIA DGX SuperPOD為Rubin平臺橫向擴展提供藍圖
NVIDIA RTX PRO 5000 Blackwell GPU的深度評測
NVIDIA RTX PRO 4000 Blackwell GPU性能測試
NVIDIA RTX PRO 5000 72GB Blackwell GPU現已全面上市
NVIDIA擴大與微軟合作推動AI超級工廠建設
NVIDIA RTX PRO 2000 Blackwell GPU性能測試
通過NVIDIA Jetson AGX Thor實現7倍生成式AI性能
NVIDIA RTX PRO 4500 Blackwell GPU測試分析
基于 NVIDIA Blackwell 的 Jetson Thor 現已發售,加速通用機器人時代的到來
OpenAI與NVIDIA共同開發全新開放模型
NVIDIA Blackwell GPU優化DeepSeek-R1性能 打破DeepSeek-R1在最小延遲場景中的性能紀錄
NVIDIA Blackwell平臺帶來性能躍升
評論