我們非常自豪地宣布,AI 基礎(chǔ)設(shè)施性能達成了一項重大里程碑:通過使用 NVIDIA SCADA 編程模型、美光 9650 PCIe 6.0 SSD、Broadcom PEX90000 PCIe 6.0 交換機及 H3 平臺 Falcon 6048 PCIe 6.0 服務(wù)器,我們實現(xiàn)了高達 2.3 億 IOPS 的性能。
規(guī)模化加速數(shù)據(jù)訪問(SCADA) 是一種安全的編程模型和技術(shù)堆棧,最早在BaM 系統(tǒng)架構(gòu)中的 GPU 主動按需高吞吐量存儲訪問技術(shù)中采用。這是存儲生態(tài)系統(tǒng)中的一項重大舉措,由 NVIDIA、美光等公司攜手開發(fā),旨在定義并實現(xiàn)一種新的基礎(chǔ)設(shè)施,以訪問遠超本地內(nèi)存限制的海量數(shù)據(jù)集。SCADA 直接使用 NVMe 設(shè)備來執(zhí)行加載/存儲操作,防止出現(xiàn)內(nèi)存不足錯誤。此外,通過將存儲控制轉(zhuǎn)移到受信任的 DPU 上,SCADA 可持續(xù)保持高性能,并保護共享數(shù)據(jù)免受不安全計算節(jié)點的影響。
這一成果展示了 GPU 驅(qū)動的存儲編排技術(shù)、下一代互連設(shè)備及業(yè)界速度頂尖的 SSD 結(jié)合時,所迸發(fā)出的強大性能。
美光 9650:全球速度頂尖的 SSD
美光 9650 SSD的重要意義不僅在于超高的原生性能,更在于通過速度、能效及互操作性之間的平衡,賦能下一代 AI 和高性能計算工作負(fù)載。作為全球首款 PCIe 6.0 SSD(美光在 2025 年 FMS 大會上率先宣布推出支持 AI 革命的 SSD 組合),美光 9650 實現(xiàn)了創(chuàng)紀(jì)錄的吞吐量和 IOPS,同時支持廣泛的生態(tài)系統(tǒng)集成。過去兩年,美光與 PCIe 6.0 領(lǐng)域的合作伙伴密切合作,進行了大量互操作性測試,為今年的廣泛采用奠定了基礎(chǔ)。美光 9650 采用 PCIe 6.0 架構(gòu),并針對小數(shù)據(jù)塊操作進行了優(yōu)化,專為 NVIDIA SCADA 等 GPU 驅(qū)動環(huán)境而構(gòu)建。
NVIDIA SCADA 可提升吞吐量以大規(guī)模加速 AI 工作負(fù)載
SCADA 代表了 NVIDIA 對于 GPU 驅(qū)動存儲系統(tǒng)操作的構(gòu)想。通過在 GPU 和存儲設(shè)備之間建立直接連接,SCADA 可繞過傳統(tǒng)的 CPU 堵塞點,加速數(shù)據(jù)在 GPU 和存儲設(shè)備之間的傳輸。SCADA 是 NVIDIA 多年研究和工程開發(fā)的成果,旨在使 GPU 能夠直接編排 NVMe 事務(wù),為小塊數(shù)據(jù)操作提供前所未有的吞吐量和 IOPS。此類操作對于圖神經(jīng)網(wǎng)絡(luò)(用于藥物發(fā)現(xiàn)、社交網(wǎng)絡(luò)、知識圖譜等)等 AI 工作負(fù)載的大規(guī)模加速至關(guān)重要。
Broadcom 和 H3:業(yè)界前沿服務(wù)器平臺
NVIDIA GPU 依靠 H3 Falcon 6048 PCIe 6.0 服務(wù)器實現(xiàn)對存儲系統(tǒng)的編排。服務(wù)器集成了多臺 Broadcom 的 PEX90000 PCIe 6.0 交換機。這些 PCIe 6.0 交換機可提供超低延遲、高帶寬,以及足夠的端口密度,實現(xiàn)了強大的可擴展性,能夠滿足 GPU 與 NVMe 設(shè)備之間的無縫互聯(lián)需求。
這些 PCIe 6.0 交換機部署在基于 H3 平臺的 Falcon 6048 服務(wù)器中,從而將加速器和存儲設(shè)備整合到一個針對 PCIe 6.0 優(yōu)化的單一架構(gòu)中。該系統(tǒng)支持安裝 44 塊 E1.S 規(guī)格美光 9650 SSD,每塊 SSD 通過一個 PCIe 6.0 x4 接口連接到系統(tǒng)。H3 平臺支持高級遙測和診斷功能,簡化了大規(guī)模 AI 架構(gòu)的管理。此外,該平臺還與各種 CPU、GPU、SSD(特別是美光 9650)、網(wǎng)卡和重定時器進行了大量互操作性測試,確保這些硬件能夠可靠無憂地部署到平臺上。
現(xiàn)場演示:2.3 億 IOPS是如何實現(xiàn)的
我們在 SC25 大會上的演示,不僅是相關(guān)硬件性能的證明,更是系統(tǒng)架構(gòu)發(fā)展中的一個里程碑。我們使用了一臺基于 H3 平臺打造的 Falcon 6048 服務(wù)器,配置如下:
44 塊美光 9650 PCIe 6.0 SSD (E1.S,7.68TB)
3 塊 NVIDIA H100 PCIe 5.0 GPU(搭載 NVL 96GB HBM3)
1 塊英特爾 PCIe 5.0 CPU
3 臺 Broadcom PEX90000 PCIe 6.0 系列交換機(每臺 144 個通道)

通過運行 SOL 基準(zhǔn)測試中的 SCADA 工作負(fù)載,我們實現(xiàn)了高達 2.3 億 IOPS 的 512B 隨機讀取性能。該基準(zhǔn)測試旨在衡量從一組 SSD 中訪問數(shù)據(jù)時,GPU 線程所能實現(xiàn)的隨機讀取性能 (IOPS)。測試數(shù)據(jù)表明,當(dāng)從 1 塊 SSD 逐步增加到 44 塊 SSD 時,該系統(tǒng)具備線性擴展能力。測試證明,GPU 驅(qū)動的 I/O 與 PCIe 6.0 基礎(chǔ)設(shè)施相結(jié)合,可實現(xiàn)巨大的價值。
隨后我們調(diào)整了 SOL 基準(zhǔn)測試,同時運行三個實例,隨機訪問 44 塊 SSD,進行 256 次迭代(每個隊列對的 I/O * 512),使用 8 個隊列對,以獲得最佳性能。
為何新架構(gòu)對 AI 和高性能計算至關(guān)重要?
隨著 AI 模型日益復(fù)雜,推理過程使用的數(shù)據(jù)量持續(xù)增加,存儲可能會成為整個系統(tǒng)的瓶頸。SCADA 顛覆了傳統(tǒng)模式,讓 GPU 直接通過存儲設(shè)備驅(qū)動 I/O,從而降低了延遲,并最大限度提高了帶寬利用率。在 PCIe 6.0 和高性能 SSD 的支持下,這種新架構(gòu)能夠為向量數(shù)據(jù)庫、圖神經(jīng)網(wǎng)絡(luò)和大規(guī)模推理管線等工作負(fù)載提供實時訪問海量數(shù)據(jù)的能力。
本文作者
Ryan Meredith數(shù)據(jù)中心工作負(fù)載工程總監(jiān)
-
服務(wù)器
+關(guān)注
關(guān)注
14文章
10251瀏覽量
91477 -
AI
+關(guān)注
關(guān)注
91文章
39754瀏覽量
301342 -
美光科技
+關(guān)注
關(guān)注
1文章
225瀏覽量
24383
原文標(biāo)題:SC25大會上的性能突破演示:單臺服務(wù)器性能高達230M IOPS
文章出處:【微信號:gh_195c6bf0b140,微信公眾號:Micron美光科技】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
深入剖析LMG2656:650V 230mΩ GaN半橋的卓越性能與應(yīng)用
【服務(wù)器數(shù)據(jù)恢復(fù)】服務(wù)器“泡水”硬盤掉線,數(shù)據(jù)竟這樣恢復(fù)
光伏策略控制服務(wù)器關(guān)鍵性能指標(biāo):入門必懂的核心參數(shù)
美光公司退出中國服務(wù)器芯片市場!
服務(wù)器數(shù)據(jù)恢復(fù)—RAIDZ多塊硬盤離線導(dǎo)致服務(wù)器崩潰的數(shù)據(jù)恢復(fù)案例
服務(wù)器數(shù)據(jù)恢復(fù)—服務(wù)器上的卷被誤刪數(shù)據(jù)如何恢復(fù)?
LMG2656 650V、230mΩ GaN 半橋,集成驅(qū)動器、保護和電流檢測數(shù)據(jù)手冊
服務(wù)器數(shù)據(jù)恢復(fù)—硬盤離線導(dǎo)致raid上層的卷無法掛載的數(shù)據(jù)恢復(fù)案例
K230開發(fā)板如何用Micropython把視頻推流到遠程RTSP服務(wù)器?
雙路服務(wù)器和單路服務(wù)器區(qū)別有多大?用實際應(yīng)用場景對比一文講透
戴爾PowerEdge R770服務(wù)器的性能測試
新版兆芯服務(wù)器應(yīng)用解決方案發(fā)布
美光科技實現(xiàn)單臺服務(wù)器性能高達230M IOPS
評論