隨著AI大模型進入萬億參數時代,傳統存儲性能測試已難以真實反映存儲系統在實際訓練場景中對成本與效率的核心影響。為此,全球權威AI基準測評組織MLCommons正式推出MLPerf Storage基準測試套件,為行業建立起一套貼合實際、具有指導意義的權威評估框架。
區別于傳統存儲性能測試,MLPerf Storage基準的核心價值在于直接評估存儲系統能否支撐GPU集群達到并維持高利用率——這直接決定了整體訓練耗時與算力資源成本。該基準在v2.0版本中進一步引入Checkpoint工作負載,精準模擬大模型訓練中的容災恢復環節,使評測更貼近前沿場景的實際需求。
為評估憶聯Gen5 eSSD UH812a在AI場景中的性能表現,本次測試基于MLPerf Storage v2.0默認參數展開,并特別針對對數據供給要求更高的NVIDIA H100加速器進行模擬驗證,以檢驗存儲系統能否充分適配新一代算力平臺的性能需求。此次測試覆蓋了MLPerf Storage v2.0包含的全部訓練負載,包括U-Net 3D、ResNet50、CosmoFlow和Checkpoint。
結果顯示,在四項訓練模型中,UH812a的 GPU利用率均超過基準要求,表現出強勁的性能;同時在可支持的加速器數量上亦領先于行業同類產品,有力驗證了其在高負載AI訓練場景下可提供穩定且高性能的存儲支持。
01測試環境
| 部件 | 配置信息 | |
| CPU |
Intel(R) Xeon(R) Gold 6430 CPU @ 2.1GHz*2 |
|
| 內存 | 512 GB | |
| 存儲 |
系統盤: Union Memory SATA 2*480 GB 數據盤: Union Memory UH812a 7.68 TB |
|
| Linux內核版本 | Linux 6.17.4-1.el8.elrepo.x86_64 | |
| 性能測試軟件 | MLPerf Storage v2.0 | |
02測試結果
U-Net 3D訓練場景
該場景模擬醫療影像等大體積3D數據的訓練過程,要求存儲系統持續為多個并發GPU客戶端提供大型數據文件,旨在測試存儲的極限順序讀寫帶寬,確保GPU不會因數據供給不足而出現空閑等待。
在U-Net3D場景負載下,我們共使用了42000個文件進行訓練,模擬了1到5顆GPU的訓練過程。如圖1所示,UH812a在模擬5顆H100 GPU的負載下,實現了14566.46 MB/s的最高吞吐量,接近標稱讀帶寬(14900 MB/s),此時GPU利用率(AU)高達96%,遠高于基準所要求的90%以上水平。通過圖1也可看見,UH812a的性能隨著GPU數量增加而線性提升,且GPU利用率僅出現微弱波動,證明其在多客戶端高并發訪問場景下仍能持續提供穩定、高帶寬的數據流。

◎圖1:UH812a在不同數量H100環境下的性能測試結果
此外,在該場景測試中,UH812a可支持高達5顆H100加速器,優于對比競品(僅支持4顆),凸顯了其在大體積3D數據訓練負載下更強的并發處理能力與性能優勢。

◎圖2:UH812a與競品可支持的H100數量對比
ResNet50訓練場景
此場景模擬常規圖像分類模型的訓練流程,要求存儲系統能夠應對海量GPU客戶端的高并發、隨機讀取需求,處理大量小型圖片文件,從而充分考驗存儲系統的高IOPS和低延遲元數據處理能力。
在ResNet-50場景測試中,我們使用了19163個文件進行訓練,模擬了10至78顆GPU的訓練過程。如圖3所示,在模擬78顆H100 GPU的負載下,UH812a實現了14008.66 MB/s的最大吞吐量,GPU利用率穩定在92.2%,同樣超過基準要求(AU>90%),體現出其能夠為復雜訓練任務持續提供充足的存儲性能支持。

◎圖3:UH812a在不同數量H100環境下的性能測試結果
另外,在此場景測試中,UH812a可支持高達78顆H100加速器同時高效工作,顯著領先于競品(分別為65顆和64顆)。這一優勢表明,UH812a具備支撐更大規模AI訓練集群的潛力,能為極致擴展的模型訓練任務提供穩定可靠的數據供給基礎。

◎圖4:UH812a與競品可支持的H100數量對比
CosmoFlow訓練場景
該場景主要模擬氣候、宇宙學等科學計算中的大規模訓練任務,要求存儲系統能夠支持從8個到數千個客戶端的GPU集群擴展,同時高效讀取海量中等尺寸文件。其核心挑戰在于存儲系統的可擴展性與延遲穩定性——任何局部的訪問延遲都可能拖慢整個分布式訓練作業,因此對存儲系統的并發處理與響應一致性要求更高。
在CosmoFlow場景的實際驗證中,我們累計使用了971819個文件進行訓練,并模擬了1至26顆GPU的訓練過程。如圖5所示,當加速器數量達到23顆及以上時,UH812a的吞吐量穩定維持在約14000MB/s,同時GPU利用率始終高于基準要求(AU>70%),展現出卓越的系統可擴展性與持續穩定的高并發數據供給能力。

◎圖5:UH812a在不同數量H100環境下的性能測試結果
此外,在這一場景下,UH812a可支持26顆H100加速器,相比于競品(支持21顆和16顆),支持GPU數量更多,可為高負載場景提供穩定可靠的存儲。

◎圖6:UH812a與競品可支持的H100數量對比
Checkpoint訓練場景
此場景模擬大模型訓練中保存和恢復訓練狀態的關鍵操作,要求所有GPU同時將完整的模型狀態(參數、優化器等,規模可達數TB)順序寫入存儲,再快速讀取。該過程是對存儲系統高并發順序讀寫帶寬的終極考驗,其性能直接決定了訓練任務因中斷而損失的時間。
在Checkpoint場景的實測中,受限于時間等因素,我們以Llama3-8b為模型進行了寫入測試,圖7實測結果顯示,UH812a的帶寬達到13053.4 MB/s,較競品A提升24%,較競品B提升11%,可為用戶提供高性能的讀寫體驗。

◎圖7:Llama3-8b模型下UH812a與競品表現對比
MLPerf Storage v2.0的測試結果表明,UH812a能夠充分滿足前沿AI場景對存儲系統的嚴苛性能需求,尤其在數據供給能力和穩定性方面展現出顯著優勢,性能領先于業界同類產品。這不僅印證了其在加速AI工作負載方面的卓越能力,也體現了其作為智能算力底座關鍵一環的核心價值。
未來,憶聯將繼續聚焦AI存儲技術創新與產品研發,致力于通過更高性能、更可靠的存儲解決方案,持續賦能智能算力基礎設施建設,與產業伙伴共同推動人工智能技術的規模化落地與持續演進。
-
存儲
+關注
關注
13文章
4775瀏覽量
90003 -
gpu
+關注
關注
28文章
5177瀏覽量
135247 -
算力
+關注
關注
2文章
1511瀏覽量
16703 -
大模型
+關注
關注
2文章
3621瀏覽量
5141
原文標題:憶聯UH812a以MLPerf Storage標桿級驗證,重塑AI存儲效能,奠定智能算力基石
文章出處:【微信號:UnionMemory憶聯,微信公眾號:UnionMemory憶聯】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
正面對決A19 Pro,驍龍8 Elite Gen5殺瘋了,誰是2025手機真旗艦SoC?
探索RC192xx:PCIe Gen5/6 2 - 輸入時鐘復用器家族的卓越性能
深入解析RC190xx:PCIe Gen5/6高性能扇出緩沖器家族
PCIe Gen5/Gen6 信號傳輸可以用極細同軸線束嗎?
憶聯PCIe 5.0企業級固態硬盤UH812a評測
英特爾Benchmark驗證!憶聯UH812a問鼎PCIe Gen5企業級存儲性能巔峰
憶聯攜手新華三 SPEC基準測試再創新高,樹立企業級存儲領域新標桿
憶聯UH812a獲英特爾BKC與PCIe鏈路雙認證,賦能企業級存儲解決方案
憶聯PCIe5.0 SSD以軟硬協同的高可靠性,支撐大模型全流程訓練
憶聯PCIe 5.0 SSD支撐大模型全流程訓練
如何評估憶聯Gen5 eSSD UH812a在AI場景中的性能表現
評論