當AI大模型參數規模邁入萬億級別,萬卡級超集群已成為前沿AI研發與應用的核心載體。然而澎湃算力的背后,數據存算速度正成為關鍵瓶頸,存力的性能、擴展性與協同效率,將直接決定算力價值的最終釋放。
面對萬億參數模型訓練與推理需求,存力既要滿足數十TB/s、億級IOPS、亞ms級延遲的極致性能,更要實現存算深度協同。曙光存儲以“存算網強協同”為核心思路,憑借超級隧道、AI數據工廠兩大核心技術與全棧產品矩陣,推動從“存數據”向“喂數據”的存力范式革新。
超級隧道:極致性能的數據加速引擎
超級隧道技術是基于微控架構實現的端到端數據通路,通過零中斷(擺脫OS干擾,時延極致穩定)、零競爭(資源隔離高效,并發無內耗)、零拷貝(數據直達目標,傳輸效率倍增),實現極低時延與超高并發,適配AI超集群等高密度計算場景的需求。
該技術采用芯片、系統、AI應用三級協同設計,突破架構壁壘,讓數據傳輸路徑更短、效率更高。
芯片級:實現處理器、內存、高速網絡與NVMe SSD的深度協同,打造多條數據直達通路;
系統級:通過均衡調度,將前端I/O精準分配至最優路徑,避免資源浪費;
應用級:借助Burst Buffer與XDS技術,讓數據直供GPU近側存儲,減少GPU空轉,提升算力利用率。
基于三級協同,超級隧道技術可將2U24盤位NVMe全閃節點帶寬提升5.5倍,萬億參數模型Checkpoint從分鐘級縮至秒級;推理延遲降低76%,計算節點存儲訪問帶寬提升4倍。針對AI場景更實現推理時延降低80%、訓練速度提升4倍,萬億參數模型訓練周期縮短60%以上。
超級隧道尤其匹配AI應用場景,可使推理時延降低80%,訓練速度提升4倍,萬億參數模型訓練周期壓縮60%以上。
AI數據工廠:全流程AI加速中樞
AI數據工廠打破存力與算力的物理邊界,通過AI應用親和、AI數據加速兩大核心能力,讓存力平臺深度融入AI全業務流程,真正做到“以存代算、以存促算”,實現AI應用全流程加速。
AI應用親和通過KV Cache offload、多層數據分級等技術,針對性優化推理環節,大幅提升用戶使用體驗;AI數據加速則在全球統一命名空間技術基礎上,整合多類型存儲資源,配合向量數據庫優化、AI算子加速庫,實現高價值私域數據的token化自動生成,讓推理應用更專業、更精準。
從數據清洗標注到模型訓練、推理部署,AI數據工廠以更懂AI的存儲能力,打通數據流轉全鏈路,解決AI訓練中的“數據饑餓”問題,讓每一份數據都能高效轉化為算力產出。
產品矩陣:精準匹配算力需求
依托全棧自研技術與全國產芯片生態,曙光存儲打造了覆蓋集中式全閃、分布式全閃與混閃的完整產品矩陣,以極致性能和高可靠性,精準匹配智算集群發展過程中的多樣化需求。
ParaStor F9000分布式全閃:以刷新世界紀錄146%的成績登頂IO500 10節點榜單,220GB/s單節點帶寬、800萬IOPS,可為十萬卡集群提供數十TB/s訪問帶寬,是大規模智算集群性能核心。
FlashNexus集中式全閃:在被譽為“存儲界奧斯卡”的SPC-1測試中,以3000萬IOPS、0.202ms時延,刷新全球記錄,性能提升30%,四控緊耦合架構,超2億IOPS,滿足極端性能需求。
分布式混閃S6000:4U74盤位高密設計,空間密度提升70%,兼顧性能與成本,成為EB級存力平臺的理想選擇。
從自主創新技術到高適配產品矩陣,曙光存儲以“存算傳緊耦合”架構破解高密算力下的數據吞吐、擴展與協同難題,不僅成為曙光scaleX萬卡超集群的核心存力支撐,更彰顯了中國存儲技術在全球超高密度算力場景中的領先實力。
-
AI
+關注
關注
91文章
39755瀏覽量
301349 -
中科曙光
+關注
關注
5文章
495瀏覽量
18908 -
大模型
+關注
關注
2文章
3648瀏覽量
5177
原文標題:特寫|萬卡時代:算得快,更要存得穩
文章出處:【微信號:sugoncn,微信公眾號:中科曙光】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
曙光存儲兩大核心技術與全棧產品矩陣推動存力范式革新
評論