作者:黃晶晶
不久前,英偉達宣布其Vera Rubin平臺將采用搭載BlueField-4芯片的ICMS架構,通過卸載KV Cache突破內存瓶頸、提升AI推理性能。該架構單臺服務器每個GPU需額外配置16TB TLC SSD,花旗預計2026年、2027年將分別帶來占全球NAND需求總量2.8%、9.3%的新增需求。
三星電子在 2025Q4 財報電話會議上透露,除了計劃在本季度啟動 HBM4 內存量產交付之外,三星存儲器業務計劃全方面積極應對AI相關需求,重點提升面向 AI KV(鍵值)存儲需求的高性能 TLC SSD的銷售。
KV緩存對SSD存儲的需求
花旗最新報告指出,大規模AI推理面臨顯著的內存瓶頸。Transformer模型的核心內存優化機制——KV Cache,通過存儲已計算的鍵值對來避免重復運算,并根據性能與容量需求分層存儲:活躍KV緩存存放于GPU HBM(G1),過渡/溢出KV緩存置于系統DRAM(G2),熱KV緩存則分配至本地SSD(G3)。
為針對性優化這一架構,英偉達推出了推理上下文內存存儲(ICMS)方案。該方案并非替代現有存儲層級,而是在本地SSD(G3)與企業共享存儲(G4)之間新增一個G3.5層級的專用KV Cache。這一層級能夠高效地將G4中的冷KV上下文數據轉換為G2中的暖KV緩存,并與HBM協同工作,從而顯著提升數據傳輸效率與整體AI推理性能。
在硬件實現上,Vera Rubin平臺采用16TB TLC SSD作為ICMS存儲介質,結合KV緩存管理器與拓撲感知調度機制,目標實現三大性能突破:每秒處理令牌數最高提升5倍、能效比最高提升5倍以及更低的延遲。具體配置方面,每臺服務器搭載72塊GPU,每塊GPU對應16TB ICMS專用NAND容量,使得單臺服務器的總NAND需求達到1152TB。
與傳統訓練場景不同,推理過程依賴于大量的上下文數據存儲與快速調用能力。這一技術路徑的轉變,為NAND閃存開辟了全新的應用場景,有望成為繼數據中心和智能手機之后的重要需求增長點。
包括閃迪、美光、三星等存儲廠商都瞄準了KV緩存所需SSD這一增量市場。
閃迪
面對推理場景下高并發、低延遲的嚴苛IO需求通用存儲方案往往力不從心。SANDISK DC SN861NVMe SSD正是針對此類計算密集型工作負載進行的專項優化。SN861容量高達16TB,其基礎是PCle Gen5接口,提供了翻倍的理論帶寬。
SanDisk DC SN861 NVMe SSD,憑借其卓越的性能和可靠性,獲得NVIDIA GB200 NVL72系統認證,為AI模型的訓練和推理提供強有力的支持。
美光科技
美光 9550 NVMe固態硬盤專為處理對速度、擴展性和能效有極高要求的關鍵工作負載而設計,例如人工智能(AI)、高性能數據庫、緩存、在線事務處理(OLTP)以及高頻交易等場景。美光 9550 固態硬盤能夠支持上述及更多類型的工作負載,可靈活部署于云、數據中心、原始設備制造商(OEM)及系統集成商的設計方案中。其可用存儲容量最高可達 30.72TB,有助于確保實現最優的存儲密度。
9550 PCIe 5.0 E1.S 形態數據中心固態硬盤已納入英偉達針對 GB200 NVL72 系統及衍生型號的推薦供應商名錄(RVL)。GB200 NVL72 系統搭載英偉達 GB200 格蕾絲?布萊克韋爾超級芯片,打造出機架級、高能效的 AI 基礎設施。該系統對 PCIe 5.0 存儲的兼容適配,讓美光 9550 固態硬盤成為優化 AI 工作負載性能與功耗效率的理想選擇,可支撐大規模 AI 模型訓練、萬億參數大模型實時推理,以及高性能計算(HPC)等核心場景。
三星電子
如前所述,三星電子在 2025Q4 財報電話會議上透露,計劃重點提升面向 AI KV(鍵值)存儲需求的高性能 TLC SSD的銷售。
韓媒消息稱,三星電子已正式重啟其平澤P4工廠的NAND閃存生產線投資,開始搬入生產設備。此前,該投資因市場低迷而推遲。作為2026年大規模投資計劃的一部分,三星計劃追加約10萬億韓元資本支出,重點提升DRAM、NAND閃存及晶圓代工產能。平澤基地擴產后,預計每月將增加NAND芯片產能6萬片,DRAM產能3萬片,晶圓代工產能2萬片。
綠算技術
近日,本土高性能存儲廠商綠算技術(ForinnBase)宣布,其旗艦產品GP7000系列全閃存儲平臺已通過英偉達適配,成為全球首批、也是唯一支持G3級KV Cache分層存儲的國產化解決方案,為下一代AI工廠建設提供了關鍵的基礎設施支撐。
綠算技術GP7000系列采用以太網閃存簇(EBOF)設計,單系統配備24個PCIe 5.0 NVMe U.2盤位,通過雙主控板實現冗余。其核心指標精準匹配G3層需求。
單機提供6480萬IOPS、288GB/s帶寬與20μs級延遲,性能較傳統存儲服務器提升17倍。整機功耗<900W,每GB/s帶寬功耗僅3.1W,滿足AI工廠的5倍能效目標。原生支持BlueField-3/4 DPU與Spectrum-X交換機,通過NVMe-oF/RoCEv2/GDS協議實現GPU直連。
綠算技術產品總監孔維海透露:“GP7000采用DPU+ASIC+FPGA多元異構計算架構,將KV Cache的索引管理、數據壓縮和網絡協議棧完全硬件卸載,消除了CPU瓶頸。”其分布式KV Cache管理器可與英偉達Dynamo開源項目無縫銜接,實現跨機架的緩存一致性。
GP7000已完成廣泛生態適配。硬件上支持英偉達DGX H100/H200/GB300、AMD Instinct MI300、華為昇騰910B/C、沐曦曦云C系列等。軟件適配英偉達Dynamo/vLLM/TensorRT-LLM、華為UCM、Kubernetes CSI等。國產數據庫支持OceanBase、TiDB、GaussDB等。
在大模型推理場景中,GP7000可通過命名空間隔離與智能冷熱分層技術,為每個推理實例分配獨立的KV Cache分區,并將高頻數據預加載至G2層,實現成本與效率的最優平衡。
GP7000已于2025年Q3量產,并獲得了某頭部云廠商數千節點訂單。公司正在研發基于PCIe 6.0的下一代GP8000,目標是將G3級帶寬提升至1TB/s。
市場前景
花旗通過場景分析測算后認為,ICMS架構的規模化落地將為全球NAND市場帶來顯著且確定的需求增量。報告預計,2026年Vera Rubin服務器出貨量將達到3萬臺,對應ICMS架構的NAND需求將達3460萬TB,這一需求規模占當年全球NAND 總需求的2.8%;隨著AI 推理需求的進一步釋放,2027年Vera Rubin 服務器出貨量有望增至10萬臺,屆時ICMS帶來的 NAN需求將飆升至1152萬TB,占全球NAND總需求的比例將提升至9.3%。
報告同時指出,當前全球NAND市場本就處于供應緊張的狀態,近年來AI產業的爆發式發展已推動數據存儲需求持續攀升,NAND作為核心存儲介質的供需平衡已較為脆弱。而英偉達 ICMS架構帶來的新增需求具有剛性強、規模大的特點,將直接打破現有供需格局,導致全球NAND供應短缺的局面進一步加劇。
發布評論請先 登錄
DRAM緩存真有那么重要嗎?天碩工業級SSD固態硬盤實測告訴你答案!
高性能16位低功耗模數轉換器:TLC4545
PCIe 5.0 8TB SSD挺進消費級市場
SSD為何需要DRAM緩存?天碩工業級SSD帶來深度解析!
華納云為游戲數據庫選擇高性能NVMe SSD存儲
為什么推薦 SSD 而不是 HDD 的電腦?
傳英偉達自研HBM基礎裸片
沒有掉電保護的SSD為什么不適合工業級場景?
工業級SSD為什么需要掉電保護?天碩工業級SSD固態硬盤告訴你答案
企業級SSD的核心技術與市場趨勢
高性能緩存設計:如何解決緩存偽共享問題
GPU 維修干貨 | 英偉達 GPU H100 常見故障有哪些?
每塊GPU對應16TB SSD,英偉達KV緩存虹吸高性能TLC SSD
評論