電子發燒友網報道(文/梁浩斌)“主板插顯卡上”,是PC DIY玩家對高性能顯卡體積越來越大的調侃,隨著顯卡功率越來越高,碩大的散熱模組讓顯卡投影面積甚至已經大于ITX規格的主板,在PC里顯卡取代了主板和CPU成為了主角。
而最近“HBM之父”金正浩教授也語出驚人,提出未來內存將成為主角:“GPU和CPU將會被集成到內存(HBM和HBF)里,淪為內存中的一個組件”。
倒反天罡,在內存里裝GPU?
目前AI計算的架構以GPU為主導,核心計算單元是配備HBM的GPU,比如英偉達的Blackwell架構GPU,配備HBM3e內存,通過NVLink、NVSwitch等實現GPU間高速通信,形成比如NVL72等的機架級計算系統。
不過英偉達在Vera Rubin平臺中,也展現出強烈的異構計算趨勢,AI計算不再單純依賴GPU,而是通過多芯片協同工作實現更高效的計算。Vera Rubin平臺中,除了Rubin GPU之外,還有Vera CPU、Groq 3 LPU、NVLink 6 Switch、ConnectX-9 SuperNIC、BlueField-4 DPU等多種處理單元協同工作。
但異構計算或許也不是未來?金正浩預言,AI時代的最終贏家不是GPU,而是內存,目前以英偉達GPU為中心的AI計算架構,將會完全轉向以內存為中心的架構。
“現在GPU或CPU是計算的中心。但今后,擁有龐大容量的HBM和HBF將成為中心,反而是GPU被裝進其中的‘內存中心計算(Memory-Centric Computing)’時代將會到來。GPU和CPU淪為零部件的那個時刻,要想引領這一范式,HBF必須成為其基礎。”他解釋稱,當前AI面臨的幻覺問題,本質上是硬件瓶頸造成的。
當前業界正在從生成式AI轉向代理式AI(Agentic AI),這個過程中內存瓶頸正在成為最大的難題。海量上下文需要同樣大規模的內存,要真正實現快速、準確處理代理式AI的超長上下文數據,內存帶寬和容量都需要比現在增加1000倍以上。同時,金正浩認為大模型的幻覺本質上也是內存問題,因為內存不足,只能根據已知內容回答,才會產生幻覺。
HBM在最近幾年AI芯片熱潮中已經成為了焦點,這是為了解決內存帶寬瓶頸而誕生的一種DRAM技術,核心原理是將多個DRAM芯片進行垂直堆疊,通過TSV技術進行互連,帶寬可以是傳統內存的數十倍。
而HBF就較為陌生了,金正浩認為,僅靠HBM難以滿足代理式AI的需求,HBM是為了快速回答而堆放在書桌旁的淺薄參考書,即短期記憶。而下一代的替代方案則是HBF高帶寬閃存,HBF是用NAND閃存代替DRAM進行堆疊,大幅提升容量的巨大書架,即長期記憶。
GPU-HBM-HBF架構 圖源:KAIST Terra Lab
具體來說,HBF核心思路是用HBM的封裝技術來對NAND FLASH進行改造,包括3D堆疊、TSV、高并行接口等。根據目前業界多家廠商給出的技術指標,HBF的帶寬可高達1.6TB/s,是傳統PCIe4.0 SSD的200倍以上,基本達到了HBM3的帶寬水平,但低于HBM4。
在容量上,HBF單堆棧能達到512GB,8 堆棧可至4TB,可支撐萬億參數模型本地加載,相比不HBM有顯著的優勢。當然,缺點是寫入和耐久性都不如HBM,因此HBF主要適用于讀取密集型AI推理任務;另外延遲也相比HBM更高,HBF的延遲約5μs,而HBM僅為100ns。
所以綜合來看,HBF的定位可以看做是解決HBM容量不足和SSD速度太慢的存儲產品,適用于儲存模型權重、長文本、特征庫等“溫/冷數據”,而HBM則專注于頻繁讀寫的“熱數據”。
金正浩是是韓國科學技術院(KAIST)電氣及電子工程系教授,同時是TERALAB負責人,被業界廣泛譽為“HBM之父”。研究領域專注于專注于信號完整性、電源完整性、電磁兼容、3D/2.5D集成電路封裝、TSV、硅中介層等先進封裝技術,以及AI半導體內存架構。
其負責的TERALAB在HBM設計技術領域全球領先超過20年,自2010年起直接參與HBM的商業化設計,與三星電子、SK海力士、Google、NVIDIA、Apple、Tesla等全球巨頭有深度合作。他主導了HBM從概念到實際產品的關鍵技術突破,包括TSV、互連優化、信號/電源設計等。
SK海力士、閃迪推動HBF標準化,2026推首批樣品
得益于AI算力需求的爆發增長,HBF的產業化進程非常快,從學術提出到標準化啟動,僅用了不到兩年時間。在2025年6月,KAIST TERALab在HBM路線圖Ver 1.7研討會上首次系統介紹HBF架構,提出“HBM-HBF-存儲網絡”分層設計。
2025年底至2026年初,金教授多次在媒體和研討會上發布HBF路線圖和工作負載分析,強調HBF可將AI推理性能/瓦特提升至純HBM配置的2.69倍,并在Llama 3.1 405B等模型上僅損失2.2%性能。
在2025年8月,閃迪和SK海力士簽署諒解備忘錄,正式啟動HBF規格制定、技術要求定義和生態構建。閃迪也明確目標,在2026下半年交付首批HBF內存樣品,2027年初首批搭載HBF的AI推理設備進入采樣階段。
今年2月25日,雙方在美國加州米爾皮塔斯的閃迪總部聯合舉辦“HBF規格標準化聯盟啟動會”。宣布在Open Compute Project (OCP) 框架下成立專用工作組,推動HBF全球開放標準化,這是HBF從雙邊合作轉向行業生態的關鍵一步。
三星盡管未有直接參與標準化聯盟,但已經獨立切入HBF的賽道中,據披露,三星在去年10月開始啟動概念設計與早期研發,積累多項HBF相關專利。憑借NAND市場份額領先和代工/邏輯工藝優勢,三星正探索獨特架構路徑,其目標是2027年實現商用產品的推出。
根據金教授預測,HBF將在2027年開始小規模商用部署,導入到谷歌、英偉達、AMD等AI芯片中;2030年HBF將大規模普及,預計到2038年HBF市場可能超越HBM,成為AI存儲的主力。
小結:
HBF的產業化,不僅是填補了HBM和NAND FLASH之間的存儲空缺,更是標志著AI算力硬件從算力芯片為中心,從GPU到異構架構之后,逐步向內存為中心加速轉型,重塑AI服務器架構。不過,GPU是不是真的會淪為內存的“配件”,還不太好說,但至少在未來AI Agent的時代,存儲芯片的地位將更加重要。
而最近“HBM之父”金正浩教授也語出驚人,提出未來內存將成為主角:“GPU和CPU將會被集成到內存(HBM和HBF)里,淪為內存中的一個組件”。
倒反天罡,在內存里裝GPU?
目前AI計算的架構以GPU為主導,核心計算單元是配備HBM的GPU,比如英偉達的Blackwell架構GPU,配備HBM3e內存,通過NVLink、NVSwitch等實現GPU間高速通信,形成比如NVL72等的機架級計算系統。
不過英偉達在Vera Rubin平臺中,也展現出強烈的異構計算趨勢,AI計算不再單純依賴GPU,而是通過多芯片協同工作實現更高效的計算。Vera Rubin平臺中,除了Rubin GPU之外,還有Vera CPU、Groq 3 LPU、NVLink 6 Switch、ConnectX-9 SuperNIC、BlueField-4 DPU等多種處理單元協同工作。
但異構計算或許也不是未來?金正浩預言,AI時代的最終贏家不是GPU,而是內存,目前以英偉達GPU為中心的AI計算架構,將會完全轉向以內存為中心的架構。
“現在GPU或CPU是計算的中心。但今后,擁有龐大容量的HBM和HBF將成為中心,反而是GPU被裝進其中的‘內存中心計算(Memory-Centric Computing)’時代將會到來。GPU和CPU淪為零部件的那個時刻,要想引領這一范式,HBF必須成為其基礎。”他解釋稱,當前AI面臨的幻覺問題,本質上是硬件瓶頸造成的。
當前業界正在從生成式AI轉向代理式AI(Agentic AI),這個過程中內存瓶頸正在成為最大的難題。海量上下文需要同樣大規模的內存,要真正實現快速、準確處理代理式AI的超長上下文數據,內存帶寬和容量都需要比現在增加1000倍以上。同時,金正浩認為大模型的幻覺本質上也是內存問題,因為內存不足,只能根據已知內容回答,才會產生幻覺。
HBM在最近幾年AI芯片熱潮中已經成為了焦點,這是為了解決內存帶寬瓶頸而誕生的一種DRAM技術,核心原理是將多個DRAM芯片進行垂直堆疊,通過TSV技術進行互連,帶寬可以是傳統內存的數十倍。
而HBF就較為陌生了,金正浩認為,僅靠HBM難以滿足代理式AI的需求,HBM是為了快速回答而堆放在書桌旁的淺薄參考書,即短期記憶。而下一代的替代方案則是HBF高帶寬閃存,HBF是用NAND閃存代替DRAM進行堆疊,大幅提升容量的巨大書架,即長期記憶。

具體來說,HBF核心思路是用HBM的封裝技術來對NAND FLASH進行改造,包括3D堆疊、TSV、高并行接口等。根據目前業界多家廠商給出的技術指標,HBF的帶寬可高達1.6TB/s,是傳統PCIe4.0 SSD的200倍以上,基本達到了HBM3的帶寬水平,但低于HBM4。
在容量上,HBF單堆棧能達到512GB,8 堆棧可至4TB,可支撐萬億參數模型本地加載,相比不HBM有顯著的優勢。當然,缺點是寫入和耐久性都不如HBM,因此HBF主要適用于讀取密集型AI推理任務;另外延遲也相比HBM更高,HBF的延遲約5μs,而HBM僅為100ns。
所以綜合來看,HBF的定位可以看做是解決HBM容量不足和SSD速度太慢的存儲產品,適用于儲存模型權重、長文本、特征庫等“溫/冷數據”,而HBM則專注于頻繁讀寫的“熱數據”。
金正浩是是韓國科學技術院(KAIST)電氣及電子工程系教授,同時是TERALAB負責人,被業界廣泛譽為“HBM之父”。研究領域專注于專注于信號完整性、電源完整性、電磁兼容、3D/2.5D集成電路封裝、TSV、硅中介層等先進封裝技術,以及AI半導體內存架構。
其負責的TERALAB在HBM設計技術領域全球領先超過20年,自2010年起直接參與HBM的商業化設計,與三星電子、SK海力士、Google、NVIDIA、Apple、Tesla等全球巨頭有深度合作。他主導了HBM從概念到實際產品的關鍵技術突破,包括TSV、互連優化、信號/電源設計等。
SK海力士、閃迪推動HBF標準化,2026推首批樣品
得益于AI算力需求的爆發增長,HBF的產業化進程非常快,從學術提出到標準化啟動,僅用了不到兩年時間。在2025年6月,KAIST TERALab在HBM路線圖Ver 1.7研討會上首次系統介紹HBF架構,提出“HBM-HBF-存儲網絡”分層設計。
2025年底至2026年初,金教授多次在媒體和研討會上發布HBF路線圖和工作負載分析,強調HBF可將AI推理性能/瓦特提升至純HBM配置的2.69倍,并在Llama 3.1 405B等模型上僅損失2.2%性能。
在2025年8月,閃迪和SK海力士簽署諒解備忘錄,正式啟動HBF規格制定、技術要求定義和生態構建。閃迪也明確目標,在2026下半年交付首批HBF內存樣品,2027年初首批搭載HBF的AI推理設備進入采樣階段。
今年2月25日,雙方在美國加州米爾皮塔斯的閃迪總部聯合舉辦“HBF規格標準化聯盟啟動會”。宣布在Open Compute Project (OCP) 框架下成立專用工作組,推動HBF全球開放標準化,這是HBF從雙邊合作轉向行業生態的關鍵一步。
三星盡管未有直接參與標準化聯盟,但已經獨立切入HBF的賽道中,據披露,三星在去年10月開始啟動概念設計與早期研發,積累多項HBF相關專利。憑借NAND市場份額領先和代工/邏輯工藝優勢,三星正探索獨特架構路徑,其目標是2027年實現商用產品的推出。
根據金教授預測,HBF將在2027年開始小規模商用部署,導入到谷歌、英偉達、AMD等AI芯片中;2030年HBF將大規模普及,預計到2038年HBF市場可能超越HBM,成為AI存儲的主力。
小結:
HBF的產業化,不僅是填補了HBM和NAND FLASH之間的存儲空缺,更是標志著AI算力硬件從算力芯片為中心,從GPU到異構架構之后,逐步向內存為中心加速轉型,重塑AI服務器架構。不過,GPU是不是真的會淪為內存的“配件”,還不太好說,但至少在未來AI Agent的時代,存儲芯片的地位將更加重要。
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。
舉報投訴
-
gpu
+關注
關注
28文章
5244瀏覽量
135953 -
內存
+關注
關注
9文章
3223瀏覽量
76461 -
HBM
+關注
關注
2文章
432瀏覽量
15875
發布評論請先 登錄
相關推薦
熱點推薦
GPU不是AI的唯一解:英偉達用Groq LPU證明,推理賽道需要“另一條腿”
? 電子發燒友網報道(文/莫婷婷)過去十年,人工智能的爆發式增長與GPU需求緊密相連。憑借其卓越的并行計算能力,GPU成為AI算力的絕對代名詞。 ? 然而,英偉達給出
面向下一代GPU VPD架構的供電系統超低壓大電流測試方案 —— 費思N系列電子負載技術解析與應用實踐
LPD(橫向供電)架構電流路徑長、寄生參數大、動態響應慢等原因,已無法滿足下一代GPU的供電需求。 今年CES上,英偉達NVIDIA確定Rubin會用 VPD(垂直供電) 方案。根據
每塊GPU對應16TB SSD,英偉達KV緩存虹吸高性能TLC SSD
作者:黃晶晶 ? 不久前,英偉達宣布其Vera Rubin平臺將采用搭載BlueField-4芯片的ICMS架構,通過卸載KV Cache突破內存瓶頸、提升AI推理性能。該
如何看懂GPU架構?一分鐘帶你了解GPU參數指標
GPU架構參數如CUDA核心數、顯存帶寬、TensorTFLOPS、互聯方式等,并非“冰冷的數字”,而是直接關系設備能否滿足需求、如何發揮最大價值、是否避免資源浪費等問題的核心要素。本
傳英偉達自研HBM基礎裸片
"后的下一代AI GPU "Feynman"。 ? 有分析指出,英偉達此舉或是將部分GPU功能集成到基礎裸片中,旨在提高HBM和
性能優于HBM,超高帶寬內存 (X-HBM) 架構來了!
和單芯片高達512 Gbit的容量,帶寬提升16倍,密度提升10倍,顯著突破了傳統HBM的局限性。 ? ? 關鍵特性和優勢包括,可擴展性,使GPU和內存之間的數據傳輸更快,從而實現更高效的AI擴展;高性能,解鎖未開發的
aicube的n卡gpu索引該如何添加?
請問有人知道aicube怎樣才能讀取n卡的gpu索引呢,我已經安裝了cuda和cudnn,在全局的py里添加了torch,能夠調用gpu,當還是只能看到默認的gpu0,顯示不了gpu1
發表于 07-25 08:18
【「算力芯片 | 高性能 CPU/GPU/NPU 微架構分析」閱讀體驗】+NVlink技術從應用到原理
前言
【「算力芯片 | 高性能 CPU/GPU/NPU 微架構分析」書中的芯片知識是比較接近當前的頂尖芯片水平的,同時包含了芯片架構的基礎知識,但該部分知識比較晦澀難懂,或許是由于我一直從事的事芯片
發表于 06-18 19:31
英偉達擬再推中國特供GPU,今年6月量產!
電子發燒友網綜合報道 近年來,美國政府對華半導體出口管制政策不斷收緊,英偉達等半導體企業面臨嚴峻挑戰。為保持在中國市場的競爭力,英偉達推出了
發表于 05-27 00:03
?4863次閱讀
iTOP-3588S開發板四核心架構GPU內置GPU可以完全兼容0penGLES1.1、2.0和3.2。
,8GB內存,32GBEMMC。
四核心架構GPU內置GPU可以完全兼容0penGLES1.1、2.0和3.2。
內置NPU
RK3588S
發表于 05-15 10:36
GPU 維修干貨 | 英偉達 GPU H100 常見故障有哪些?
上漲,英偉達H100GPU憑借其強大的算力,成為AI訓練、高性能計算領域的核心硬件。然而,隨著使用場景的復雜化,H100服務器故障率也逐漸攀升,輕則影響業務進度,重
內存要取代GPU?HBM之父警告:以英偉達GPU為核心的架構要被顛覆
評論