2020年2月,固態存儲協會(JEDEC)對外發布了第三版HBM2存儲標準JESD235C,隨后三星和SK海力士等廠商將其命名為HBM2E。
?
相較于第一版(JESD235A)HBM2引腳的2Gbps,HBM2E將這一速度提升到了3.2Gbps,并且單堆棧12 Die能夠達到24GB的容量,理論最大帶寬410GB/s。同時,按照設計規范,對于支持四堆棧的圖形芯片來說,總帶寬高達1.64TB/s。
?
過往,三星和SK海力士在HBM內存領域占據領先地位。目前,各大內存廠商在HBM2E層面已經開始鋪貨。就以SK海力士的節點來看,2020年7月2日,SK海力士才對外宣布開始量產超高速DRAM HBM2E,這是一款具有 460GB/s 帶寬的高帶寬內存來自使用硅通孔 (TSV) 的垂直堆疊 DRAM 芯片,針對深度學習加速器和 AI 系統優化,面向服務器、物聯網、消費電子和汽車領域。
?
從時間上來看,外界公布HBM2E的時間節點是2020年2月,SK海力士的量產時間是7月份,而三星就更快了,同樣是在2月份就已經對外發布首款HBM2E顯存。
?
雖然HBM2E的標準參數很出色,但現在不得不說它已經過時了,現在HBM3的PHY、控制器和子系統方案已經面世。目前在JEDEC官網,JESD235D標準已經開始對會員企業免費開放。當然,該協議也支持開放購買,售價是274美元。
?
現在你不需要為獲取HBM3參數去花費這些錢,和過往一樣,參與制定標準的這些內存廠商已經迫不及待地對外公開HBM3的性能參數了。根據SK海力士在6月份公開的細節來看,過渡版的“HBM3”標準有望實現 5.2 Gbps的引腳傳輸速率,較現有的HBM2E提升44%,從而大幅提升整體的內存帶寬。
?
但從Rambus公司目前實現的方案來看,SK海力士顯然過于保守了,當然就如同上面提到的,SK公開的這個是一個過渡標準,并不是真正的HBM3,而Rambus選擇一步到位實現HBM3。
?
8月17日,Rambus推出了其HBM3內存子系統解決方案,速率高達8.4 Gbps,單顆帶寬達到了1.075TB/s。這個數據有多恐怖呢?我們參考一下上一代的HBM2E,在標準協議中,JEDEC的定義是引腳速度為3.2Gbps,單核帶寬為410GB/s。在實際的實現過程中,不管是Rambus還是SK海力士,最終實現的方案都達到了3.6Gbps,單核帶寬達到了460GB/s。
?
因此,在HBM3方面,目前Rambus的方案在引腳速度和單核帶寬上面,都實現了翻倍,這是此前產業界一直以來都覺得實現起來“太難了”的事情。
?
通過上面兩個方案的對比,我們看到HBM2E和HBM3有一個明顯的區別,那就是通道數,HBM3子系統方案具有 16 個獨立通道,每個通道包含 64 位,總數據寬度為 1024 位。在最大數據速率下,這提供了 1075.2 GB/s 的總接口帶寬,能夠以更高的每瓦帶寬效率為 AI/ML 和高性能計算 (HPC) 應用提供更高的整體吞吐量。
?
實際上,熟悉內存標準進程的人都很清楚,HBM3并不是這兩年提出來的新鮮事物,早在2016年SK海力士、美光、三星等公司就討論過HBM3標準。2015年,AMD推出全球第一款采用HBM高帶寬顯存的顯卡之后,512GB/s的高帶寬讓業界為之震撼。此后不久,各個內存廠商就對HBM內存的演進路線做了規劃,并提出了HBM3,甚至是HBM4。
?
通過AMD的技術方案能夠總結出,HBM內存方案共有以下幾點優勢:功耗低、效率高,外形小巧。
?
在HBM面世之前,高性能內存更多是采用GDDR方案。直到AMD推出了HBM內存,GDDR5已經統治行業達7年之久,然而即便是GDDR方案,在帶寬上也已經開始跟不上GPU的發展速度,成為系統性能提升的瓶頸。AMD在當時就曾提到,GDDR5如果要增加1 GB 的帶寬將會帶來更多的功耗,這不論對于設計人員還是消費者來說都不是一個明智、高效或合算的選擇。而HBM就像封裝在和芯片集成的 RAM 一樣,和GPU中介層緊湊而快速地連接,當時的HBM方案每瓦帶寬比 GDDR5 高出 3 倍還多。
?
同時,從當時AMD揭露出的示意圖能夠看到,2.5D封裝的方式讓整體方案更小巧,當時的HBM 比 GDDR5 節省了 94% 的表面積。
?
下圖是AMD當年實現的方案,能夠看到第一代HBM顯存方案中,每一顆都采用四層Die進行堆疊,每個Die的容量為2Gb(256MB),單顆容量為1GB,那么4顆堆疊的容量就是4GB。
?
很顯然,隨著各種智能應用逐漸發展,4GB這個容量對于數據中心、高端顯示和大型游戲等應用是完全不夠,AMD在當時也確認了,HBM的內存容量會像帶寬提升一樣困難。不過容量問題沒有束縛住HBM的發展,我們看到在美光的實現方案中,HBM2E內存八堆棧單Die容量16Gb,單顆HBM2E內存能夠達到16GB的容量,4顆組合的話可以實現64GB。
?
說回到HBM3內存,Rambus現在已經處于領先位置,雖然目前JEDEC還沒有對外公開HBM3的標準。
?
這里不得不說一個“但是”。但是,這并不能意味著HBM3將廣泛占領顯存市場。從市場情況來看,HBM還是主打高端市場,在HBM2階段,Tesla V100 PCIe GPU采用的是16GB的HBM2內存,顯存帶寬高達 900 GB/s。而能夠看到,諸如基于Turing架構搭載的TITAN RTX也還在使用GDDR6顯存,容量為24GB,而GeForce RTX 30 系列 GPU全系列都是GDDR6顯存。相對而言,AMD對于HBM內存的使用更為廣泛,Radeon Pro Vega II 顯卡搭載了32GB HBM2 顯存,在Instinct 服務器解決方案同樣采用了32GB的HBM2內存。但從“Pro”和“服務器”這樣的標注來看,其主要還是面向高端應用,而在普通Radeon顯卡方面還是以GDDR6為主。
?
其實,原因已經很明顯了,雖然GDDR6單引腳的速度更快,但引腳數量太少了,因此HBM在系統帶寬方面有著獨特的優勢,同時GDDR6的PHY面積更大(1.5倍左右),功耗也更高(4倍左右),也就是說GDDR5身上的劣勢在GDDR6這里并沒有改變。但優勢也依然存在——GDDR6便宜,這個便宜不僅體現在單顆芯片價值上,同時在設計復雜度上也更低。因此,雖然HBM3來了,但依然只會面向高端市場。
?
相較于第一版(JESD235A)HBM2引腳的2Gbps,HBM2E將這一速度提升到了3.2Gbps,并且單堆棧12 Die能夠達到24GB的容量,理論最大帶寬410GB/s。同時,按照設計規范,對于支持四堆棧的圖形芯片來說,總帶寬高達1.64TB/s。
?
過往,三星和SK海力士在HBM內存領域占據領先地位。目前,各大內存廠商在HBM2E層面已經開始鋪貨。就以SK海力士的節點來看,2020年7月2日,SK海力士才對外宣布開始量產超高速DRAM HBM2E,這是一款具有 460GB/s 帶寬的高帶寬內存來自使用硅通孔 (TSV) 的垂直堆疊 DRAM 芯片,針對深度學習加速器和 AI 系統優化,面向服務器、物聯網、消費電子和汽車領域。
?
從時間上來看,外界公布HBM2E的時間節點是2020年2月,SK海力士的量產時間是7月份,而三星就更快了,同樣是在2月份就已經對外發布首款HBM2E顯存。
?
雖然HBM2E的標準參數很出色,但現在不得不說它已經過時了,現在HBM3的PHY、控制器和子系統方案已經面世。目前在JEDEC官網,JESD235D標準已經開始對會員企業免費開放。當然,該協議也支持開放購買,售價是274美元。
?
現在你不需要為獲取HBM3參數去花費這些錢,和過往一樣,參與制定標準的這些內存廠商已經迫不及待地對外公開HBM3的性能參數了。根據SK海力士在6月份公開的細節來看,過渡版的“HBM3”標準有望實現 5.2 Gbps的引腳傳輸速率,較現有的HBM2E提升44%,從而大幅提升整體的內存帶寬。
?
但從Rambus公司目前實現的方案來看,SK海力士顯然過于保守了,當然就如同上面提到的,SK公開的這個是一個過渡標準,并不是真正的HBM3,而Rambus選擇一步到位實現HBM3。
?
8月17日,Rambus推出了其HBM3內存子系統解決方案,速率高達8.4 Gbps,單顆帶寬達到了1.075TB/s。這個數據有多恐怖呢?我們參考一下上一代的HBM2E,在標準協議中,JEDEC的定義是引腳速度為3.2Gbps,單核帶寬為410GB/s。在實際的實現過程中,不管是Rambus還是SK海力士,最終實現的方案都達到了3.6Gbps,單核帶寬達到了460GB/s。
?

Rambus HBM2E子系統方案
?因此,在HBM3方面,目前Rambus的方案在引腳速度和單核帶寬上面,都實現了翻倍,這是此前產業界一直以來都覺得實現起來“太難了”的事情。
?

Rambus HBM3子系統方案
?通過上面兩個方案的對比,我們看到HBM2E和HBM3有一個明顯的區別,那就是通道數,HBM3子系統方案具有 16 個獨立通道,每個通道包含 64 位,總數據寬度為 1024 位。在最大數據速率下,這提供了 1075.2 GB/s 的總接口帶寬,能夠以更高的每瓦帶寬效率為 AI/ML 和高性能計算 (HPC) 應用提供更高的整體吞吐量。
?
實際上,熟悉內存標準進程的人都很清楚,HBM3并不是這兩年提出來的新鮮事物,早在2016年SK海力士、美光、三星等公司就討論過HBM3標準。2015年,AMD推出全球第一款采用HBM高帶寬顯存的顯卡之后,512GB/s的高帶寬讓業界為之震撼。此后不久,各個內存廠商就對HBM內存的演進路線做了規劃,并提出了HBM3,甚至是HBM4。
?
通過AMD的技術方案能夠總結出,HBM內存方案共有以下幾點優勢:功耗低、效率高,外形小巧。
?
在HBM面世之前,高性能內存更多是采用GDDR方案。直到AMD推出了HBM內存,GDDR5已經統治行業達7年之久,然而即便是GDDR方案,在帶寬上也已經開始跟不上GPU的發展速度,成為系統性能提升的瓶頸。AMD在當時就曾提到,GDDR5如果要增加1 GB 的帶寬將會帶來更多的功耗,這不論對于設計人員還是消費者來說都不是一個明智、高效或合算的選擇。而HBM就像封裝在和芯片集成的 RAM 一樣,和GPU中介層緊湊而快速地連接,當時的HBM方案每瓦帶寬比 GDDR5 高出 3 倍還多。
?
同時,從當時AMD揭露出的示意圖能夠看到,2.5D封裝的方式讓整體方案更小巧,當時的HBM 比 GDDR5 節省了 94% 的表面積。
?

圖源:AMD官網
?下圖是AMD當年實現的方案,能夠看到第一代HBM顯存方案中,每一顆都采用四層Die進行堆疊,每個Die的容量為2Gb(256MB),單顆容量為1GB,那么4顆堆疊的容量就是4GB。
?

圖源:AMD官網
?很顯然,隨著各種智能應用逐漸發展,4GB這個容量對于數據中心、高端顯示和大型游戲等應用是完全不夠,AMD在當時也確認了,HBM的內存容量會像帶寬提升一樣困難。不過容量問題沒有束縛住HBM的發展,我們看到在美光的實現方案中,HBM2E內存八堆棧單Die容量16Gb,單顆HBM2E內存能夠達到16GB的容量,4顆組合的話可以實現64GB。
?
說回到HBM3內存,Rambus現在已經處于領先位置,雖然目前JEDEC還沒有對外公開HBM3的標準。
?
這里不得不說一個“但是”。但是,這并不能意味著HBM3將廣泛占領顯存市場。從市場情況來看,HBM還是主打高端市場,在HBM2階段,Tesla V100 PCIe GPU采用的是16GB的HBM2內存,顯存帶寬高達 900 GB/s。而能夠看到,諸如基于Turing架構搭載的TITAN RTX也還在使用GDDR6顯存,容量為24GB,而GeForce RTX 30 系列 GPU全系列都是GDDR6顯存。相對而言,AMD對于HBM內存的使用更為廣泛,Radeon Pro Vega II 顯卡搭載了32GB HBM2 顯存,在Instinct 服務器解決方案同樣采用了32GB的HBM2內存。但從“Pro”和“服務器”這樣的標注來看,其主要還是面向高端應用,而在普通Radeon顯卡方面還是以GDDR6為主。
?
其實,原因已經很明顯了,雖然GDDR6單引腳的速度更快,但引腳數量太少了,因此HBM在系統帶寬方面有著獨特的優勢,同時GDDR6的PHY面積更大(1.5倍左右),功耗也更高(4倍左右),也就是說GDDR5身上的劣勢在GDDR6這里并沒有改變。但優勢也依然存在——GDDR6便宜,這個便宜不僅體現在單顆芯片價值上,同時在設計復雜度上也更低。因此,雖然HBM3來了,但依然只會面向高端市場。
電子發燒友App





























評論