高清精品一区二区三区一区,日韩精品久久无码sv17c,91精品影院一区二区三区

飛速發(fā)展的HBM仍面臨著一些挑戰(zhàn)。

高帶寬內(nèi)存 (HBM) 正在成為超大規(guī)模廠商的首選內(nèi)存，但其在主流市場的最終命運仍存在疑問。雖然它在數(shù)據(jù)中心中已經(jīng)很成熟，并且由于人工智能/機器學習的需求而使用量不斷增長，但其基本設計固有的缺陷阻礙了更廣泛的采用。一方面，HBM提供緊湊的 2.5D 外形尺寸，可大幅減少延遲。

Rambus產(chǎn)品營銷高級總監(jiān)Frank Ferro在本周的 Rambus 設計峰會上的演講中表示：“HBM 的優(yōu)點在于，您可以在很小的占地面積內(nèi)獲得所有這些帶寬，而且還可以獲得非常好的能效。”

缺點是它依賴昂貴的硅中介層和 TSV 來運行。

圖 1：實現(xiàn)最大數(shù)據(jù)吞吐量的 HBM 堆棧。來源：Rambus

CadenceIP 團隊產(chǎn)品營銷總監(jiān) Marc Greenberg 表示：“目前困擾高帶寬內(nèi)存的問題之一是成本。”。“三維堆疊的成本很高。在堆疊芯片的底部有一個邏輯芯片，這是需要額外付出的硅片。然后是硅中介層，它位于 CPU 或 GPU 以及 HBM 存儲器的下方。這些都需要成本。然后，你需要更大的封裝等等。這些系統(tǒng)成本使 HBM 現(xiàn)在已經(jīng)脫離了消費領域，而更多地應用于服務器機房或數(shù)據(jù)中心。相比之下，GDDR6等顯存雖然性能不如 HBM，但成本卻低得多。實際上，GDDR6的單位成本性能比 HBM 好得多，但 GDDR6 設備的最大帶寬卻比不上 HBM 的最大帶寬。"

Greenberg表示，這些差異為公司選擇 HBM 提供了理由，即使HBM可能不是他們的第一選擇。“HBM 提供了大量的帶寬，并且點對點傳輸?shù)哪芰繕O低。使用 HBM 是因為必須這樣做，沒有其他解決方案可以提供相同的帶寬或相同的功率配置文件。”

HBM 只會變得越來越快。“我們預計 HBM3 Gen3 的帶寬將提高 50%，”美光計算產(chǎn)品事業(yè)部副總裁兼總經(jīng)理 Praveen Vaidyanathan 說道。“從美光的角度來看，我們預計 HBM3 Gen2 產(chǎn)品將在 2024 財年期間實現(xiàn)量產(chǎn)。我們預計， 2024年年初將開始為預期的數(shù)億美元收入機會做出貢獻。此外，我們預測美光的 HBM3 將貢獻比 DRAM 更高的利潤。”

盡管如此，經(jīng)濟因素可能會迫使許多設計團隊考慮價格敏感應用的替代方案。

他指出："如果可以將問題細分為更小的部分，可能會發(fā)現(xiàn)HBM更具成本效益。例如，當必須在一個硬件上執(zhí)行所有這些操作，而且必須在那里擁有 HBM，也許可以將其分成兩部分，讓兩個進程并行運行，也許連接到 DDR6。如果能將問題細分為更小的部分，就有可能以更低的成本完成相同的計算量。但是，如果你需要巨大的帶寬，如果你能承受成本，那么 HBM 就是你的最佳選擇。”

散熱挑戰(zhàn)

另一個主要缺點是 HBM 的 2.5D 結(jié)構(gòu)會產(chǎn)生熱量，而靠近 CPU 和 GPU 的布局又會加劇這種情況。事實上，當前的布局就不太合理，因為當前的布局是將 HBM 及其堆疊的熱敏 DRAM 放在計算密集型熱源附近。

“最大的挑戰(zhàn)是熱量，”Greenberg說。"一個 CPU會產(chǎn)生大量的數(shù)據(jù)。每秒要通過這個接口傳輸太比特的數(shù)據(jù)。即使每筆數(shù)據(jù)交換只產(chǎn)生少量的微焦耳，每秒也要處理十億次，因此 CPU 的溫度非常高。而且，CPU 的工作不僅僅是轉(zhuǎn)移數(shù)據(jù)，它還必須進行計算。除此之外，最不耐熱的半導體元件是 DRAM。它在 85°C 左右開始遺失數(shù)據(jù)，而在 125°C 左右就會完全無法存儲。”

有一點值得慶幸。“擁有 2.5D 堆棧的優(yōu)點是，CPU 很熱，而 HBM 位于 CPU 旁邊，因此喜歡冷，之間有一定的物理隔離，”他說。

在延遲和熱量之間的權(quán)衡中，延遲是不可變的。“我沒有看到任何人愿意放棄優(yōu)化延遲，”Synopsys 內(nèi)存接口 IP 解決方案產(chǎn)品線總監(jiān) Brett Murdock說道。“我看到他們推動物理團隊尋找更好的冷卻方式，或者更好的放置方式，以保持較低的延遲。”

考慮到這一挑戰(zhàn)，多物理場建模可以提出減少熱問題的方法，但會產(chǎn)生相關成本。“這就是物理學變得非常困難的地方，” Ansys產(chǎn)品經(jīng)理 Marc Swinnen 說。“功率可能是集成所能實現(xiàn)的最大限制因素。任何人都可以設計一堆芯片并將它們?nèi)窟B接起來，所有這些都可以完美工作，但無法冷卻它。散發(fā)熱量是可實現(xiàn)目標的根本限制。”

潛在的緩解措施可能很快就會變得昂貴，從微流體通道到浸入非導電液體，再到確定散熱器上需要多少個風扇，以及是否使用銅或鋁。

可能永遠不會有完美的答案，但模型和對期望結(jié)果的清晰理解可以幫助創(chuàng)建合理的解決方案。“必須定義最佳對你來說意味著什么，”Swinnen說。“你想要最好的熱量嗎？最好的成本？兩者之間的最佳平衡？你將如何衡量它們？答案依賴于模型來了解物理學中實際發(fā)生的情況。它依靠人工智能來處理這種復雜性并創(chuàng)建元模型來捕捉這個特定優(yōu)化問題的本質(zhì)，并快速探索這個廣闊的空間。”

HBM 和 AI

雖然計算是AI/ML最密集的部分，但如果沒有良好的內(nèi)存架構(gòu)，這一切都無法實現(xiàn)。存儲和檢索萬億次計算需要內(nèi)存。事實上，增加 CPU 并不能提高系統(tǒng)性能，因為內(nèi)存帶寬不足以支持這些 CPU。這就是臭名昭著的 "內(nèi)存墻 "瓶頸。

Quadric首席營銷官 SteveRoddy 表示，從最廣泛的定義來看，機器學習只是曲線擬合。“在訓練運行的每次迭代中，你都在努力越來越接近曲線的最佳擬合。這是一個 X,Y 圖，就像高中幾何一樣。大型語言模型基本上是同一件事，但是是 100 億維，而不是 2 維。”

因此，計算相對簡單，但內(nèi)存架構(gòu)可能令人難以置信。

Roddy 解釋說：“其中一些模型擁有 1000 億字節(jié)的數(shù)據(jù)，對于每次重新訓練迭代，都必須通過數(shù)據(jù)中心的背板從磁盤上取出1000 億字節(jié)的數(shù)據(jù)并放入計算箱中。在兩個月的訓練過程中，你必須將這組巨大的內(nèi)存值來回移動數(shù)百萬次。限制因素是數(shù)據(jù)的移入和移出，這就是為什么人們對 HBM 或光學互連等從內(nèi)存?zhèn)鬏數(shù)接嬎憬Y(jié)構(gòu)的東西感興趣。所有這些都是人們投入數(shù)十億美元風險投資的地方，因為如果能縮短距離或時間，就可以大大簡化和縮短訓練過程，無論是切斷電源還是加快訓練速度。”

出于所有這些原因，高帶寬內(nèi)存被認為是 AI/ML 的首選內(nèi)存。“它提供了某些訓練算法所需的最大帶寬，”Rambus 的 Ferro 說。“從你可以擁有多個內(nèi)存堆棧的角度來看，它是可配置的，這為你提供了非常高的帶寬。”

這就是人們對 HBM 如此感興趣的原因。“我們的大多數(shù)客戶都是人工智能客戶，”Synopsys 的默多克說。“他們正在 LPDDR5X 接口和HBM 接口之間進行一項重大的基本權(quán)衡。唯一阻礙他們的是成本。”然而，人工智能的需求如此之高，以至于 HBM 減少延遲的前沿特征突然顯得過時且不足。這反過來又推動了下一代 HBM 的發(fā)展。

“延遲正在成為一個真正的問題，”Ferro說。“在 HBM 的前兩代中，我沒有聽到任何人抱怨延遲。現(xiàn)在我們一直收到有關延遲的問題。”Ferro 建議，鑒于當前的限制，了解數(shù)據(jù)尤為重要。“它可能是連續(xù)的數(shù)據(jù)，例如視頻或語音識別。它可能是事務性的，就像財務數(shù)據(jù)一樣，可能非常隨機。如果知道數(shù)據(jù)是隨機的，那么設置內(nèi)存接口的方式將與流式傳輸視頻不同。這些是基本問題，但也有更深層次的問題。我要在存儲中使用的字長是多少？內(nèi)存的塊大小是多少？對此了解得越多，設計系統(tǒng)的效率就越高。如果了解它，那么就可以定制處理器以最大限度地提高計算能力和內(nèi)存帶寬。我們看到越來越多的 ASIC 式 SoC 正在瞄準特定市場細分市場，以實現(xiàn)更高效的處理。”

降低成本

如果經(jīng)典的 HBM 實現(xiàn)是使用硅中介層，那么就有希望找到成本更低的解決方案。“還有一些方法可以在標準封裝中嵌入一小塊硅，這樣就沒有一個完整的硅中介層延伸到所有東西下面，”格林伯格說。“CPU 和 HBM 之間只有一座橋梁。此外，在標準封裝技術上允許更細的引腳間距也取得了進展，這將顯著降低成本。還有一些專有的解決方案，人們試圖通過高速 SerDes 類型連接來連接存儲器，沿著 UCIE 的路線，并可能通過這些連接來連接存儲器。目前，這些解決方案是專有的，但我希望它們能夠標準化。”

Greenberg表示，可能存在平行的發(fā)展軌跡：“硅中介層確實提供了盡可能細的引腳間距或線間距——基本上是用最少的能量實現(xiàn)最大的帶寬——所以硅中介層將永遠存在。但如果一個行業(yè)能夠聚集在一起并決定一個適用于標準封裝的內(nèi)存標準，那么就有可能提供類似的帶寬，但成本卻要低得多。”

人們正在不斷嘗試降低下一代的成本。“臺積電已宣布他們擁有三種不同類型的中介層，”Ferro 說。“他們有一個 RDL 中介層，他們有硅中介層，他們有一些看起來有點像兩者的混合體。還有其他技術，例如如何完全擺脫中介層。可能會在接下來的 12 或 18 個月內(nèi)看到一些如何在頂部堆疊 3D 內(nèi)存的原型，理論上可以擺脫中介層。”

解決該問題的另一種方法是使用較便宜的材料。“正在研究非常細間距的有機材料，以及它們是否足夠小以處理所有這些痕跡，”Ferro說。“此外，UCIe是通過更標準的材料連接芯片的另一種方式，以節(jié)省成本。但同樣，仍然必須解決通過這些基材的數(shù)千條痕跡的問題。”

Murdock希望通過規(guī)模經(jīng)濟來削減成本。“隨著 HBM 越來越受歡迎，成本方面將有所緩解。HBM 與任何 DRAM 一樣，歸根結(jié)底都是一個商品市場。在中介層方面，我認為下降速度不會那么快。這仍然是一個需要克服的挑戰(zhàn)。”

但原材料成本并不是唯一的考慮因素。“這還取決于 SoC 需要多少帶寬，以及電路板空間等其他成本，”Murdock 說。“對于那些想要高速接口并需要大量帶寬的人來說，LPDDR5X 是一種非常受歡迎的替代方案，但與 HBM 堆棧的通道數(shù)量相匹配所需的 LPDDR5X 通道數(shù)量相當大。雖然有大量的設備成本和電路板空間成本，這些成本可能令人望而卻步。僅就美元而言，也可能是一些物理限制促使人們轉(zhuǎn)向 HBM，盡管從美元角度來看它更昂貴。”

其他人對未來成本削減則不太確定。Objective Analysis 首席分析師 Jim Handy 表示：“降低HBM 成本將是一項挑戰(zhàn)。由于將 TSV 放置在晶圓上的成本很高，因此加工成本已經(jīng)明顯高于標準 DRAM。這使得它無法擁有像標準 DRAM 一樣大的市場。由于市場較小，規(guī)模經(jīng)濟導致成本在一個自給自足的過程中更高。體積越小，成本越高，但成本越高，使用的體積就越少。沒有簡單的方法可以解決這個問題。”

盡管如此，Handy 對 HBM 的未來持樂觀態(tài)度，并指出與 SRAM 相比，它仍然表現(xiàn)出色。“HBM 已經(jīng)是一個成熟的 JEDEC 標準產(chǎn)品，”他說。“這是一種獨特的 DRAM 技術形式，能夠以比 SRAM 低得多的成本提供極高的帶寬。它還可以通過封裝提供比 SRAM 更高的密度。它會隨著時間的推移而改進，就像 DRAM 一樣。隨著接口的成熟，預計會看到更多巧妙的技巧來提高其速度。”

事實上，盡管面臨所有挑戰(zhàn)，HBM 還是有理由保持樂觀。“標準正在迅速發(fā)展，” Ferro補充道。“如果你看看 HBM 如今的發(fā)展，會發(fā)現(xiàn)它大約以兩年為間隔，這確實是一個驚人的速度。”

審核編輯：劉清

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴