我們正在進入新的計算時代。AI 工作負載的占比越來越高,已成為影響企業基礎設施戰略、硅芯片路線圖和業務指令的決定性力量。如今的 AI,規模大到令人咋舌:超大規模企業正在部署單個集群中包含數萬塊 AI 加速器的系統,正在訓練擁有萬億級參數的模型,每個部署區消耗的電力高達數兆瓦。
業界一直在宣揚 AI 的力量——AI 能夠改變各行各業,加速各種新發現,并能夠增強人類的能力。這些論斷并非夸大之詞。但是,我們現在必須稍微冷靜一下,面對另一個現實:AI 運行所需的動力(也即,運行這些工作負載所需的能量)正在成為 AI 創新面臨的重大障礙。
通常能想到的解決方案包括:優化計算;優化機架散熱;采購更多綠色電力。這些都是必要的措施,但這些措施現在已經不足以解決問題。長期以來,人們認為計算是影響能效的主要因素,這種假設現在已越來越不符合現實。事實上,這種觀念可能掩蓋了另一個真正影響能效的因素,也是目前我們尚未充分利用的領域。
那就是內存。
隱藏的能量池
在 AI 基礎設施中,內存和存儲通常被視為輔助設備——它們必不可少,但并非戰略要素。然而,在現代 AI 集群中,內存子系統(包括DRAM、SSD 以及相關的互連設備)的功耗在系統總功耗中的占比可能高達 50%,具體取決于特定的配置和工作負載。隨著模型大小持續增長,數據移動操作日益頻繁,內存和存儲的功耗占比只會越來越高,節能型內存和存儲的重要性也將愈發突出。
為了通過優化計算來降低 AI 的能耗,出現了新的計算范式,例如端側和分布式架構。有數據就需要處理,數據處理必然消耗能量,而人類每天生成的數據量已經到了驚人的程度。據估計,到 2025 年,全球每天將產生超過 402 艾字節的數據。這種情況下,作為一種自然的選擇,AI 正在向著數據生成和存儲的位置靠近,而數據駐留在內存和存儲設備中。這些新的計算范式使得內存使用量增加,也為整個系統帶來了額外的功耗優化機會。
如今,系統總功耗的主要組成部分是數據傳輸功耗,包括:從內存傳輸到加速器,從 SSD 轉移到 DRAM,以及跨機架和存儲網絡傳輸。根據 Semianalysis 的一項獨立研究,檢查點和集合通信等內存密集型操作現在是超大規模 AI 集群達到峰值功率的主要原因。這些操作可能導致系統功率出現幾十兆瓦的瞬時波動,顯示出內存在降低系統能耗、維持電網穩定等方面越來越重要的作用。隨著技術節點快速擴展和架構創新,計算系統已經得到顯著優化,而內存系統的優化卻一直比較緩慢。
內存系統是功耗優化的“盲點”。因此,為解決能效問題,我們必須開始著眼于內存。
新的優化規則:內存決定效率
在美光,我們認為未來的可持續 AI 基礎設施將由內存主導。這種方法意味著我們需要從內存出發,重新思考整個架構——內存不應作為出現問題后的補救措施,而應從一開始便作為戰略性基礎設施,用于優化性能和效率。
我們看到,這種思維轉換正在發生:
LPDDR:美光的新一代內存技術可提供行業前沿的每瓦特性能,有助于減少能耗,同時不影響帶寬。這一成就不僅來自于美光通過采用先進工藝節點所獲得的效率提升,還源自于美光致力于優化每種設計中的架構,以實現更高能效的不懈努力。
基于 SSD 的內存分層:利用高性能 SSD 來擴展內存的層次結構,可減少 DRAM 設備的數量,有助于降低閑置功耗。美光利用其行業前沿的第 9 代 NAND 來優化旗下的 SSD 產品組合,以滿足每個內存和存儲層的特定需求。每次必須存儲和移動數據時,都能看到功效顯著提升。
盡可能減少數據傳輸:通過系統架構創新,讓數據更接近計算,減少不必要的傳輸操作,可節約大量能源。
遙測和動態調整:通過對內存子系統的實時功耗分析,可實現智能功耗限制和工作負載感知優化。
這些想法并非理論上的分析。如今它們已部署在世界上一些非常先進的 AI 集群中,運行結果令人欣喜。
戰略要務
對于負責基礎設施的企業領導者而言,這種轉變不僅是一種對新技術的嘗試,更是一種戰略要求。功耗現已成為決定規模大小的關鍵因素。總擁有成本 (TCO) 正在快速攀升。可持續發展則是董事會關注的重點。而傳統基礎設施的發展速度難以跟上 AI 需求的步伐。超大規模 AI 數據中心的工作負載輸出不再受到數據中心內部計算硬件的限制。唯一的限制因素是:它們可以從電網中獲取多少能量。
以內存為主導的效率優化模式提供了一種全新的工具——現在即可使用,未來可通過擴展來解決新的問題。它使超大規模用戶能在相同的供電包絡內部署更多容量。它能夠降低散熱成本和配置成本。它使基礎設施團隊能在不影響可持續性或成本的前提下,滿足下一代 AI 工作負載的需求。
未來展望
當我們展望未來時,“AI 是否會改變世界?”已不再是一個問題——答案是肯定的。我們面臨的問題是:如何推動這種轉變? 答案不僅在于更快的芯片,或者散熱能力更強的數據中心,它還在于更智能的架構,這些架構強調性能和效率更高的內存和存儲,并將內存和存儲作為提升系統能效的核心。
美光很自豪能投資于相關創新技術、合作伙伴關系和系統,讓內存成為大規模可持續 AI 的驅動力,從而引領這一轉變。AI 擁有強大的力量,這是毋庸置疑的。但是,以高效、可持續方式運行的超大規模 AI 背后的驅動力量,才是決定下一個創新時代的關鍵。
讓我們一起創造推動 AI 未來的動力!
-
內存
+關注
關注
9文章
3210瀏覽量
76361 -
AI
+關注
關注
91文章
39793瀏覽量
301381 -
能耗
+關注
關注
1文章
434瀏覽量
13643
原文標題:驅動 AI 的力量:內存是 AI 能效提升的下一個前沿領域
文章出處:【微信號:gh_195c6bf0b140,微信公眾號:Micron美光科技】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
嵌入式開發是否會成為下一個被看好的領域?
使用NORDIC AI的好處
重磅合作!Quintauris 聯手 SiFive,加速 RISC-V 在嵌入式與 AI 領域落地
亞馬遜發布新一代AI芯片Trainium3,性能提升4倍
內存是AI能效提升的下一個前沿領域
評論