邁入人工智能 (AI) 時代,系統性能越來越多地受到功耗、散熱、內存帶寬和數據傳輸等多重因素制約,而且影響所有計算場景,從千兆瓦級超大規模數據中心到毫瓦級邊緣設備,無一例外。
正如Futurum 的報告《Arm 處于 AI 和數據中心變革的中心》中所述:“AI 并非單一工作負載,也不存在單一理想化的基礎設施。相反,AI 是一系列工作負載的集合,需要一套連貫的策略,兼顧成本效益與性能,滿足多樣化需求。”
代理式 AI 的興起,進一步催生了上述需求。此類模型不再僅對單條提示詞做出響應,而是以多個自主智能體的協作運行,完成規劃、推理并執行各類任務。與孤立的推理調用不同,代理式 AI 系統會生成持續的工作流,涉及內存檢索、工具調用、跨模型與跨服務協同調度,對算力、內存帶寬和系統編排提出源源不斷的要求。
在這一趨勢的影響下,計算基礎設施的設計思路正在發生根本性轉變。AI 系統不再是各種芯片的簡單堆砌,而是形成一體化的整體,CPU、加速器、內存與網絡組件全都協同運行。由此,系統級智能如今已成為決定芯片性能、能效與可擴展性的重中之重。
追求可持續的系統級表現,而非不計成本的極致性能
在現代 AI 數據中心的建設中,客戶不再單純選購“最強 CPU”或“最快加速器”,而是著重于優化機架能效,重點關注每瓦性能,尤其看重在持續、真實工作負載下的表現,而非短時峰值跑分成績。如今單個機架的設計功耗可達 50kW 至 300kW 以上,因此不得不從整體層面進行權衡,單芯片“極限”性能指標的重要性因此下降。
系統平衡變得更為關鍵:
在各個計算組件之間高效傳輸數據;
在機架層面實現每瓦功耗產生更多有效算力;
讓 CPU、GPU、NPU、內存池與互聯架構協同一致、整體運行。
Futurum 報告也指出,行業關注點已從:“能堆多少原始算力”轉向“如何在系統層面,針對多樣化的需求與環境,更加智能地編排算力?”
這一轉變重構了芯片的定位。加速器決定了原始算力吞吐能力,而系統編排(涵蓋任務調度、內存管理、安全管控與數據傳輸)則決定了這種吞吐能否在大規模下持續。若缺少高效的系統編排,從機架層面,受制于內存、網絡或控制面瓶頸,即便最強大的加速器也可能陷入閑置狀態,無法充分發揮性能。
在代理式 AI 工作負載場景中,這種現象會愈發明顯。數百萬軟件智能體并發運行,查詢數據、調用工具、生成輸出、跨服務協同,算力需求從“突發式”供給,轉變為結構性持續供給。為此,基礎設施必須能夠支撐持續不間斷的系統編排與數據傳輸,而非僅滿足模型的瞬時峰值吞吐需求。
CPU 在 AI 時代的重要性愈發凸顯
隨著 AI 模型、工作負載與部署環境的多樣化發展,CPU 正越來越多地充當 AI 的頭節點,即系統的控制中樞,負責對整個系統進行協調與編排。
在大規模 AI 平臺中,CPU 主要負責:
在各種異構加速器之間分派與調度任務;
為各類工作負載管理內存一致性、數據本地化與主機內存卸載,例如 KV 緩存和向量數據庫;
處理純矩陣運算之外的數據預處理與后處理任務;
在整個系統范圍內執行控制平面操作、安全防護與資源隔離。
簡而言之,加速器負責執行驅動 AI 模型的運算,而 CPU 則是將算力轉化為可靠、可擴展、具備實際應用價值的核心。
CPU 的重要性已得到行業頭部企業的驗證和認可。在彭博社的一次采訪中,NVIDIA 創始人兼 CEO 黃仁勛證實,全新 Vera Rubin 平臺所搭載的基于 Arm 架構的 Vera CPU 將作為獨立產品推出。此舉清楚表明,CPU 在 AI 系統設計中的重要性正與日俱增。
此外,隨著 AI 基礎設施日益多元化,CPU 架構憑借靈活性、高能效和系統協同能力,價值和重要性將大幅提升。Arm 的優勢也由此顯現。Futurum 的研究報告明確指出:“GPU 和 TPU 等專用加速器通常會與基于 Arm 架構的 CPU 搭配使用,以承擔通用控制與數據管理任務,同時有效避免高昂的成本與功耗開銷。”
Arm 引領系統級基礎設施的發展
Arm 計算架構的優勢體現在性能、能效、可擴展性與龐大的生態系統上,能夠幫助系統架構師在日新月異的 AI 領域更好地管控風險,而且精準匹配新一代機架級 AI 系統的需求。
以上優勢已在頭部超大規模云服務提供商的實踐中得到驗證:
亞馬遜云科技將基于 Arm 架構的 Graviton CPU 與 Nitro DPU 及 Trainium 加速器相結合,優化機架級能效;
Google 基于 TPU 的系統正越來越多地搭配集成 Arm CPU 核心的 Google Axion 處理器,承擔編排與控制任務;
NVIDIA 的 Grace、Grace-Hopper 和即將推出的 Vera 平臺,均將 GPU 與基于 Arm 架構的 CPU,以及 DPU 配對,打造高度集成化的 AI 系統。
Arm 計算平臺正作為系統基石,將加速器、內存與網絡組件整合到一起,構成協同統一、高能效的整體系統。
AI 正邁向以推理為先的發展階段
盡管模型訓練常常占據新聞頭條,但推理才是 AI 實現規模化的核心。代理式 AI 的興起進一步提升了推理的重要性,因為智能體需要持續運行,執行一連串推理操作,而非單次調用模型。
從眾多路線圖來看,未來十年內推理工作負載將超越訓練工作負載,而推理對系統的要求,與訓練截然不同,主要體現在:
需要更低的延遲;
對內存帶寬更為敏感;
需要持續不間斷運行;
功耗與散熱限制嚴格。
上述要求不僅針對數據中心,同樣適用于邊緣側場景,包括我們日常生活中的消費電子設備與物聯網系統。與云端一樣,邊緣計算同樣遵循相同的系統級設計原則:
性能由加速能力與系統間的數據傳輸效率共同決定;
安全防護依賴系統級協同,實現跨工作負載與內存間的全域防護;
集成速度直接影響產品上市時間。
在邊緣 AI 系統中,如果加速器與內存、互聯沒有緊密耦合,系統就會迅速陷入帶寬、功耗及軟件復雜度等多重瓶頸。只有將 CPU 加速、內存與互聯進行深度集成,才能提供更穩定的性能、更高效的擴展能力,也更利于開發者使用。
Futurum 的報告指出:“以往需要依托云端完成的任務,如今可借助 Arm 高能效核心與集成的 AI 引擎在本地實現。”
規模化系統設計
隨著系統復雜度不斷攀升,集成與驗證環節(而非晶體管設計)正成為成本與風險的主要來源。因此,行業開始轉向采用預集成的計算子系統和標準化系統接口。
在此行業趨勢下,Arm 計算子系統 (Compute Subsystems, CSS)應運而生,市場需求持續增長。CSS 提供經過預先驗證的子系統,為定制化系統設計提供了明確路徑,在降低集成風險的同時,助力合作伙伴實現產品差異化。CSS 不再僅提供獨立的 IP 模塊,而是提供預先驗證的系統設計方案,涵蓋 CPU、互聯、一致性協議與內存管理機制,實現各組件原生協同。
此外,Arm 的系統 IP 產品組合涵蓋互聯控制器、內存控制器與一致性互聯架構,能夠幫助合作伙伴以更低風險、更快速度,設計出全方位面向 AI 優化的系統。在 AI 工作負載同時對帶寬、延遲與功耗提出嚴苛要求的背景下,此等系統級基礎平臺的重要性愈發凸顯。
核心價值與意義
隨著 AI 從孤立的模型推理轉向由智能體驅動的系統,計算基礎設施面臨的核心挑戰變為協同調度,要確保各類處理器、內存系統與網絡能夠作為協調統一的整體運行。
AI 領域的核心競爭力將聚焦于系統層面的四大能力:
在功耗約束下構建高能效系統;
整合異構計算資源,避免架構割裂;
以盡可能低的能耗完成數據傳輸;
將安全與性能內化為系統原生屬性,而非附加功能。
Futurum 的報告總結道:“行業格局的重塑,不僅取決于誰能制造出性能最強的芯片,更取決于誰能打造出覆蓋全場景、高度集成化且高能效的系統。”
憑借系統層面的定制化、高能效與多樣化選擇,Arm 架構正支撐越來越多高可擴展性 AI 計算環境,覆蓋超大規模數據中心至邊緣設備全場景。
AI 的未來,并非單純追求芯片算力提升,而是依托 Arm 架構打造更智能、更高效、更具擴展性的整體系統。
-
ARM
+關注
關注
135文章
9580瀏覽量
393250 -
AI
+關注
關注
91文章
40715瀏覽量
302360 -
算力
+關注
關注
2文章
1627瀏覽量
16819
原文標題:從云到邊緣:系統級智能為何是 AI 發展的基石?
文章出處:【微信號:Arm社區,微信公眾號:Arm社區】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
系統級智能為何是AI發展的基石
評論