最近,Arm 發布首款自研的數據中心 CPU即Arm AGI CPU,專為代理式 AI 基礎設施打造,可實現單機架性能達到 x86 平臺的兩倍以上。

Arm看到,隨著企業不斷擴大由智能體驅動的應用規模,數據中心對每吉瓦 (GW) 功耗提供的CPU算力需求將增長至當前的四倍以上。傳統數據中心架構下每1吉瓦的數據中心算力需要3000萬個CPU核,在AGI時代這一需求將擴展至1.2億個。也就是說,相同功耗限制下實現算力的大幅提升。
面向 AI 規模化基礎設施的ArmCPU既能支撐高吞吐量所需的性能,又能滿足實際功耗限制下的能效要求,同時采用簡化架構,擺脫 x86 處理器的額外開銷與復雜性。如此一來,以高能效為突出特點的Arm CPU在數據中心市場具有巨大的機會。
ArmAGI CPU聚焦三大特性,單線程設計突破性能天花板
Arm AGI CPU 的核心特性從性能、擴展性、能效等方面具體來看。
首先是性能。單顆CPU集成多達136個 Arm NeoverseV3 核心,在單核、系統級芯片 (SoC)、刀片式服務器及機架各層級均實現行業領先的性能表現,同時提供每核心 6GB/s 內存帶寬,時延低于 100 ns。
Arm高管解析,基于臺積電3nm工藝,該CPU主頻可達3.7GHz,每個核配2MB二級緩存,采用96路PCIe 6.0,CXL3.0支持內存擴展功能。DDR5支持6GB帶寬,每個核能夠滿速運行。采用雙小芯片設計,每個小芯片直接集成內存與IO,不需復雜的NUMA架構(非一致性內存訪問架構),或是在片與片間跳轉。
擴展性方面,300瓦TDP 設計,每線程獨立核心,可在持續負載下提供確定性性能,避免降頻與線程閑置。
能效方面,Arm 的參考服務器采用 1OU 雙節點設計,每臺刀片服務器中集成兩顆 CPU 芯片,并配備獨立內存與 I/O,共計 272 個核心。這些刀片服務器可在標準風冷 36 千瓦 (kW) 機架中滿配部署,30 臺刀片服務器可提供總計 8,160 個核心。此外,Arm 還與 Supermicro 合作推出 200 千瓦 (kW) 液冷設計方案,可容納 336 顆 Arm AGI CPU,提供超過 45,000 個核心。
“確保每個時鐘周期完成更多工作負載,這一直是ARM的優勢。傳統上CPU通過提升頻率、超頻來提升運行速度,但功耗也會隨之提升。超頻是沒有辦法長期穩定運行的。傳統架構多線程狀態下兩個任務一個核工作,但IO和帶寬并沒有提升,只是把瓶頸移到了其他地方,而且CPU還要管理這些進程。數據中心運營商不得不超配30%或更多來解決非線程拓展的問題。但AGI CPU使用單線程,就可以全程穩定和滿性能運行,我們可以線性拓展,我們的IO子系統為匹配這些核提供6GB內存帶寬。”
這些特性能夠實現更高的工作負載密度,更優的加速器利用率,并在現有功耗預算內釋放更多可用算力。Arm AGI CPU 可實現單機架性能達到 x86 平臺的兩倍以上,每吉瓦 AI 數據中心算力的資本支出 (CAPEX) 節省高達 100 億美元。
從IP到CSS再到自研芯片全方位方案,市場足夠大客戶認可度高
Arm高管表示,合作伙伴可根據需求,靈活選擇 Arm IP 授權、 Arm CSS 方案,或直接部署 Arm 自主設計的芯片產品。
在談到這種商業模式是否會與客戶競爭時,Arm高管直言他們的多元化服務得到了客戶的積極支持。他說,我們認為這一市場蘊藏著極其巨大的機遇,足以容納眾多參與者。除自研芯片外,我們將繼續保留IP授權、計算子系統 (CSS) 授權的商業模式,我們的戰略是通過產品矩陣的拓展滿足廣泛客戶的多元化需求。包括亞馬遜、谷歌、微軟在內的多家Arm技術授權客戶均對此次發布表示支持,他們不僅為Arm,也為整個生態感到振奮。此外,NVIDIA 也在相關視頻中發表了積極評價,這些足以體現產業鏈各方對我們這一布局的態度。
Arm 已確認與Meta、Cerebras、Cloudflare、F5 科技、OpenAI、Positron、Rebellions、SAP、SK 電訊等企業達成進一步的商務合作。這些客戶將在代理式 CPU 核心應用場景中部署 Arm AGI CPU,覆蓋加速器管理、控制平面處理、云與企業級 API、任務與應用托管等領域。
為加快產品落地與規模化部署,Arm 與永擎電子、聯想、廣達電腦、Supermicro 等頭部 OEM 廠商及 ODM 廠商展開合作,早期系統現已推出,更廣泛的商用部署預計將于今年下半年落地。
超大規模云服務商、云計算、芯片、內存、網絡、軟件、系統設計與制造等領域的 50 余家領軍企業,均對 Arm 計算平臺向芯片領域拓展表示支持。其中包括亞馬遜云科技、博通、谷歌、Marvell、美光、微軟、NVIDIA、三星、SK 海力士、臺積公司等行業標桿企業。
發布評論請先 登錄
NVIDIA推出Vera CPU以顯著提升系統性能與能效
Nginx高并發連接調優實戰手冊
最小化ARM Cortex-M CPU功耗的方法與技巧分享
那么龍芯CPU性能如何呢?
Linux多線程對比單線程的優勢
ARM技術的特點
Arm KleidiAI與XNNPack集成實現AI性能提升
Arm首款自研AGI CPU盡顯Arm能效之優!單線程釋放強大性能,同等機架塞更多CPU功耗還更低
評論