十余年來,云計算依托抽象化架構實現規模化擴展。標準化服務器、虛擬化資源與通用型基礎設施,讓超大規模云服務提供商得以在同質化硬件基礎上持續疊加軟件創新,實現高速增長。而這個時代,已然落幕。
人工智能 (AI) 徹底改寫了這一格局。現代 AI 工作負載對數據中心的業務格局、供電保障與系統設計提出的要求,已遠超基于傳統 x86 架構的通用基礎設施所能承載的限度。由此,行業正迎來一場根本性變革:從由通用部件組裝而成的通用型基礎設施,轉向為 AI 端到端量身設計的定制化融合型系統。
這絕非小修小補的局部優化,而是全球頂尖計算平臺在設計、部署與規模化層面的結構性變革。
AI 促使對數據中心設計的重新思考
這場變革的規模之大,再怎么強調都不為過。這種增長絕非依靠能效優化或擴大采購規模就能消化的漸進式提升。
AI 工作負載 —— 尤其是大規模訓練與快速增長的推理場景 —— 對基礎設施提出了本質上截然不同的需求:
訓練負載需要極致計算密度、先進散熱方案,以及高度協同的系統。
支撐實時 AI 應用的推理負載,對延遲高度敏感,規模化部署時能耗高,且正愈發趨向靠近用戶的分布式部署。
據麥肯錫預測[1],到 2030 年,推理將超越訓練,成為主要的 AI 工作負載,占比將超過 AI 總算力的一半,貢獻數據中心總需求的 40% 之多。僅這一轉變,就足以徹底重塑基礎設施的設計邏輯。
與此同時,《麻省理工科技評論》指出[2],超大規模 AI 設施正越來越多地被打造為專用超級計算機,搭載定制芯片、專用散熱系統,乃至量身定制的供電方案。如今,部分超大型計算設施的耗電量已突破一吉瓦,相當于一座城市的整體用電需求。
結論顯而易見:基于傳統架構、高能耗的通用型基礎設施,已然無法滿足新時代的需求。
為何通用方式已難以滿足新時代需求
過去,云服務提供商主要通過組裝定制化配置形成差異化優勢 —— 將現成的 CPU 與加速器、網絡及存儲設備,按適配特定工作負載的方式進行優化。當性能提升主要來自于軟件和規模時,這種方法是有效的。
然而 AI 打破了這一模式。它將傳統云端工作負載進一步融入 AI 業務本身。現代 AI 系統要求計算、內存、網絡、電力及軟件之間實現高度協同。訓練過程中的功耗波動可在毫秒內達到 30% 至 60%,這就需要穩定的電力傳輸與容錯設計;與此同時,推理負載必須在大規模場景下(往往是在嚴格的能耗限制下),提供穩定、低時延的性能表現。
隨著 AI 系統不斷擴展,通用計算處理正日益與推理并行運行,處于訓練流水線的上游,以及調度工作負載、遷移數據、執行安全策略并保障復雜系統可靠運行的編排層之下。
簡而言之,隨著 AI 基礎設施日益系統化運行,CPU 正變得更加核心。在 AI 工作負載需持續供給、協同、保障安全并實現規模化擴展的當下,通用計算正從一個相對獨立的層級,演進為將整個 AI 平臺緊密聯結的關鍵紐帶。
正如麥肯錫在其 AI 工作負載報告中所指出的,這一趨勢正推動超大規模云服務提供商轉向專用架構,包括更多采用定制芯片、專用加速器,以及圍繞每瓦性能優化的 Arm 架構。
這種轉變并非為了定制而定制,而是體現了一種深刻認知:尤其是在推理規模化場景下,AI 經濟邏輯如今由能效、利用率與系統級優化所決定。
定制化正逐漸成為行業標準
這一趨勢在整個云生態系統中已初現端倪。據麥肯錫報告顯示,如今 70% 的新建核心云計算園區,正將通用計算與 AI 推理整合在同一物理空間內,而非將 AI 系統孤立部署在獨立設施中。超大規模云服務提供商也正從以往分散的節點,加速整合為統一、面向 AI 優化的園區模式,預計到 2030 年,該模式將占全部部署量的 70%。
德勤的研究[3]同樣印證了這一趨勢。隨著企業從 AI 試驗階段快速邁向規模化落地,AI 已成為基礎能力,基礎設施策略也隨之轉向混合式、按工作負載優化的架構,以便在云端、本地和邊緣環境之間平衡性能、成本與能效。
與此同時,“融合型 AI 數據中心”的興起 —— 即專為 AI 處理而設計的集成化環境 —— 進一步凸顯出一個行業共識:要實現 AI 的可持續擴展,就必須從一開始就圍繞 AI 需求設計系統,而不是在傳統架構上進行改造。
定制化系統需要系統級的協同設計
定制化并不意味著“單一用途”,而是指以明確目標為導向的架構設計,讓系統中的每一層都能協同強化。
隨著 AI 基礎設施從獨立的工作負載,邁向高度集成的系統架構,CPU 在硬件層面的戰略價值愈發凸顯。CPU 不再僅服務于通用計算,更是控制層面的核心樞紐:負責協調日益復雜的運行環境、調度與均衡 AI 及通用計算負載、管理全系統數據遷移,并在大規模部署中保障安全與隔離能力。
智能體 AI (Agentic AI) 的崛起,正是這一系統級變革的典型體現。與傳統 AI 流水線不同,這類系統從架構設計層面就依賴異構計算。在這種模式中,CPU 作為高性能頭節點,承擔規劃與系統編排、通過小語言模型進行模式識別、管理上下文與內存,以及系統各部分的具體執行等任務。與此同時,加速器則專注發揮所長,為大語言模型與多模態工作負載提供高吞吐推理能力。
在這一層級的系統編排中,任何單一組件或企業都無法孤立運作。專為 AI 打造的平臺,唯有讓硬件、軟件及生態伙伴整體設計、協同運轉,才能真正釋放價值。
Arm Neoverse 平臺正是這一模式的典范。它依托貫通云端到邊緣側的統一架構,將 CPU 創新、系統 IP、軟件賦能及全球合作伙伴生態深度融合,支撐 AI 工作負載的規模化部署。Neoverse 不追求一刀切的通用方案,而是支持面向特定市場與場景的定制化設計,無論是超大規模云端推理、企業級 AI,還是邊緣側部署,均可精準賦能。
在 AI 工作負載日趨多元化的當下,這種靈活性至關重要。輕量化、高能效的模型快速普及,推理環節愈發貼近用戶終端設備;與此同時,從機器人到自主設備等全新物理 AI 系統,對實時性、功耗與安全性都提出了更高要求。定制化平臺能夠系統性地滿足這些需求,同時避免軟件生態的碎片化。
一系列合作伙伴及生態發展表明,整個行業正向定制化解決方案邁進。各個超大規模云服務提供商,正將基于 Neoverse 的計算平臺,作為平衡性能、能效及實現規模化的標準路徑:
Amazon Graviton CPU:目前在 EC2 前 1000 大的客戶中采用率達 98%,新增 CPU 算力中超 50% 基于 Graviton。如今已迭代至第五代的基于 Arm 架構的 Graviton,正成為行業整體變革的重要一環;Arm 也日益成為定義 AI 時代各類平臺的核心支撐。在 Amazon Trainium3 UltraServers 中,Trainium3 加速器、Graviton CPU 與 Amazon Nitro 卡深度協同,基于 Arm 的定制化芯片是其核心基石。
Microsoft Azure Cobalt 處理器 (Cobalt 100 /Cobalt 200)為優化 Microsoft Azure AI 數據中心提供算力支撐。
Google Axion 處理器憑借更豐富的虛擬機選項,進一步提升云端與 AI 工作負載的性能表現。
NVIDIA Grace Blackwell 與最新的NVIDIA Vera Rubin 平臺則將 Arm CPU 與 AI 加速器結合,賦能全球領先的 AI 系統及超級計算機。
各大主流云服務提供商紛紛推出基于 Arm 架構的自研 CPU,這并非碎片化,而是行業在定制化模式上的高度收斂:在現代 AI 基礎設施中,能效比、可預期的擴展能力、與加速器的深度協同,遠比一刀切的通用兼容性更重要。
更值得關注的是,這些方案并非路線各異,而是高度趨同:Amazon Graviton、Microsoft Azure Cobalt、Google Axion 以及 NVIDIA Grace、Vera Rubin 均為獨立研發,卻最終指向同一結論 —— 基于 Neoverse 的定制化計算,正在重新定義現代 AI 數據中心;而通用 x86 處理器,已無法適配現代 AI 基礎設施的規模化部署與成本效益需求。
從通用到定制化:未來邁向何方
電力供應已成為戰略性制約因素,向定制化基礎設施轉型,不再只是技術選擇,更是經濟層面的必然決策。AI 已成為數字基礎設施的核心重心。在此背景下,能效比、可預期的擴展能力及系統級效率,早已不是附加選項,而是核心競爭優勢。
在此背景下,行業已轉向全新模式,即采用專為規模化、可持續、高效釋放 AI 性能而打造的 Arm 定制化平臺。這場轉型仍在推進,但方向已然清晰。云端 AI 的未來,不在于堆砌更多硬件組件,而在于構建更優的系統,將 AI 作為核心需求,而非事后附加功能的系統。
定制化基礎設施,正是行業通往這一未來的路徑。
-
服務器
+關注
關注
14文章
10250瀏覽量
91476 -
數據中心
+關注
關注
18文章
5647瀏覽量
75007 -
AI
+關注
關注
91文章
39746瀏覽量
301338
原文標題:從通用到定制化:AI 基礎設施正邁入全新紀元
文章出處:【微信號:Arm社區,微信公眾號:Arm社區】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
迅為iTOP-Hi3403開發板:解鎖多目拼接相機的10.4TOPS強“芯”動力,開啟4K智能視覺新紀元
亞馬遜云科技推出全新的Amazon AI Factories 將客戶現有基礎設施轉化為高性能AI環境
Microsoft Azure Cobalt 200 開啟AI時代Arm架構計算新紀元
Arm Neoverse平臺集成NVIDIA NVLink Fusion
偉創力重磅發布全球首款面向千兆瓦級數據中心的AI基礎設施平臺
智慧科研新紀元:善思創興引領AI與自動化變革
麥捷科技與光明實驗室開啟AI物理交互新紀元
NVIDIA通過全新 Omniverse庫、Cosmos物理AI模型及AI計算基礎設施,為機器人領域開啟新篇章
Arm如何助力AI基礎設施變革
泰芯半導體開啟AIOT高效傳輸新紀元
解讀基于Arm Neoverse V2平臺的Google Axion處理器
如何在基于Arm Neoverse平臺的CPU上構建分布式Kubernetes集群
英偉達GTC2025亮點:NVIDIA與行業領先存儲企業共同推出面向AI時代的新型企業基礎設施
NVIDIA 與行業領先的存儲企業共同推出面向 AI 時代的新型企業基礎設施
Arm Neoverse計算平臺驅動AI基礎設施開啟全新紀元
評論