以下文章來源于谷歌云服務(wù),作者 Google Cloud
Amin Vahdat
Google Cloud ML、系統(tǒng)和 Cloud AI 副總裁暨總經(jīng)理
在 Google Cloud Next 25 大會上,我們隆重推出第 7 代 Tensor Processing Unit (TPU) — Ironwood。這不僅是我們迄今為止性能最高、擴展性最佳的定制 AI 加速器,更是第一款專為推理而設(shè)計的 TPU。
十多年來,TPU 一直為 Google 最嚴苛的 AI 訓練與執(zhí)行工作負載提供支持,并助力我們的云端客戶實現(xiàn)相同目標。Ironwood 是我們至今最強大、功能最全面且能效最高的 TPU,專為大規(guī)模驅(qū)動思考型(thinking)、推理型(inferential)的 AI 模型而打造。
Ironwood 的問世,代表著 AI 發(fā)展及其底層基礎(chǔ)架構(gòu)演進的重大轉(zhuǎn)變。從為人們提供實時信息以供解讀的響應(yīng)式 AI (responsive AI)模型,轉(zhuǎn)向能夠主動生成洞察和解讀的模型。這就是我們所說的「推理時代」(age of inference),在這個時代,AI agent 將主動檢索和生成數(shù)據(jù),以協(xié)同方式提供洞察與解答,而不僅僅是提供數(shù)據(jù)。
Ironwood 的構(gòu)建旨在支持生成式 AI 的下一個發(fā)展階段及其龐大的計算和通信需求。Ironwood 可以擴展到高達 9,216 顆液冷芯片(liquid cooled chips),這些芯片通過突破性的芯片間互連 (Inter-Chip Interconnect, ICI) 網(wǎng)絡(luò)相連。它是 Google Cloud AI Hypercomputer 架構(gòu)的多項新組件之一,該架構(gòu)旨在整合優(yōu)化硬件與軟件層面,以應(yīng)對最嚴苛的 AI 工作負載。通過 Ironwood,開發(fā)者還能利用 Google 自家的 Pathways 軟件堆棧,可靠且輕松地利用數(shù)萬個 Ironwood TPU 的組合計算能力。
以下我們將深入探討這些創(chuàng)新如何協(xié)同運作,以無與倫比的性能、成本和能效來處理最嚴苛的訓練與執(zhí)行工作負載。
以 Ironwood 驅(qū)動推理時代
Ironwood 的設(shè)計旨在從容應(yīng)對「思考模型」的復(fù)雜計算和通信需求,這類模型涵蓋了大語言模型 (LLMs)、專家混和模型 (Mixture of Experts, MoEs) 和進階推理任務(wù)。這些模型需要大規(guī)模并行處理能力和高效的內(nèi)存訪問。
特別的是,Ironwood 的設(shè)計著重于在執(zhí)行大量的張量運算的同時,最大限度地降低芯片上的數(shù)據(jù)移動和延遲。在前沿應(yīng)用方面,思考模型的計算需求遠遠超出任何單一芯片的處理容量。我們?yōu)?Ironwood TPU 設(shè)計了低延遲、高帶寬的 ICI 網(wǎng)絡(luò),以支持在整個 TPU Pod 規(guī)模下進行協(xié)調(diào)且同步的通信。
針對 Google Cloud 客戶,Ironwood 根據(jù) AI 工作負載的需求提供兩種規(guī)模配置:256 顆芯片配置和 9,216 顆芯片配置。
當擴展到每個 Pod 達 9,216 顆芯片時,總運算能力可達 42.5 百億億次浮點運算每秒(42.5 Exaflops),是世界上最大的超級計算機 El Capitan 的24 倍以上,后者每個 Pod 僅提供 1.7 百億億次浮點運算每秒 (1.7 Exaflops)。Ironwood 提供的大規(guī)模并行處理能力,能夠支持最嚴苛的 AI 工作負載,例如用于訓練和推理、具備思考能力的超大型密集 LLM 或 MoE 模型。每顆獨立芯片的峰值計算能力高達 4,614 萬億次浮點運算每秒(4,614 TFLOPs),代表著 AI 能力的巨大飛躍。此外,Ironwood 的內(nèi)存和網(wǎng)絡(luò)架構(gòu)確保了在如此龐大的規(guī)模下,始終能夠提供正確的數(shù)據(jù)可支持峰值性能。
Ironwood 還配備了增強版的 SparseCore,這是一種專門用于處理高級排名和推薦系統(tǒng)工作負載中常見的超大規(guī)模嵌入(embeddings)的加速器。Ironwood 對 SparseCore 的支持擴大,使其能加速更廣泛的工作負載,甚至跨越傳統(tǒng) AI 領(lǐng)域,進入金融和科學等領(lǐng)域。
Google DeepMind 開發(fā)的機器學習運行時架構(gòu) Pathways,能在多個 TPU 芯片間實現(xiàn)高效的分布式計算。Google Cloud 上的 Pathways 讓使用者能輕易超越單個 Ironwood Pod 的限制,將數(shù)十萬顆 Ironwood 芯片組合在一起,以快速推進生成式 AI 計算的前沿發(fā)展。

圖一:相較于 Google 首款對外提供的 Cloud TPU v2, FP8 總峰值浮點運算性能提升幅度。

圖二:包括最新一代 Ironwood 在內(nèi)的 Cloud TPU 產(chǎn)品 (3D 環(huán)形拓撲結(jié)構(gòu), 3D torus version) 技術(shù)規(guī)格并列比較。FP8 峰值 TFlops 在 v4 與 v5p 上為模擬值,Ironwood 則提供原生支持。
Ironwood 的主要功能
Google Cloud 是唯一一家擁有超過十年提供 AI 計算經(jīng)驗的超大規(guī)模云提供商,不僅支持尖端研究,更將這些技術(shù)無縫整合到全球規(guī)模等級的服務(wù)中,每天為數(shù)十億使用者提供 Gmail、Google 搜索等服務(wù)。這些專業(yè)知識正是 Ironwood 性能的核心所在。主要功能包括:
在性能大幅提升的同時也注重能效,使 AI 工作負載能夠以更符合成本效益的方式運行。Ironwood 的性能功耗比是 2024 年推出的第 6 代 TPU Trillium 的 2 倍。在當前可用電力成為 AI 發(fā)展限制因素之一的時代,我們?yōu)榭蛻舻墓ぷ髫撦d提供了每瓦更多的計算能力。我們先進的液冷解決方案和優(yōu)化的芯片設(shè)計,即使面對持續(xù)繁重的 AI 工作負載,也能可靠地維持高達標準風冷兩倍的性能。事實上,Ironwood 的能效較我們 2018 年推出的首款 Cloud TPU 提升近 30 倍。
大幅增加高帶寬內(nèi)存 (HBM) 容量。Ironwood 每顆芯片提供 192 GB 容量,是 Trillium 的 6 倍,能處理更大的模型和數(shù)據(jù)集計算,減少頻繁的數(shù)據(jù)傳輸需求,進而提升整體性能。
HBM 帶寬大幅提升,單顆芯片可達 7.2 Tbps,是 Trillium 的 4.5 倍。這種高帶寬能確保數(shù)據(jù)快速訪問,這對于現(xiàn)代 AI 中常見的內(nèi)存密集型工作負載至關(guān)重要。
增強芯片間互連 (ICI) 帶寬。雙向傳輸已提高到 1.2 Tbps,是 Trillium 的 1.5 倍,能加速芯片間的通信,有助于提升大規(guī)模分布式訓練和推理的效率。

圖三:相較于最早的 Cloud TPU v2,Google TPU 的能效有顯著提升。此數(shù)據(jù)是以每顆芯片封裝在熱設(shè)計功耗(TDP)下所能達到的 FP8 峰值運算性能(flops per watt)進行衡量。
Ironwood 滿足了未來 AI 的需求
Ironwood 憑借其全面提升的計算能力、內(nèi)存容量、芯片互連技術(shù)進展與可靠性,代表推理時代的一項獨特關(guān)鍵突破。這些突破,加上近 2 倍的能效提升,意味著我們需求最高的客戶能以最高的性能與最低的延遲來處理訓練與推理執(zhí)行工作負載,同時滿足暴增的計算需求。
當前尖端 AI 模型如 Gemini 2.5 和榮獲諾貝爾獎的 AlphaFold, 如今都在 TPU 上運行。我們迫不及待地想看到我們自己的開發(fā)人員和 Google Cloud 客戶在 Ironwood 今年晚些時候推出后,會激發(fā)出哪些 AI 領(lǐng)域的突破。
-
Google
+關(guān)注
關(guān)注
5文章
1807瀏覽量
60509 -
加速器
+關(guān)注
關(guān)注
2文章
839瀏覽量
40096 -
AI
+關(guān)注
關(guān)注
91文章
39746瀏覽量
301338 -
TPU
+關(guān)注
關(guān)注
0文章
170瀏覽量
21654
原文標題:Ironwood:首款適用于 AI 推理時代的 Google TPU
文章出處:【微信號:Google_Developers,微信公眾號:谷歌開發(fā)者】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
直擊英偉達腹地?谷歌TPU v7開放部署,催生OCS產(chǎn)業(yè)鏈紅利
小馬智行第七代Robotaxi深圳單車盈利轉(zhuǎn)正
今日看點:微軟發(fā)布新定制 AI 芯片 Maia 200;國芯科技累計出貨2500萬顆創(chuàng)新高
谷歌云發(fā)布最強自研TPU,性能比前代提升4倍
Google推出第七代TPU芯片Ironwood
評論