亚洲一区二区三区中文字,大香蕉久久,久久亚洲欧美导航

以下文章來源于谷歌云服務(wù)，作者 Google Cloud

Amin Vahdat

ML、系統(tǒng)與 Cloud AI 副總裁/總經(jīng)理

Mark Lohmeyer

計算與 ML 基礎(chǔ)設(shè)施副總裁/總經(jīng)理

生成式 AI 模型正在迅速發(fā)展，提供了前所未有的精密性和功能。這項技術(shù)進展得以讓各行各業(yè)的企業(yè)和開發(fā)人員能夠解決復(fù)雜的問題，開啟新的機遇之門。然而，生成式 AI 模型的增長也導(dǎo)致訓(xùn)練、調(diào)整和推理方面的要求變得更加嚴苛。過去五年來，生成式 AI 模型的參數(shù)每年增長十倍，如今的大模型具有數(shù)千億甚至上萬億項參數(shù)，即使在最專業(yè)的系統(tǒng)上仍需要相當長的訓(xùn)練時間，有時需持續(xù)數(shù)月才能完成。此外，高效的 AI 工作負載管理需要一個具備一致性能、優(yōu)化的計算、存儲、網(wǎng)絡(luò)、軟件和開發(fā)框架所組成的集成 AI 堆棧。

為了應(yīng)對這些挑戰(zhàn)，我們很高興宣布推出 Cloud TPU v5p，這是 Google 迄今為止功能、可擴展性、靈活性最為強大的 AI 加速器。長期以來，TPU 一直是訓(xùn)練和服務(wù) AI 支持的產(chǎn)品的基礎(chǔ)，例如 YouTube、Gmail、Google 地圖、Google Play 和 Android。事實上，Google 剛剛發(fā)布的功能最強大的通用 AI 模型 Gemini 就是使用 TPU 進行訓(xùn)練和服務(wù)的。

此外，我們也宣布推出 Google Cloud AI Hypercomputer，這是一種突破性的超級計算機架構(gòu)，采用集成系統(tǒng)，并結(jié)合了性能優(yōu)化的硬件、開放軟件、領(lǐng)先的 ML 框架和靈活的消費模式。傳統(tǒng)方法通常是以零碎的組件級增強來解決要求嚴苛的 AI 工作負載，這可能會導(dǎo)致效率不佳和性能瓶頸。相比之下，AI Hypercomputer 采用系統(tǒng)級協(xié)同設(shè)計來提高 AI 訓(xùn)練、調(diào)整和服務(wù)的效率和生產(chǎn)力。

探索 Cloud TPU v5p

Google Cloud 目前功能最強大

可擴展能力最佳的 TPU 加速器

上個月，我們宣布全面推出 Cloud TPU v5e。相較于上一代 TPU v4¹，TPU v5e 的性價比提高了 2.3 倍，是我們目前最具成本效益的 TPU。而 Cloud TPU v5p 則是我們目前功能最強大的 TPU。每個 TPU v5p pod 由 8,960 個芯片組成，采用了我們帶寬最高的芯片間互連 (Inter-chip Interconnect, ICI) 技術(shù)，以 3D 環(huán)形拓撲結(jié)構(gòu)實現(xiàn)每芯片 4,800 Gbps 的速率。與 TPU v4 相比，TPU v5p 的每秒浮點運算次數(shù) (FLOPS) 提高 2 倍以上，高帶寬內(nèi)存 (High-bandwidth Memory, HBM) 則增加 3 倍。

TPU v5p 專為性能、靈活性和可擴展性設(shè)計，相較于上一代 TPU v4，TPU v5p 訓(xùn)練大型 LLM 的速度提升 2.8 倍。此外，若搭配第二代 SparseCores，TPU v5p 訓(xùn)練嵌入密集模型的速度比 TPU v4² 快 1.9 倍。

資料來源: Google 內(nèi)部數(shù)據(jù)。截至 2023 年 11 月，GPT-3 1750 億參數(shù)模型的所有數(shù)據(jù)均按每芯片 seq-len=2048 為單位完成標準化。

資料來源: TPU v5e 數(shù)據(jù)來自 MLPerf 3.1 Training Closed 的 v5e 結(jié)果；TPU v5p 和 v4 基于 Google 內(nèi)部訓(xùn)練運行。截至 2023 年 11 月，GPT-3 1750 億參數(shù)模型的所有數(shù)據(jù)均按每芯片 seq-len=2048 為單位完成標準化。并以 TPU v4：3.22 美元/芯片/小時、TPU v5e：1.2 美元/芯片/小時和 TPU v5p：4.2 美元/芯片/小時的公開定價顯示每美元相對性能。

TPU v5p 不僅性能更佳，就每 Pod 的總可用 FLOPS 而言，TPU v5p 的可擴展能力比 TPU v4 高 4 倍，且 TPU v5p 的每秒浮點運算次數(shù) (FLOPS) 是 TPU v4 的兩倍，并在單一 Pod 中提供兩倍的芯片，可大幅提升訓(xùn)練速度相關(guān)性能。

Google AI Hypercomputer

大規(guī)模提供頂尖性能和效率

實現(xiàn)規(guī)模和速度是必不可少的，但并不足以滿足現(xiàn)代 AI/ML 應(yīng)用程序和服務(wù)的需求。軟硬組件必須組合相輔相成，組成一個易于使用、安全可靠的集成計算系統(tǒng)。Google 已針對此問題投入數(shù)十年的時間進行研發(fā)，而 AI Hypercomputer 正是我們的心血結(jié)晶。此系統(tǒng)集結(jié)了多種能協(xié)調(diào)運作的技術(shù)，能以最佳方式來執(zhí)行現(xiàn)代 AI 工作負載。

? ? ?

性能優(yōu)化硬件: AI Hypercomputer 以超大規(guī)模數(shù)據(jù)中心基礎(chǔ)設(shè)施為基礎(chǔ)構(gòu)建，采用高密度足跡、水冷技術(shù)和我們的 Jupiter 數(shù)據(jù)中心網(wǎng)絡(luò)技術(shù)，在計算、存儲和網(wǎng)絡(luò)功能上均能提供最佳性能。所有這一切都基于以效率為核心的各項技術(shù)，利用清潔能源和對水資源管理的堅定承諾，助力我們邁向無碳未來。

開放軟件: AI Hypercomputer 使開發(fā)人員能夠通過使用開放軟件來訪問我們性能優(yōu)化的硬件，利用這些硬件調(diào)整、管理和動態(tài)編排 AI 訓(xùn)練和推理工作負載。

廣泛支持主流 ML 框架 (例如 JAX、TensorFlow 和 PyTorch) 且提供開箱即用。如要構(gòu)建復(fù)雜的 LLM，JAX 和 PyTorch 均由 OpenXLA 編譯器提供支持。XLA 作為基礎(chǔ)設(shè)施，支持創(chuàng)建復(fù)雜的多層模型。XLA 優(yōu)化了各種硬件平臺上的分布式架構(gòu)，確保針對不同的 AI 場景高效開發(fā)易于使用的模型。
提供開放且獨特的 Multislice Training 及 Multihost Inferencing 軟件，分別使擴展、訓(xùn)練和提供模型的工作負載變得流暢又簡單。若要處理要求嚴苛的 AI 工作負載，開發(fā)人員可將芯片數(shù)量擴展至數(shù)萬個。
與 Google Kubernetes Engine (GKE) 和 Google Compute Engine 深度集成，實現(xiàn)高效的資源管理、一致的操作環(huán)境、自動擴展、自動配置節(jié)點池、自動檢查點、自動恢復(fù)和及時的故障恢復(fù)。

靈活的消費模式: AI Hypercomputer 提供多種靈活動態(tài)的消費方案。除了承諾使用折扣 (Committed Used Discunts, CUD)、按需定價和現(xiàn)貨定價等經(jīng)典選項外，AI Hypercomputer 還通過 Dynamic Workload Scheduler 提供針對 AI 工作負載量身定制的消費模式。Dynamic Workload Scheduler 包含兩種消費模式: Flex Start 模式可實現(xiàn)更高的資源獲取能力和優(yōu)化的經(jīng)濟效益；Calendar 模式則針對作業(yè)啟動時間可預(yù)測性更高的工作負載。

利用 Google 的豐富經(jīng)驗

助力 AI 的未來發(fā)展

Salesforce 和 Lightricks 等客戶已在使用 Google Cloud 的 TPU v5p 以及 AI Hypercomputer 來訓(xùn)練和服務(wù)大型 AI 模型——并發(fā)現(xiàn)了其中的差異：

"我們一直在使用 Google Cloud 的 TPU v5p 對 Salesforce 的基礎(chǔ)模型進行預(yù)訓(xùn)練，這些模型將作為專業(yè)生產(chǎn)用例的核心引擎，我們看到訓(xùn)練速度獲得了顯著提升。事實上，Cloud TPU v5p 的計算性能比上一代 TPU v4 高出至少 2 倍。我們還非常喜歡使用 JAX 順暢地從 Cloud TPU v4 過渡到 v5p。我們期待能通過 Accurate Quantized Training (AQT) 庫，運用 INT8 精度格式的原生支持來優(yōu)化我們的模型，進一步提升速度。"

——Salesforce 高級研究科學(xué)家

Erik Nijkamp

"憑借 Google Cloud TPU v5p 的卓越性能和充足內(nèi)存，我們成功地訓(xùn)練了文本到視頻的生成模型，而無需將其拆分成單獨進程。這種出色的硬件利用率大大縮短了每個訓(xùn)練周期，使我們能夠迅速開展一系列實驗。能在每次實驗中快速完成模型訓(xùn)練的能力加快了迭代速度，為我們的研究團隊在生成式 AI 這個競爭激烈的領(lǐng)域帶來寶貴優(yōu)勢。"

——Lightricks 核心生成式 AI 研究團隊主管

Yoav HaCohen 博士

"在早期使用過程中，Google DeepMind 和 Google Research 團隊發(fā)現(xiàn)，對于 LLM 訓(xùn)練工作負載，TPU v5p 芯片的性能比 TPU v4 代提高了 2 倍。此外，AI Hypercomputer 能為 ML 框架 (JAX、PyTorch、TensorFlow) 提供強大的支持和自動編排工具，使我們能夠在 v5p 上更高效地擴展。搭配第二代 SparseCores，我們也發(fā)現(xiàn)嵌入密集型工作負載 (embeddings-heavy workloads) 的性能得到顯著提高。TPU 對于我們在 Gemini 等前沿模型上開展最大規(guī)模的研究和工程工作至關(guān)重要。"

—— Google DeepMind 和 Google Research

首席科學(xué)家 Jeff Dean

在 Google，我們一直堅信 AI 能夠幫助解決棘手問題。截至目前，大規(guī)模訓(xùn)練與提供大型基礎(chǔ)模型對于許多企業(yè)來說都過于復(fù)雜且昂貴。現(xiàn)在，通過 Cloud TPU v5p 和 AI Hypercomputer，我們很高興能將我們在 AI 和系統(tǒng)設(shè)計領(lǐng)域數(shù)十年的研究成果與我們的用戶分享，以便他們能夠更快、更高效、更具成本效益地運用 AI 加速創(chuàng)新。

1: MLPerf v3.1 Training Closed 的結(jié)果多個基準如圖所示。資料日期：2023 年 11 月 8 日。資料來源：mlcommons.org。結(jié)果編號：3.1-2004。每美元性能并非 MLPerf 的評估標準。TPU v4 結(jié)果尚未經(jīng) MLCommons 協(xié)會驗證。MLPerf 名稱和標志是 MLCommons 協(xié)會在美國和其他國家的商標，并保留所有權(quán)利，嚴禁未經(jīng)授權(quán)的使用。更多信息，請參閱 www.mlcommons.org。

2: 截至 2023 年 11 月，Google TPU v5p 內(nèi)部資料：E2E 執(zhí)行時間 (steptime)、搜索廣告預(yù)估點擊率 (SearchAds pCTR)、每個 TPU 核心批次大小為 16,384、125 個 vp5 芯片。

?點擊屏末|閱讀原文|即刻查看詳細內(nèi)容

原文標題：Google Cloud 推出 TPU v5p 和 AI Hypercomputer: 支持下一代 AI 工作負載

文章出處：【微信公眾號：谷歌開發(fā)者】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

谷歌

谷歌

+關(guān)注

關(guān)注
27

文章
6254

瀏覽量
111377

原文標題：Google Cloud 推出 TPU v5p 和 AI Hypercomputer: 支持下一代 AI 工作負載

文章出處：【微信號：Google_Developers，微信公眾號：谷歌開發(fā)者】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

搜索歷史

Google Cloud 推出 TPU v5p 和 AI Hypercomputer: 支持下一代 AI 工作負載

評論