助力大型機器學(xué)習(xí)模型訓(xùn)練和生成式AI應(yīng)用程序構(gòu)建
部署在Amazon EC2 UltraCluster中的新型Amazon EC2 P5實例經(jīng)過充分優(yōu)化,可以利用英偉達Hopper GPU加速生成式AI的大規(guī)模訓(xùn)練和推理
北京2023年3月22日/美通社/ --亞馬遜旗下的亞馬遜云科技和英偉達宣布了一項多方合作,致力于構(gòu)建全球最具可擴展性且按需付費的人工智能(AI)基礎(chǔ)設(shè)施,以便訓(xùn)練日益復(fù)雜的大語言模型(LLM)和開發(fā)生成式AI應(yīng)用程序。
借助由NVIDIA H100 Tensor Core GPU支持的下一代Amazon Elastic Compute Cloud(Amazon EC2)P5實例,以及亞馬遜云科技最先進的網(wǎng)絡(luò)和可擴展性,此次合作將提供高達20 exaFLOPS的計算性能來幫助構(gòu)建和訓(xùn)練更大規(guī)模的深度學(xué)習(xí)模型。P5實例將是第一個利用亞馬遜云科技第二代Amazon Elastic Fabric Adapter(EFA)網(wǎng)絡(luò)技術(shù)的GPU實例,可提供3200 Gbps的低延遲和高帶寬網(wǎng)絡(luò)吞吐量。因此客戶能夠在Amazon EC2 UltraCluster中擴展多達2萬個H100 GPU,滿足按需訪問超級計算機的AI性能需求。
"亞馬遜云科技和英偉達合作已超過12年,為人工智能、機器學(xué)習(xí)、圖形、游戲和高性能計算(HPC)等各種應(yīng)用提供了大規(guī)模、低成本的GPU解決方案。"亞馬遜云科技首席執(zhí)行官Adam Selipsky表示,"亞馬遜云科技在交付基于GPU的實例方面擁有無比豐富的經(jīng)驗,每一代實例都大大增強了可擴展性,如今眾多客戶將機器學(xué)習(xí)訓(xùn)練工作負載擴展到1萬多個GPU。借助第二代Amazon EFA,客戶能夠?qū)⑵銹5實例擴展到超過2萬個英偉達H100 GPU,為包括初創(chuàng)公司、大企業(yè)在內(nèi)的所有規(guī)模客戶提供所需的超級計算能力。"
"加速計算和人工智能已經(jīng)到來,而且適逢其時。加速計算提升性能的同時,降低了成本和功耗,讓企業(yè)事半功倍。生成式AI已促使企業(yè)重新思考產(chǎn)品和商業(yè)模式,力求成為顛覆者,而不是被顛覆。"英偉達創(chuàng)始人兼首席執(zhí)行官黃仁勛表示,"亞馬遜云科技是英偉達的長期合作伙伴,也是首家提供英偉達GPU的云服務(wù)提供商。我們很高興能夠結(jié)合各自的專長、規(guī)模和業(yè)務(wù)范圍,幫助客戶利用加速計算和生成式AI抓住未來的大好機遇。"
新的超級計算集群
新的P5實例構(gòu)建于亞馬遜云科技和英偉達十多年來在AI和HPC基礎(chǔ)設(shè)施交付方面的合作基礎(chǔ)之上,也立足于雙方在P2、P3、P3dn和P4d(e)前四代實例方面的合作。P5實例是基于英偉達GPU的第五代亞馬遜云科技產(chǎn)品,與最初部署的英偉達GPU(始于CG1實例)已相隔近13年。
P5實例非常適合對日益復(fù)雜的LLM和計算機視覺模型進行訓(xùn)練和運行推理,并應(yīng)用于要求嚴苛的計算密集型生成式AI應(yīng)用程序,包括問題回答、代碼生成、視頻圖像生成和語音識別等領(lǐng)域。
對于致力于以可擴展和安全的方式將AI賦能的創(chuàng)新推向市場的企業(yè)和初創(chuàng)公司而言,P5實例是不二之選。P5實例采用8個英偉達H100 GPU,能夠在一個Amazon EC2實例中實現(xiàn)16 petaFLOPs的混合精度性能、640 GB的高帶寬內(nèi)存和3200 Gbps的網(wǎng)絡(luò)連接(比上一代實例高出8倍)。P5實例性能的提升使機器學(xué)習(xí)模型訓(xùn)練時間加快了6倍(將訓(xùn)練時間從數(shù)天縮短到數(shù)小時),額外的GPU內(nèi)存可幫助客戶訓(xùn)練更龐大更復(fù)雜的模型。預(yù)計P5實例的機器學(xué)習(xí)模型訓(xùn)練成本將比上一代降低40%。相比靈活性較差的云產(chǎn)品或昂貴的本地系統(tǒng),它為客戶提供了更高的效率。
Amazon EC2 P5實例部署在Amazon EC2 UltraCluster的超大規(guī)模集群中,該集群由云端最高性能的計算、網(wǎng)絡(luò)和存儲系統(tǒng)組成。每個EC2 UltraCluster都是世界上功能最強大的超級計算機之一,助力客戶運行最復(fù)雜的多節(jié)點機器學(xué)習(xí)訓(xùn)練和分布式HPC工作負載。它們采用PB級無阻塞網(wǎng)絡(luò),基于Amazon EFA,這種面向Amazon EC2實例的網(wǎng)絡(luò)接口使客戶能夠在亞馬遜云科技上運行需要在大規(guī)模高級節(jié)點間通信的應(yīng)用程序。EFA的定制操作系統(tǒng)繞過硬件接口,并與英偉達GPUDirect RDMA整合,可降低延遲、提高帶寬利用率,從而提升實例間通信性能,這對于在數(shù)百個P5節(jié)點上擴展深度學(xué)習(xí)模型的訓(xùn)練至關(guān)重要。借助P5實例和EFA,機器學(xué)習(xí)應(yīng)用程序可以使用NVIDIA Collective Communications Library(NCCL)擴展到多達2萬個H100 GPU。因此,客戶可以通過亞馬遜云科技的按需彈性和靈活擴展能力,獲得本地HPC集群的應(yīng)用性能。除了這些出色的計算能力外,客戶可以使用業(yè)界最廣泛最深入的服務(wù)組合,比如面向?qū)ο蟠鎯Φ腁mazon S3、面向高性能文件系統(tǒng)的Amazon FSx,以及用于構(gòu)建、訓(xùn)練和部署深度學(xué)習(xí)應(yīng)用的Amazon SageMaker。P5實例將在今后幾周提供有限預(yù)覽版。欲了解詳情,請訪問https://pages.awscloud.com/EC2-P5-Interest.html。
借助新的Amazon EC2 P5實例,Anthropic、Cohere、Hugging Face、Pinterest和Stability AI等客戶將能夠大規(guī)模構(gòu)建和訓(xùn)練最龐大的機器學(xué)習(xí)模型。基于其它幾代Amazon EC2實例的合作將幫助初創(chuàng)公司、大企業(yè)和研究人員無縫擴展來滿足各自的機器學(xué)習(xí)需求。
Anthropic構(gòu)建了可靠、可解釋和可操控的AI系統(tǒng),將創(chuàng)造巨大商業(yè)價值并造福公眾。"Anthropic正在努力構(gòu)建可靠、可解釋和可操控的AI系統(tǒng)。雖然當(dāng)前已有的大型通用AI系統(tǒng)大有助益,但它們卻是不可預(yù)測、不可靠和不透明的。我們的目的是解決這些問題,為人們部署更實用的系統(tǒng)。"Anthropic的聯(lián)合創(chuàng)始人Tom Brown表示,"我們是全球為數(shù)不多的在深度學(xué)習(xí)研究領(lǐng)域建立基礎(chǔ)模型的組織之一。這種模型高度復(fù)雜,為了開發(fā)和訓(xùn)練先進的模型,我們需要在龐大的GPU集群中有效地分布這些模型。我們正在廣泛應(yīng)用Amazon EC2 P4實例,我們更為即將發(fā)布的P5實例感到興奮。預(yù)計P5實例會提供比P4d實例更顯著的性價比優(yōu)勢,它們可以滿足構(gòu)建下一代大語言模型和相關(guān)產(chǎn)品的大規(guī)模需求。"
Cohere是自然語言AI領(lǐng)域的先驅(qū),它幫助開發(fā)者和企業(yè)使用世界領(lǐng)先的自然語言處理(NLP)技術(shù)構(gòu)建出色的產(chǎn)品,同時確保數(shù)據(jù)的隱私和安全。"Cohere不遺余力地幫助企業(yè)利用自然語言AI的強大功能,以自然直觀的方式探索、生成和搜索信息,并做出反應(yīng),并將產(chǎn)品部署在多云的數(shù)據(jù)環(huán)境中,為客戶提供最佳體驗。"Cohere首席執(zhí)行官Aidan Gomez表示,"基于英偉達H100的Amazon EC2 P5實例將釋放企業(yè)潛能,利用計算能力以及Cohere最先進的LLM和生成式AI能力,更快地開發(fā)產(chǎn)品、拓展業(yè)務(wù)和擴大規(guī)模。"
Hugging Face的使命是普及優(yōu)秀的機器學(xué)習(xí)。"作為發(fā)展最迅猛的機器學(xué)習(xí)開源社區(qū),我們?nèi)缃裨诿嫦騈LP、計算機視覺、生物學(xué)和強化學(xué)習(xí)等領(lǐng)域的平臺上提供逾15萬個預(yù)訓(xùn)練模型和2.5萬個數(shù)據(jù)集。"Hugging Face首席技術(shù)官兼聯(lián)合創(chuàng)始人Julien Chaumond表示,"鑒于大語言模型和生成式AI取得了顯著進步,我們正與亞馬遜云科技合作,以構(gòu)建和貢獻未來的開源模型。我們希望在結(jié)合了EFA的UltraCluster集群中通過大規(guī)模Amazon SageMaker使用Amazon EC2 P5實例,加快為所有客戶交付新的基礎(chǔ)AI模型。"
如今,全球超過4.5億人通過Pinterest尋找視覺靈感,以購買符合自己品味的個性化產(chǎn)品、尋求線下創(chuàng)意,并發(fā)現(xiàn)最有才華的創(chuàng)作者。"我們在用例中廣泛使用深度學(xué)習(xí)技術(shù),比如對上傳到我們平臺上的數(shù)十億張照片進行標(biāo)記和分類,以及讓用戶獲得從靈感到付諸行動的視覺搜索能力。"Pinterest首席架構(gòu)師David Chaiken表示,"我們使用P3和最新的P4d等Amazon GPU實例構(gòu)建和部署了這些應(yīng)用場景。我們希望使用由H100 GPU、EFA和Ultracluster加持的Amazon EC2 P5實例,加快產(chǎn)品開發(fā),為我們的客戶提供共情式AI(Empathetic AI)體驗。"
作為多模態(tài)、開源AI模型開發(fā)和部署領(lǐng)域的領(lǐng)導(dǎo)者,Stability AI與公共和私營部門的合作伙伴合作,將這種下一代基礎(chǔ)架構(gòu)提供給全球受眾。"Stability AI的目標(biāo)是最大限度地提高現(xiàn)代AI的普及性,以激發(fā)全球創(chuàng)造力和創(chuàng)新性。"Stability AI首席執(zhí)行官Emad Mostaque表示,"我們于2021年開始與亞馬遜云科技合作,使用Amazon EC2 P4d實例構(gòu)建了一個潛在的文本到圖像擴散模型Stable Diffusion,我們將該模型部署在大規(guī)模環(huán)境下,將模型訓(xùn)練時間從數(shù)月縮短到數(shù)周。當(dāng)致力于開發(fā)下一代開源生成式AI模型并擴展到新模型時,我們很高興能使用第二代EC2 UltraCluster中的Amazon EC2 P5實例。我們預(yù)計P5實例會進一步將我們的模型訓(xùn)練時間縮短4倍,從而使我們能夠以更低的成本更快地提供突破性的AI。"
為可擴展、高效的AI采用新的服務(wù)器設(shè)計
在H100發(fā)布之前,英偉達和在熱力、電氣和機械領(lǐng)域擁有專業(yè)知識的亞馬遜云科技工程團隊合作設(shè)計了服務(wù)器,以利用GPU提供大規(guī)模AI,重點關(guān)注亞馬遜云科技基礎(chǔ)設(shè)施的能源效率。在某些AI工作負載下,GPU的能效通常是CPU的20倍,對于LLM而言,H100的能效比CPU高300倍。
雙方的合作包括開發(fā)系統(tǒng)散熱設(shè)計、集成式安全和系統(tǒng)管理、與Amazon Nitro硬件加速虛擬機管理程序一起實現(xiàn)安全性,以及針對亞馬遜云科技定制EFA網(wǎng)絡(luò)結(jié)構(gòu)的英偉達GPUDirect?優(yōu)化技術(shù)。
在亞馬遜云科技和英偉達專注于服務(wù)器優(yōu)化工作的基礎(chǔ)上,兩家公司現(xiàn)已開始合作開發(fā)未來的服務(wù)器設(shè)計,以借助新一代系統(tǒng)設(shè)計、冷卻技術(shù)和網(wǎng)絡(luò)可擴展性提高擴展效率。
審核編輯黃宇
-
AI
+關(guān)注
關(guān)注
91文章
39755瀏覽量
301359 -
人工智能
+關(guān)注
關(guān)注
1817文章
50094瀏覽量
265278 -
機器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8553瀏覽量
136928 -
英偉達
+關(guān)注
關(guān)注
23文章
4086瀏覽量
99169 -
亞馬遜
+關(guān)注
關(guān)注
8文章
2731瀏覽量
85735
發(fā)布評論請先 登錄
40億美元!英偉達投資兩家光學(xué)公司,加碼AI算力生態(tài)
Altera攜手生態(tài)伙伴推動下一代先進無線電系統(tǒng)發(fā)展
亞馬遜云科技推出全新的Amazon AI Factories 將客戶現(xiàn)有基礎(chǔ)設(shè)施轉(zhuǎn)化為高性能AI環(huán)境
亞馬遜發(fā)布新一代AI芯片Trainium3,性能提升4倍
安森美SiC器件賦能下一代AI數(shù)據(jù)中心變革
Telechips與Arm合作開發(fā)下一代IVI芯片Dolphin7
英偉達下一代Rubin芯片已流片
安森美攜手英偉達推動下一代AI數(shù)據(jù)中心發(fā)展
偉創(chuàng)力為下一代英偉達AI基礎(chǔ)設(shè)施提供先進電源管理解決方案
愛立信攜手英偉達建設(shè)瑞典AI基礎(chǔ)設(shè)施
德州儀器宣布與英偉達合作,推動 AI 基礎(chǔ)設(shè)施實現(xiàn)高效配電
NVIDIA 采用納微半導(dǎo)體開發(fā)新一代數(shù)據(jù)中心電源架構(gòu) 800V HVDC 方案,賦能下一代AI兆瓦級算力需求
維諦加速推進人工智能基礎(chǔ)設(shè)施演進,助力NVIDIA 800 VDC 電源架構(gòu)發(fā)布
亞馬遜云科技與英偉達攜手開發(fā)下一代基礎(chǔ)設(shè)施
評論