国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

亞馬遜云科技AI Networking解決方案回顧

奇異摩爾 ? 來源:奇異摩爾 ? 2024-12-27 11:25 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

前一段時間的2024 re:Invent 大會中,亞馬遜云科技可謂是重磅連連,發(fā)布了全套最新AI networking基礎(chǔ)設(shè)施方案。亞馬遜云科技公用計(jì)算高級副總裁 Peter DeSantis 首先引用了一篇 2020 年的論文:“AI 場景中巨量的計(jì)算負(fù)載,并不能完全通過 Scale Out AI 集群來解決,同樣也需要 Scale Up單臺 AI 服務(wù)器的能力?!?基于這樣的設(shè)計(jì)思想,Peter 推出了 Trainium2 Server 和 Trainium2 UltraServer。同時單個芯片性能對于集群的總效率也起到了重要的基礎(chǔ)算力作用,本文主要回顧亞馬遜最新的AI Networking片內(nèi)/片間/網(wǎng)間綜合解決方案。

Trainium2 服務(wù)器

Trainium2 和 Trainium2-Ultra 服務(wù)器的構(gòu)建塊就是我們所說的 Trainium2“物理服務(wù)器”。每個 Trainium2 物理服務(wù)器都有一個獨(dú)特的架構(gòu),占用 18 個機(jī)架單元 (RU),由一個 2 機(jī)架單元 (2U) CPU 機(jī)頭托盤組成,該托盤連接到八個 2U 計(jì)算托盤。在服務(wù)器的背面,所有計(jì)算托盤都使用類似于 GB200 NVL36 的無源銅背板連接在一起形成一個 4×4 2D 環(huán)面,不同之處在于,對于 GB200 NVL36,背板將每個 GPU 連接到多個 NVSwitches,而在 Trainium2 上,沒有使用交換機(jī),所有連接都只是兩個加速器之間的點(diǎn)對點(diǎn)連接。

每個 2U 計(jì)算托盤有兩個 Trainium 芯片,沒有 CPU。這與 GB200 NVL72 架構(gòu)不同,在 GB200 NVL72 架構(gòu)中,每個計(jì)算托盤在同一個托盤中同時具有 CPU 和 GPU。每個 Trainium2 計(jì)算托盤通常也被稱為 JBOG,即“只是一堆 GPU”,因?yàn)槊總€計(jì)算托盤沒有任何 CPU,不能獨(dú)立運(yùn)行。

72dc5958-c368-11ef-9310-92fbcf53809c.png

(來源:Semianalysis)

Scale Inside 單個芯片片內(nèi)互聯(lián)

Trainium2芯片

于 2023 年發(fā)布, Trainium2 采用了Multi-Die Chiplet架構(gòu),并使用CoWoS-S/R先進(jìn)封裝技術(shù),將計(jì)算芯粒和(HBM)模塊集成在一個緊湊的封裝(Package)內(nèi)。具體而言,每個 Trainium2 單卡內(nèi)封裝了 2 個 Trainium2 計(jì)算Die,而每個Die旁邊都配備了 2 塊 96GB HBM3 內(nèi)存模塊,提供高達(dá) 46TB/s 的帶寬。目前沒有提及Multi-die間的互聯(lián)協(xié)議,暫且理解為私有協(xié)議。 這種先進(jìn)的封裝設(shè)計(jì)克服了芯片尺寸的工程極限,最大限度地縮小了計(jì)算和內(nèi)存之間的距離,使用大量高帶寬、低延遲的互聯(lián)將它們連接在一起。這不僅降低了延遲,還能使用更高效的協(xié)議交換數(shù)據(jù),提高了性能。

在計(jì)算核心方面,Trainium2 由少量大型 NeuronCore 組成,每個 NeuronCore 內(nèi)部集成了張量引擎、矢量引擎、標(biāo)量引擎和 GPSIMD 引擎,各司其職協(xié)同工作。這種設(shè)計(jì)思路與傳統(tǒng) GPGPU 使用大量較小張量核心形成鮮明對比,大型核心在處理 Gen AI 工作負(fù)載時能夠有效減少控制開銷。目前大模型參數(shù)量級常常到達(dá)數(shù)千億甚至數(shù)萬億,Trainium2 是面向 AI 大模型的高性能訓(xùn)練芯片,與第一代 Trainium 芯片相比,Trainium2 訓(xùn)練速度提升至 4 倍,能夠部署在多達(dá) 10 萬個芯片的計(jì)算集群中,大幅降低了模型訓(xùn)練時間,同時能效提升多達(dá) 2 倍。

Scale Up超節(jié)點(diǎn)間互聯(lián)

在競爭愈發(fā)激烈的 AI 大模型領(lǐng)域中,如何能夠更高效的、更低成本的、更快速擴(kuò)容滿足算力需求的能力,就成為了贏得市場的關(guān)鍵之一。正如亞馬遜云科技公用計(jì)算高級副總裁 Peter 所言:“在推動前沿模型的發(fā)展的進(jìn)程中,對于極為苛刻的人工智能工作負(fù)載來說,再強(qiáng)大的計(jì)算能力也永遠(yuǎn)不夠?!盨cale Up 所帶來的好處就是為大模型訓(xùn)練提供了更大的訓(xùn)練成功率、更高效的梯度數(shù)據(jù)匯聚與同步、更低的能源損耗?;?Trainium2 UltraServer 支撐的 Amazon EC2 Trn2 UltraServer 可以提供高達(dá) 83.2 FP8 PetaFLOPS 的性能以及 6TB 的 HBM3 內(nèi)存,峰值帶寬達(dá)到 185 TB/s,并借助 12.8 Tb/s EFA(Elastic Fabric Adapter)網(wǎng)絡(luò)進(jìn)行互連。讓 AI 工程師能夠考慮在單臺 64 卡一體機(jī)內(nèi)以更短的時間訓(xùn)練出更加復(fù)雜、更加精準(zhǔn)的 AI 模型。

AWS Scale Up也是一個超節(jié)點(diǎn)的HBD域, 其機(jī)架互聯(lián)結(jié)構(gòu)和NVL36類似,由2個機(jī)架緊密耦合組成。一個機(jī)架32個GPU計(jì)算卡,超節(jié)點(diǎn)HBD域共64個GPU計(jì)算卡互聯(lián)。Scale Up超節(jié)點(diǎn)是業(yè)界目前正在積極探索的領(lǐng)域,盡管生態(tài)存在技術(shù)路徑的差異,但基于開放協(xié)議的技術(shù)路徑將是未來GPU互聯(lián)的關(guān)鍵,也是國內(nèi)未來構(gòu)建更大規(guī)模、更高效率集群的必經(jīng)之路。

730a1e9c-c368-11ef-9310-92fbcf53809c.png

(來源:Semianalysis)

Trn2-Ultra SKU 由每個縱向擴(kuò)展域的 4 個 16 芯片物理服務(wù)器組成,因此每個縱向擴(kuò)展域由 64 個芯片組成,由兩個機(jī)架組成,其配置類似于 GB200 NVL36x2。為了沿 z 軸形成圓環(huán),每個物理服務(wù)器都使用一組有源銅纜連接到其他兩個物理服務(wù)器。

NeuronLink 私有協(xié)議構(gòu)成TB級互聯(lián)

Trainium2 UltraServer 一定要提及的就是 NeuronLink,它是一種亞馬遜云科技專有的網(wǎng)絡(luò)互聯(lián)技術(shù),可使多臺 Trainium2 Server 連接起來,成為一臺邏輯上的服務(wù)器。我們可以理解Neuronlink和NVlink類似是一種基于私有的GPU/xPU片間通信協(xié)議。

NeuronLink 技術(shù)可以讓 Trainium2 Server 之間直接訪問彼此的內(nèi)存,并提供每秒 2 TB 的帶寬(高于目前的NVlink),延遲僅為 1 微秒。NeuronLink 技術(shù)使得多臺 Trainium2 Server 就像是一臺超級計(jì)算機(jī)一樣工作,故稱之為 “UltraServer”?!斑@正是訓(xùn)練萬億級參數(shù)的大型人工智能模型所需要的超級計(jì)算平臺,非常強(qiáng)大!” Peter 介紹道。

732d08ee-c368-11ef-9310-92fbcf53809c.png

(來源:Semianalysis)

Scale Out 十萬卡集群網(wǎng)間互聯(lián)

在 Scale Out 層面,亞馬遜云科技正在與 Anthropic 合作部署 Rainier 項(xiàng)目,Anthropic 聯(lián)合創(chuàng)始人兼首席計(jì)算官 Tom Brown 宣布下一代 Claude 模型將在 Project Rainier 上訓(xùn)練。Rainier 項(xiàng)目是一個龐大的 AI 超級計(jì)算集群,包含數(shù)十萬個 Trainium2 芯片,預(yù)計(jì)可提供約 130 FP8 ExaFLOPS 的超強(qiáng)性能,運(yùn)算能力是以往集群的 5 倍多,將為 Anthropic 的下一代 Claude AI 模型提供支持。Rainier 項(xiàng)目將會幫助 Anthropic 的客戶可以用更低價格、更快速度使用到更高智能的 Claude AI 大模型服務(wù)。

73499ab8-c368-11ef-9310-92fbcf53809c.png

(來源:Semianalysis)

對于 Trn2,每個計(jì)算托盤最多有 8 個 200G EFAv3 NIC網(wǎng)卡,每個橫向擴(kuò)展以太網(wǎng)芯片可提供高達(dá) 800Gbit/s 的速度。從計(jì)算托盤連接到 CPU 托盤的籠子也需要一個重定時器。計(jì)算托盤左側(cè)的 Trainium2 芯片將使用與 CPU 托盤連接的前 8 個通道,而右側(cè)的 Trainium2 芯片將使用連接到 CPU 托盤的最后 8 個通道。

對于 Leaf 和 Spine 交換機(jī),AWS 將使用基于 Broadcom Tomahawk4的 1U 25.6T 白盒交換機(jī)。AWS 不使用多個交換機(jī)來組成基于機(jī)箱的模塊化交換機(jī),因?yàn)檫@種設(shè)置的爆炸半徑很大。如果機(jī)箱發(fā)生故障,則機(jī)箱連接的所有線卡和鏈路都會發(fā)生故障。這可能涉及數(shù)百個 Trainium2 芯片。

Front End 前端網(wǎng)絡(luò)

我們提及一下連接傳統(tǒng)以太網(wǎng)的前端網(wǎng)絡(luò),亞馬遜使用的Nitro 芯片作為世界上最早發(fā)布的 DPU 之一,其旨在實(shí)現(xiàn) Network、Storage、Hypervisor、Security 等虛擬化技術(shù)方面的 Workload offloading,消除了傳統(tǒng)虛擬化技術(shù)對 CPU 資源的性能開銷。同時還集成了多種功能,包括 Security Root 信任根、內(nèi)存保護(hù)、安全監(jiān)控等,以此來加強(qiáng) Amazon EC2 實(shí)例的高性能和高安全性。安全性以及加密功能對于云計(jì)算中心的多租戶網(wǎng)絡(luò)安全至關(guān)重要。我們在之前的一期Kiwi Talks有講述智能網(wǎng)卡與DPU在應(yīng)用上的主要區(qū)別,亞馬遜的前端網(wǎng)絡(luò)案例可以讓我們更清楚的了解兩者在應(yīng)用上的不同

用于AI網(wǎng)絡(luò)Scale Out的智能網(wǎng)卡作為更輕量級的硬件多用于網(wǎng)絡(luò)加速,與交換機(jī)等組件共同完成擁塞控制、自適應(yīng)理由、選擇性重傳等系列AI網(wǎng)絡(luò)傳輸問題。SmartNIC和DPU的技術(shù)路徑存在顯著不同。

在 2024 re:Invent 中,我們看到亞馬遜云將 Nitro DPU 與 Graviton CPU 之間的 PCIe 鏈路都進(jìn)行了加密,創(chuàng)建了一個相互鎖定的信任網(wǎng)絡(luò),使 CPU 到 CPU、CPU 到 DPU 的所有連接都由硬件提供安全保護(hù)。

寫在最后,全球主流超大規(guī)模云廠商已經(jīng)成功搭建萬卡集群并朝著十萬卡集群目標(biāo)邁進(jìn)。但礙于生態(tài)壁壘,部分廠商還基于私有協(xié)議在構(gòu)建自有網(wǎng)絡(luò)體系。與此同時,國內(nèi)的萬卡集群在異構(gòu)芯片調(diào)度、軟硬件打通、超節(jié)點(diǎn)HBD域構(gòu)建等方面仍然面臨挑戰(zhàn),未來人工智能網(wǎng)絡(luò)還有很長一段路要走,還有待行業(yè)積極擁抱開源開放的協(xié)議與物理接口,以實(shí)現(xiàn)更緊密的協(xié)同發(fā)展。

關(guān)于我們AI網(wǎng)絡(luò)全棧式互聯(lián)架構(gòu)產(chǎn)品及解決方案提供商

奇異摩爾,成立于2021年初,是一家行業(yè)領(lǐng)先的AI網(wǎng)絡(luò)全棧式互聯(lián)產(chǎn)品及解決方案提供商。公司依托于先進(jìn)的高性能RDMA 和Chiplet技術(shù),創(chuàng)新性地構(gòu)建了統(tǒng)一互聯(lián)架構(gòu)——Kiwi Fabric,專為超大規(guī)模AI計(jì)算平臺量身打造,以滿足其對高性能互聯(lián)的嚴(yán)苛需求。我們的產(chǎn)品線豐富而全面,涵蓋了面向不同層次互聯(lián)需求的關(guān)鍵產(chǎn)品,如面向北向Scale out網(wǎng)絡(luò)的AI原生智能網(wǎng)卡、面向南向Scale up網(wǎng)絡(luò)的GPU片間互聯(lián)芯粒、以及面向芯片內(nèi)算力擴(kuò)展的2.5D/3D IO Die和UCIe Die2Die IP等。這些產(chǎn)品共同構(gòu)成了全鏈路互聯(lián)解決方案,為AI計(jì)算提供了堅(jiān)實(shí)的支撐。

奇異摩爾的核心團(tuán)隊(duì)匯聚了來自全球半導(dǎo)體行業(yè)巨頭如NXP、Intel、Broadcom等公司的精英,他們憑借豐富的AI互聯(lián)產(chǎn)品研發(fā)和管理經(jīng)驗(yàn),致力于推動技術(shù)創(chuàng)新和業(yè)務(wù)發(fā)展。團(tuán)隊(duì)擁有超過50個高性能網(wǎng)絡(luò)及Chiplet量產(chǎn)項(xiàng)目的經(jīng)驗(yàn),為公司的產(chǎn)品和服務(wù)提供了強(qiáng)有力的技術(shù)保障。我們的使命是支持一個更具創(chuàng)造力的芯世界,愿景是讓計(jì)算變得簡單。奇異摩爾以創(chuàng)新為驅(qū)動力,技術(shù)探索新場景,生態(tài)構(gòu)建新的半導(dǎo)體格局,為高性能AI計(jì)算奠定穩(wěn)固的基石。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • gpu
    gpu
    +關(guān)注

    關(guān)注

    28

    文章

    5194

    瀏覽量

    135432
  • 服務(wù)器
    +關(guān)注

    關(guān)注

    14

    文章

    10251

    瀏覽量

    91480
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    39755

    瀏覽量

    301366
  • 亞馬遜
    +關(guān)注

    關(guān)注

    8

    文章

    2731

    瀏覽量

    85738

原文標(biāo)題:十萬卡集群的必經(jīng)之路:亞馬遜云科技AI Networking片內(nèi)/片間/網(wǎng)間互聯(lián)解決方案回顧

文章出處:【微信號:奇異摩爾,微信公眾號:奇異摩爾】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    中科創(chuàng)達(dá)攜手亞馬遜科技推出端一體化邊緣AI解決方案

    作為全球領(lǐng)先的智能操作系統(tǒng)和端側(cè)智能技術(shù)提供商,中科創(chuàng)達(dá)始終致力于通過技術(shù)創(chuàng)新賦能產(chǎn)業(yè)升級。2026年1月8日, 中科創(chuàng)達(dá)(ThunderSoft)在拉斯維加斯CES現(xiàn)場發(fā)表演講,并攜手亞馬遜科技聯(lián)合發(fā)布端一體化邊緣
    的頭像 發(fā)表于 01-14 10:00 ?2022次閱讀

    Proteintech選擇亞馬遜科技為首選服務(wù)商,構(gòu)建行業(yè)首個AI抗體助手加速科研創(chuàng)新

    北京 ——202 6 年 1 月 5 日 亞馬遜科技在2025 re:Invent全球大會上宣布,全球知名的抗體與生命科學(xué)解決方案供應(yīng)商Proteintech選擇亞馬遜
    的頭像 發(fā)表于 01-05 11:14 ?418次閱讀

    亞馬遜科技推出全新的Amazon AI Factories 將客戶現(xiàn)有基礎(chǔ)設(shè)施轉(zhuǎn)化為高性能AI環(huán)境

    亞馬遜科技在2025 re:Invent全球大會上,宣布推出全新的Amazon AI Factories,助力企業(yè)將現(xiàn)有基礎(chǔ)設(shè)施轉(zhuǎn)化為高性能的AI環(huán)境。
    的頭像 發(fā)表于 12-13 13:44 ?725次閱讀

    奇異摩爾Networking for AI生態(tài)沙龍成功舉辦

    近日,中國信息通信研究院華東分院與行業(yè)領(lǐng)先的AI網(wǎng)絡(luò)全棧式互聯(lián)產(chǎn)品及解決方案提供商——奇異摩爾聯(lián)合舉辦的“聚力向芯 算涌無界 Networking for AI”生態(tài)沙龍活動在上海浦東
    的頭像 發(fā)表于 10-09 12:45 ?790次閱讀

    亞馬遜科技“AI在未來”夏日挑戰(zhàn)營圓滿落幕

    亞馬遜科技"AI在未來"夏日挑戰(zhàn)營暨2025年夏令營活動于8月17日至20日在寧夏銀川市成功舉辦。
    的頭像 發(fā)表于 08-26 17:32 ?750次閱讀

    亞馬遜科技AI聯(lián)賽:在全新終極AI對決中學(xué)習(xí)、創(chuàng)新和競爭

    自2018年以來,AWS DeepRacer 已吸引全球超過56萬名開發(fā)者參與,充分印證了開發(fā)者可以通過競技實(shí)現(xiàn)能力成長的實(shí)踐路徑。如今,亞馬遜科技將通過亞馬遜科技
    的頭像 發(fā)表于 08-05 18:03 ?753次閱讀

    The Ocean Cleanup攜手亞馬遜科技 利用AI技術(shù)加速清除海洋塑料

    先進(jìn)的AI檢測系統(tǒng)與計(jì)算技術(shù)將為未來海洋塑料清理提供強(qiáng)大動力,守護(hù)海洋生態(tài)系統(tǒng) ? 北京 ——2025年 7 月 24 日 ?亞馬遜科技宣布將與致力于清除全球海洋和河流塑料污染的非
    的頭像 發(fā)表于 07-24 14:07 ?1010次閱讀

    亞馬遜科技在2025紐約峰會發(fā)布多項(xiàng)AI agent創(chuàng)新

    重磅發(fā)布Amazon Bedrock AgentCore,亞馬遜科技Marketplace上新并追加1億美金投資以加速agentic AI發(fā)展 Amazon Bedrock AgentCore通過
    的頭像 發(fā)表于 07-17 16:06 ?852次閱讀
    <b class='flag-5'>亞馬遜</b><b class='flag-5'>云</b>科技在2025紐約峰會發(fā)布多項(xiàng)<b class='flag-5'>AI</b> agent創(chuàng)新

    軟通動力攜手華為推出AI知識引擎與數(shù)據(jù)工程融合創(chuàng)新解決方案

    在華為開發(fā)者大會2025中,軟通動力攜手華為以華為昇騰AI、盤古大模型、ModelArts等為技術(shù)底座,全新升級數(shù)據(jù)治理基線解決方案,正式發(fā)布A
    的頭像 發(fā)表于 06-28 17:07 ?1604次閱讀

    Agentic AI再豎里程碑,這次引爆革命的還是亞馬遜科技

    科技報(bào)到原創(chuàng)。 誰都知道AI發(fā)展的速度日新月異,但當(dāng)里程碑即將出現(xiàn)時,所有人依然心潮澎湃。 在亞馬遜科技中國峰會上,Agentic AI
    的頭像 發(fā)表于 06-25 10:28 ?579次閱讀
    Agentic <b class='flag-5'>AI</b>再豎里程碑,這次引爆革命的還是<b class='flag-5'>亞馬遜</b><b class='flag-5'>云</b>科技

    Dify攜手亞馬遜科技加速全球企業(yè)生成式AI應(yīng)用規(guī)?;涞?/a>

    簡單易用的AI應(yīng)用開發(fā)平臺Dify通過深度集成亞馬遜科技的生成式AI技術(shù)與服務(wù),在保障性能、合規(guī)與全球交付的基礎(chǔ)上,顯著降低企業(yè)在生成式
    的頭像 發(fā)表于 06-07 16:00 ?870次閱讀

    四維圖新亮相2025亞馬遜科技中國汽車行業(yè)峰會

    ,四維圖新與亞馬遜科技深化合作,打造汽車專屬解決方案,助力汽車企業(yè)在軟件定義汽車、車聯(lián)網(wǎng)以及輔助駕駛系統(tǒng)等領(lǐng)域加速創(chuàng)新及產(chǎn)品落地。
    的頭像 發(fā)表于 04-25 16:27 ?922次閱讀

    亞馬遜科技發(fā)布“3+2”合作伙伴戰(zhàn)略 與合作伙伴加速前行

    北京 ——2025 年 4 月 25 日 在亞馬遜科技中國合作伙伴峰會上,亞馬遜科技發(fā)布“3+2”合作伙伴戰(zhàn)略,聚焦全行業(yè)轉(zhuǎn)型、生成式AI
    發(fā)表于 04-25 14:43 ?1011次閱讀
    <b class='flag-5'>亞馬遜</b><b class='flag-5'>云</b>科技發(fā)布“3+2”合作伙伴戰(zhàn)略 與合作伙伴加速前行

    翎智能單北斗執(zhí)法記錄儀的AI智能識別與云端協(xié)同解決方案

    -云端智判-高效協(xié)同”的一體化解決方案。翎智能單北斗工作記錄儀一、方案核心架構(gòu):北斗+AI+云端的深度融合翎智能單北斗執(zhí)法記錄儀通過“厘
    的頭像 發(fā)表于 04-08 11:35 ?964次閱讀
    <b class='flag-5'>云</b>翎智能單北斗執(zhí)法記錄儀的<b class='flag-5'>AI</b>智能識別與云端協(xié)同<b class='flag-5'>解決方案</b>

    科技提供智慧高速AI視頻分析解決方案

    科技響應(yīng)國家及地方的高速公路信息化、智能化政策,提供“算力+算法+平臺”一體化的智慧高速 AI 視頻分析解決方案,滿足交警部門和高速集團(tuán)日常運(yùn)營和管理需求,通過智能化的手段,提高工作效率。
    的頭像 發(fā)表于 03-27 14:53 ?1056次閱讀