国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

一文看懂AI算力集群

穎脈Imgtec ? 2025-07-23 12:18 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

最近這幾年,AI浪潮席卷全球,成為整個社會的關注焦點。大家在討論AI的時候,經常會提到AI算力集群。AI的三要素,是算力、算法和數據。而AI算力集群,就是目前最主要的算力來源。它就像一個超級發電廠,可以給AI浪潮提供源源不斷的動力。那么,AI算力集群,到底是由哪些東西組成的呢?它為什么能夠提供澎湃的算力?它的內部結構又是怎樣的呢?包括了哪些關鍵技術?接下來,小棗君就通過這篇文章,給大家做一個全面梳理。


什么是AI算力集群?

AI算力集群,顧名思義,就是能夠為AI計算任務提供算力的集群系統。集群,英文是cluster,指的是一組相互獨立的、通過高速網絡互聯的設備。
網上也有定義指出,AI算力集群,指的是“通過高速網絡,將大量高性能計算節點(如GPU/TPU服務器)互聯,從而形成的一種分布式計算系統?!贝饲靶椌o大家介紹AI智算的時候說過,所謂AI智算,無非就是訓練和推理兩大任務。訓練的計算量大、難度高,對算力的要求也高。推理的計算量相對較小,難度相對較低,對算力的要求也低。無論是訓練和推理,都涉及到大量的矩陣運算(如卷積、張量乘法)任務。這些計算天然可以分解為獨立子任務進行并行處理。所以,擅長并行計算的GPU、NPU、TPU等芯片,就成為了AI計算的主要工具。這些芯片也被統稱為AI芯片。AI芯片是提供AI算力的最基本單元。單個芯片是沒辦法工作的,需要集成在電路板上。于是,將AI芯片嵌入在手機主板上,或者直接集成到手機SoC主芯片上,就可以為手機提供AI算力。集成在物聯網設備模組上,就可以為物聯網設備(汽車、機械臂、AGV無人車、攝像頭等)提供AI算力。這些是端側算力。將AI芯片集成在基站、路由器、網關等設備里,就是邊緣側算力。這些設備體積小,AI芯片就1個,算力很弱,主要完成一些推理計算任務。想要完成更為復雜的訓練任務,就需要一個能搭載更多AI芯片的硬件平臺。將AI芯片做成AI算力板卡,然后在一個服務器里塞入多塊AI算力板卡,就打造出了AI服務器。世上本沒有AI服務器。普通服務器里多塞入幾個AI算力板卡,就變成了AI服務器。一般來說,AI服務器是一機八卡。如果你硬要塞的話,有的最多也可以塞二十卡。但是,限于散熱和功耗,想要塞入更多,就不太現實了。此時的AI服務器,算力又提升了一個數量級。完成推理任務,更加駕輕就熟。一些簡單的訓練任務(小模型),它也可以勉強勝任。今年崛起的DeepSeek大模型,因為在架構和算法上進行了優化,大幅降低了對算力的要求。所以,就有很多廠商,搞了那種單機架的計算設備(包括若干臺AI服務器、存儲、電源等),并將其命名為“一體機”,可以滿足很多行業企業用戶DeepSeek大模型私有化部署的需求,賣得熱火朝天。不管是AI服務器還是一體機,AI算力仍然是有限的。針對真正的海量參數(千億級、萬億級)大模型訓練,仍然需要更強勁的AI算力。于是,就要打造包括更多AI芯片的系統,也就是真正的大規模AI算力集群?,F在我們經常會聽說所謂“萬卡規?!?、“十萬卡規?!?,意思就是說,要打造的目標AI算力集群,需要一萬塊、十萬塊AI算力板卡(AI芯片)。這該怎么辦呢?答案很簡單,就是Scale Up和Scale Out。


什么是Scale Up?

Scale,是擴展的意思。搞過云計算的同學,對這個詞肯定不陌生。

Scale Up,是向上擴展,也叫縱向擴展,增加單節點的資源數量。

Scale Out,是向外擴展,也叫橫向擴展,增加節點的數量。

在云計算領域,還有和Scale Up對應的Scale Down(縱向縮減),以及和Scale Out對應的Scale In(橫向縮減)。

前面提到的,在每臺服務器里多塞幾塊AI算力板卡,這就是Scale Up。這時,一臺服務器就是一個節點。

通過通信網絡,將多臺電腦(節點)連接起來,這就是Scale Out。

0c0213fe-677c-11f0-a486-92fbcf53809c.png

Scale Up和Scale Out最主要的區別,在于AI芯片之間的連接速率。

Scale Up是節點內部連接。它的連接速率更高,時延更低,性能更強勁。

以前,計算機內部元件之間的通信主要基于PCIe協議。這個協議誕生于上世紀80-90年代PC剛剛普及的時候。雖然協議后來也有升級,但升級速度緩慢,數據傳輸速率和時延根本無法滿足要求需求。

于是,2014年,英偉達專門推出了NVLINK總線協議。NVLINK允許GPU之間以點對點方式進行通信,速度遠高于PCIe,時延也低得多。

NVLINK原本只用于機器內部通信。2022年,英偉達將NVSwitch芯片獨立出來,變成了NVLink交換機,用于連接服務器之間的GPU設備。

這意味著,節點已經不再僅限于1臺服務器了,而是可以由多臺服務器和網絡設備共同組成。

這些設備處于同一個HBD(High Bandwidth Domain,超帶寬域)。英偉達將這種以超大帶寬互聯16卡以上GPU-GPU的Scale Up系統,稱為超節點。

歷經多年的發展,NVLINK已經迭代到第五代。每塊GPU擁有18個NVLink連接,Blackwell GPU的總帶寬可達到1800GB/s,遠遠超過PCIe Gen6的總線帶寬。

2024年3月,英偉達發布了NVL72,可以將36個Grace CPU和72個Blackwell GPU集成到一個液冷機柜中,實現總計720 Pflops的AI訓練性能,或1440 Pflops的推理性能。

英偉達是AI計算領域毫無疑問的領軍者。他們有最受歡迎的AI芯片(GPU)和軟件生態(CUDA),也探索出了最有效的Scale Up實現方式。后來,隨著AI的不斷發展,越來越多的企業也開始推出AI芯片。因為NVLINK是私有協議,所以,這些推出AI芯片的企業,也要研究如何搭建自己的AI算力集群。英偉達海外的主要競爭對手之一,AMD公司,推出了UA LINK。國內的騰訊、阿里、中國移動等企業,也牽頭推出了ETH-X、ALS、OISA等項目。0c218130-677c-11f0-a486-92fbcf53809c.png這些都是開放標準,成本比私有協議更低,也有利于降低行業門檻,幫助實現技術平權,符合互聯網開放解耦的發展趨勢。值得一提的是,這些標準基本上都是以以太網技術(ETH)為基礎。因為以太網技術最成熟、最開放,擁有很好的產業鏈基礎。

另一個非常值得關注的技術路線,就是華為的私有協議UB(Unified Bus)。

最近幾年,華為一直在打造昇騰生態。昇騰是華為的AI芯片,目前發展到了昇騰910C。他們也需要自己的AI算力集群解決方案,最大程度地發揮910C的能量,也為市場推廣鋪平道路。

今年4月,華為高調發布CloudMatrix384超節點,集成了384張昇騰910C算力卡,可提供高達300 Pflops的密集BF16算力,接近達到英偉達GB200 NVL72系統的兩倍。

0c31f114-677c-11f0-a486-92fbcf53809c.png

華為CloudMatrix 384超節點(來自華為云生態大會)

CloudMatrix384,就采用了UB技術。準確來說,CloudMatrix384包括了三個不同的網絡平面,分別是UB平面、RDMA平面和VPC平面。

三個平面互補,實現了CloudMatrix384極強的卡間通信能力,也實現了整個超節點的算力提升。限于篇幅,具體技術細節下次再單獨介紹。

需要再說明一下,面對開放標準的競爭壓力,英偉達前段時間公布了NVLink Fusion計劃,向8家合作伙伴開放了其NVLink技術,以幫助他們構建通過將多個芯片連接在一起的定制AI系統。

但是,根據一些媒體的報道,其中一些關鍵的NVLink組件仍然是未開放的,英偉達還是沒有那么爽快。


什么是Scale Out?

再來看看Scale Out。

Scale Out,其實就接近于我們傳統意義上的數據通信網絡了。把傳統服務器連接起來的技術,包括胖樹架構、葉脊網絡架構那些,還有TCP/IP、以太網那些技術,都是Scale Out的基礎。

當然了,AI智算對網絡性能的要求很高,所以,傳統技術也要升級,才能滿足條件。

目前,Scale Out主要采用的通信網絡技術,是Infiniband(IB)和RoCEv2。

這兩個技術都是基于RDMA(遠程直接內存訪問)協議,擁有比傳統以太網更高的速率、更低的時延,負載均衡能力也更強。

IB當年也是為了取代PCIe而推出的技術,后來起起伏伏,掌握這項技術的Mellanox(邁絡思)公司被英偉達收購。IB也變成了英偉達的私有技術。這個技術性能是真好,但價格也是真貴。它是英偉達算力布局的重要組成部分。

RoCEv2,則是開放標準,是傳統以太網融合RDMA的產物,也是產業界為了對抗IB一家獨大所推出的產物。它的價格便宜,和IB的性能差距也在不斷縮小。

比起Scale Up領域的多個標準,Scale Out目前標準相對集中,主要就是RoCEv2,路線非常清晰。畢竟,Scale Up是節點內,和芯片產品強相關。Scale Out是節點外,更強調兼容性。

前面我說了,Scale Up和Scale Out最主要的區別在于速率帶寬。

IB和RoCEv2僅能提供Tbps級別的帶寬。而Scale Up,能夠實現數百個GPU間10Tbps帶寬級別的互聯。

在時延方面,Scale Up和Scale Out也有很大的差距。IB和RoCEv2的時延高達10微秒。而Scale Up對網絡時延的要求極為嚴苛,需要達到百納秒(100納秒=0.1微秒)級別。

在AI訓練過程中,包括多種并行計算方式,例如TP(張量并行)、 EP(專家并行)、PP(流水線并行)和DP(數據并行)。

0c4592a0-677c-11f0-a486-92fbcf53809c.png

通常來說,PP和DP的通信量較小,一般交給Scale Out搞定。而TP和EP的通信量大,需要交給Scale Up(超節點內部)搞定。

超節點,作為Scale Up的當前最優解,通過內部高速總線互連,能夠有效支撐并行計算任務,加速GPU之間的參數交換和數據同步,縮短大模型的訓練周期。

超節點一般也都會支持內存語義能力,GPU之間可以直接讀取對方的內存,這也是Scale Out不具備的。

站在組網和運維的角度來看,更大的Scale Up也有明顯優勢。

超節點的HBD(超帶寬域)越大,Scale Up的GPU越多,Scale Out的組網就越簡單,大幅降低組網復雜度。

0c4df878-677c-11f0-a486-92fbcf53809c.png

Scale Up & Scale Out組網示意圖

Scale Up系統是一個高度集成的小型集群,內部總線已經連好。這也降低了網絡部署的難度,縮短了部署周期。后期的運維,也會方便很多。

當然,Scale Up也不能無限大,也要考慮本身的成本因素。具體的規模,需要根據需求場景進行測算。

概括來說,Scale Up和Scale Out,就是性能和成本之間的平衡。隨著時間的推移和技術的進步,以后肯定還會出現更大規模的超節點。Scale Up和Scale Out之間的邊界,也會越來越模糊。

前面提到的ETH-X等開放Scale Up標準,都是基于以太網技術。從技術的角度來看,以太網具有最大交換芯片容量(單芯片51.2T已商用)、最高速Serdes技術(目前達到112Gbps),交換芯片時延也很低(200ns),完全可以滿足Scale Up的性能要求。

Scale Out也是基于以太網。這不就大一統了么?


AI算力集群的發展趨勢

最后,我再來說說AI算力集群的一些趨勢動向。

目前看來,AI算力集群體現出這么幾個趨勢:

1、物理空間的異地化。

AI算力集群正在向萬卡、十萬卡方向發展。英偉達NVL72的1個機架有72顆芯片,華為CM384的16個機架有384顆芯片。華為基于CM384搞十萬卡,需要432套(384×432=165888),那就是6912個機架。

對于單體數據中心來說,很難容納下這么多機架。電力供應也會成為問題。

所以,現在業界在探索異地數據中心共同組成AI算力集群,協力完成AI訓練任務。這個非??简為L距離、大帶寬、低時延的DCI光通信技術,會加速空芯光纖等前沿技術的應用。

2、節點架構的定制化。

我們剛才介紹AI集群,都是在討論如何把海量的AI芯片給“聚集起來”。其實,AI算力集群除了堆芯片數量之外,越來越看重架構的深度設計。

計算資源(GPU、NPU、CPU,甚至包括內存、硬盤)的池化,成為趨勢。集群需要充分適配AI大模型的架構(例如MoE架構),提供定制性的設計,才能更好地完成計算任務。

換言之,單純提供AI芯片是不夠的,還要提供量體裁衣的設計。

3、運維能力的智能化。

大家都聽說過,AI大模型訓練容易出錯。嚴重的時候,幾個小時就錯一次。錯了就要重新算,非常耽誤事,不僅拉長了訓練周期,也增加了訓練成本。

所以,企業在打造AI算力集群的時候,越來越關注系統的可靠性和穩定性。引入各種AI技術,對潛在故障進行預判,對亞健康設備或模塊進行提前替換,成為一種趨勢。

這些技術有利于降低故障率和中斷率,增強系統穩定性,也等于是變相提升了算力。

4、算力的綠色化。AI智算需要消耗大量的算力,也會產生很高的能耗,所以目前各大廠商都在努力研究如何降低AI智算集群的能耗,提升綠色能源的使用比例,這也有利于AI智算的長遠發展。我們國家的東數西算戰略,其實也是出于這方面的目的。

好啦,以上就是關于AI算力集群的介紹。應該是非常全面且具體了,不知道大家都看懂了沒?

文章來源于鮮棗課堂,作者小棗君

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 高速網絡
    +關注

    關注

    0

    文章

    15

    瀏覽量

    7084
  • AI算力
    +關注

    關注

    0

    文章

    120

    瀏覽量

    9716
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    體大AI芯片將逐漸走向落地應用

    電子發燒友網報道(/李彎彎)前不久,后摩智能宣布,其自主研發的業內首款存體大AI芯片成
    的頭像 發表于 05-31 00:03 ?5955次閱讀

    萬卡集群解決大模型訓需求,建設面臨哪些挑戰

    解決大模型訓練對需求的巨大增長問題,尤其是現在模型參數量從百億級、千億級邁向萬億級。 ? 國內外企業積極構建萬卡集群 ? 目前,在國際上,包括微軟、Google、Meta等AI領域
    的頭像 發表于 06-02 06:18 ?6401次閱讀
    萬卡<b class='flag-5'>集群</b>解決大模型訓<b class='flag-5'>算</b><b class='flag-5'>力</b>需求,建設面臨哪些挑戰

    DeepSeek推動AI需求:800G光模塊的關鍵作用

    集群的部署過程中,帶寬瓶頸成為制約發揮的關鍵因素,而光模塊的速率躍升成為突破這瓶頸的核心驅動力。 光模塊速率躍升 隨著
    發表于 03-25 12:00

    摩爾線程發布全功能GPU集群的異地調度方案

    8月6日-7日,2023技術大會在蘭州成功舉辦。大會邀請數字經濟及領域的院士專家、領軍人物,全國
    的頭像 發表于 08-08 10:43 ?1925次閱讀

    讀懂:什么是“”?

    的定義即計算能力(ComputingPower)?!吨袊?b class='flag-5'>算白皮書(2022年)》將其定
    的頭像 發表于 12-22 08:27 ?1.1w次閱讀
    <b class='flag-5'>一</b><b class='flag-5'>文</b>讀懂:什么是“<b class='flag-5'>算</b><b class='flag-5'>力</b>”?

    看懂星河AI數據中心網絡,全面釋放AI時代

    華為中國合作伙伴大會 | 看懂星河AI數據中心網絡,以網強,全面釋放AI時代
    的頭像 發表于 03-22 10:28 ?1327次閱讀
    <b class='flag-5'>一</b>圖<b class='flag-5'>看懂</b>星河<b class='flag-5'>AI</b>數據中心網絡,全面釋放<b class='flag-5'>AI</b>時代<b class='flag-5'>算</b><b class='flag-5'>力</b>

    從千卡集群卡到萬卡集群,燧原科技打造更好的AI底座

    電子發燒友網報道(/吳子鵬)是新質生產的代表,隨著以ChatGPT為代表的Transformer架構大模型的參數規模越來越大,對計算資源的需求顯著增長。在2024年世界人工智能
    的頭像 發表于 07-07 09:45 ?3779次閱讀
    從千卡<b class='flag-5'>集群</b>卡到萬卡<b class='flag-5'>集群</b>,燧原科技打造更好的<b class='flag-5'>AI</b><b class='flag-5'>算</b><b class='flag-5'>力</b>底座

    企業AI租賃是什么

    企業AI租賃是指企業通過互聯網向專業的提供商租用所需的計算資源,以滿足其AI應用的需求。
    的頭像 發表于 11-14 09:30 ?2861次閱讀

    企業AI租賃模式的好處

    構建和維護個高效、可擴展的AI基礎設施,不僅需要巨額的初期投資,還涉及復雜的運維管理和持續的技術升級。而AI
    的頭像 發表于 12-24 10:49 ?1626次閱讀

    看懂】什么是端側?

    隨著物聯網(IoT)、人工智能和5G技術的快速發展,端側正逐漸成為智能設備性能提升和智能化應用實現的關鍵技術。什么是端側,它的應用價值是什么,與云計算、邊緣計算有哪些區別?本文
    的頭像 發表于 02-24 12:02 ?2641次閱讀
    【<b class='flag-5'>一</b><b class='flag-5'>文</b><b class='flag-5'>看懂</b>】什么是端側<b class='flag-5'>算</b><b class='flag-5'>力</b>?

    熱插拔集群

    熱插拔集群指在無需停機的情況下,動態增減計算節點或硬件的基礎設施,其核心價值在于實現資源的彈性伸縮和業務連續性。以下從關鍵技術、應用
    的頭像 發表于 06-26 09:20 ?666次閱讀

    什么是AI模組?

    未來,騰視科技將繼續深耕AI模組領域,全力推動AI邊緣計算行業的深度發展。隨著AI技術的不斷演進和物聯網應用的持續拓展,騰視科技的
    的頭像 發表于 09-19 15:25 ?363次閱讀
    什么是<b class='flag-5'>AI</b><b class='flag-5'>算</b><b class='flag-5'>力</b>模組?

    什么是AI模組?

    未來,騰視科技將繼續深耕AI模組領域,全力推動AI邊緣計算行業的深度發展。隨著AI技術的不斷演進和物聯網應用的持續拓展,騰視科技的
    的頭像 發表于 09-19 15:26 ?1080次閱讀
    什么是<b class='flag-5'>AI</b><b class='flag-5'>算</b><b class='flag-5'>力</b>模組?

    “超節點+集群”:華為撞出來的之路

    “超節點+集群”,成為徹底解決AI困局的契機
    的頭像 發表于 09-24 10:55 ?739次閱讀
    “超節點+<b class='flag-5'>集群</b>”:華為撞出來的<b class='flag-5'>算</b><b class='flag-5'>力</b>之路

    華為領銜,三劍客入局!十萬卡智集群落地,國產芯片強勢崛起

    中國移動宣布,將持續加大對人工智能領域的投入力度,總體投入翻番,建成國內規模最大、技術領先的智基礎設施,探索十萬卡智集群建設,全國產智能
    的頭像 發表于 10-14 09:30 ?1.3w次閱讀
    華為領銜,三劍客入局!十萬卡智<b class='flag-5'>算</b><b class='flag-5'>集群</b>落地,國產<b class='flag-5'>算</b><b class='flag-5'>力</b>芯片強勢崛起