近年來,AIGC深入滲透寫作、編程、繪畫、營銷等各個領域。從回答問題到完成任務,AI相關的新技術不斷發展,為生活帶來了很多便利。算力作為AI發展的支撐,其規模投入一直在持續增長。與此同時,跟AI相關的網絡技術即互聯技術,相關的關注度及投入正在快速增加。此前,互聯相關的技術在算力中心投入不足5%,現在已經逐漸增加到15%甚至20%,未來還可能會持續增加。互聯,已經成為AI算力基礎設施中非常重要的組成部分。
模型及應用持續發展,帶來算力形態變化
隨著基礎模型的變化和AI應用的變化,算力中心的算力形態也在逐漸發生變化。模型的參數規模越來越大,從千億級到萬億級的大模型仍然在持續增長。隨著推理應用的逐步落地,ROI成為了企業部署大模型考慮的關鍵,在考慮性能的同時、還需兼顧體驗和成本的平衡。所謂的性能就是支持快速的響應速度,同時要支持高并發,以及在整個應用環境中取得成本的平衡。同時,輕量級小模型也在紛紛推出,邊緣推理性能大幅提升。以通義千問3-4B為例,在4B的模型上已經可以取得不錯的應用效果,整體在端側應用表現出較大的優勢。
Scaling Law受到限制,需算法和工程協同演進
很多人現在意識到了一個問題,經典的基于Transformer 的Scaling Law(縮放定律)正面臨挑戰:集群算力增長放緩,單純縮放效果放緩。首先是算力的增長跟不上軟件與模型的算力需求,其次是單純靠算力堆疊更大規模的縮放效果也逐步放緩。因此,在大模型的發展領域,堆算力時代已經成為過去,工程優化成為了必須。在這方面,DeepSeek做了一個非常好的榜樣,如何通過軟硬件協同的設計,將模型、訓練和硬件基礎設施整合在一起,或者是基于現有的硬件設施改進模型設計和優化模型的設計等。只有通過這種方式,通過算法、軟硬件、工程協同的進展,才能夠持續過去的縮放定律或者持續這種性能提升的趨勢。
為何互聯在高性能AI發展中存在重要價值?
在訓練和推理的規模越來越大的情況下,對算力的需求越來越增加,通信的效能就成為了整個模型關鍵的影響因素。根據Meta在2024年的相關數據,在模型訓練不同的情況下,通信的開銷占比已經占到整個時間的平均30%左右。如今,隨著AI推理的落地,大家也發現,其響應速度也就是TPOT(Time Per Output Token)和互聯性能成正比,互聯速度越高,吞吐速度越高,即TPOT會越強。
大模型訓推的并行方式
在大模型訓練和推理方式上,業界也有比較多的并行技術可以幫助提升訓練效率,比如張量并行、流水線并行、數據并行、專家并行等等。(注:DP數據并行不適用推理側)
TP 是張量并行(Tensor Parallel),是對模型的每個層做了一個層內的拆分。使用TP 能達到很好的 GPU 利用率。TP通信粒度是非常細的。TP 每計算完成一次層的拆分,就需要有一次通信來做 AllReduce 合并,雖然 TP 單次通信量較小,但是它通信頻率頻次都很高,對帶寬的要求也很高。
PP 是流水線并行(Pipeline Parallel),也就是模型的層與層之間拆分,把不同的層放到不同的 GPU 上。在計算過程中,必須順序執行,后面的計算過程依賴于前面的計算結果。一個完整的 Pipeline運行起來需要將一個workload 切分成很小的多個 workload,也就是需要將一個比較大 Batch size 切分成很多個小 Batch 才能保持流水線并行的高吞吐。
EP是專家并行(Expert Parallel),是指在專家模型中,將不同的專家分配到不同設備上,每個設備只負責一部分專家的計算。專家并行可以增加模型的容量,同時提高計算效率。但需要在設備間不斷傳輸數據和梯度,對于通信頻次開銷要求高。在一定程度上還要通過有效的路由機制,確保專家之間的負載均衡。
大模型在進行并行計算過程中,TP(張量并行)已經占到了整個通信量的80%,需要TB級別的帶寬(Scale-up GPU間互聯),所以超節點變成了非常重要的技術手段。DP(數據并行)和PP(流水線并行)一般通過Scale out互聯應對,需要Tb級別的帶寬;而在將MoE引入EP(專家并行)通信,則會帶來更復雜的流量。在不同的情況下,流量不同,需要更復雜的調度算法和更完善的通信技術手段。
在Scale-up 網絡側,超節點已經成為大規模訓練、并行推理中重要的支撐技術。
超節點將成百上千張GPU互聯在一起,猶如一個巨型GPU般工作;此外,還可以通過構建更大的HBD系統,以應對多種并行通信造成的巨大通信數據量。因此需要在更大規模的機柜或者幾個機柜之間,引入超高帶寬的互聯,這通常是TB級別的。這會帶來什么好處?以英偉達為例,在Hopper架構時代的DGX8卡,跟基于GB300的NVL72相比,超節點的性能帶來了50倍的提升,同時其投入產出比也帶來了十倍的提升。
但在AI網絡中,Scale-up面臨著四大挑戰:
一是需要超高帶寬;
二是需要可擴展的拓撲,支持不同的超節點的形態;
第三是需要通用的協議來做互聯互通,傳統的通算協議(PCIe/CXL)和私有協議都具備局限性,因此業界的主要Scale up生態,都在做Scale Up協議的標準化,從而實現通用化標準化的目標;
第四是多語義的支持。
從Scale-out側來看,AI網絡面臨幾大核心挑戰:
首先需要非常高的傳輸性能,Tb級別的傳輸延時要可控;
其次是要實現萬卡、十萬卡甚至更大規模流控的能力;
第三是要有相對可以控制的部署成本,因為企業部署的數量太多,理論上而言一個或者兩個GPU就需要配備一個超級網卡。
因此,智算行業正在發生變化。智算的集群里面需要的是針對AI原生的超級網卡。AI本質是需要一個非常高效的方式來進行網絡傳輸,需要非常高性能的RDMA引擎,需要更加復雜的網絡控制,來真正有效的實現數據傳輸。
從協議的角度來看,過去傳統的RDMA有一些不足之處,因此業界需要一個更加現代化的下一代RDMA的標準,即UEC(Ultra Ethernet Consortium,超級以太網聯盟)。自去年誕生之后,UEC已經完成了多項工作,核心就是要解決復雜網絡之間的多徑傳輸、亂序等問題,以及實現擁塞情況下更好的流控手段和更高效的重傳方式。這些都是需要在AI里面來解決的,也是RDMA需要面對的新挑戰。
奇異摩爾如何通過互聯構建高性能AI基礎設施
對于國產算力而言,產業界眾多企業正共同努力,以構建國產算力的集群與基礎設施。GPU或者說AI芯片,當然是其中非常重要的手段,在AI芯片之外,互聯也非常重要。
奇異摩爾作為AI網絡互聯領域極少數可以提供全棧式互聯產品架構及解決方案的供應商,依托于高性能RDMA 和Chiplet技術,聚焦AI互聯領域,構建了一整套覆蓋Scale-out網間互聯、Scale-up超節點GPU片間互聯及Scale-inside 芯片內互聯的產品解決方案,為AI高性能計算提供了堅實的支撐。
在第五屆中國集成電路設計創新大會暨IC應用生態展(ICDIA創芯展)上,奇異摩爾首席網絡架構專家葉棟受邀出席本次大會,并將在AIDC開發者論壇上進行主題為《從橫向擴展邁向縱向升級:全棧式互聯重塑高性能 AI 基礎設施》的演講,分享AI大模型訓推基礎設施趨勢及挑戰并分享奇異摩爾的互聯產品解決方案。
活動預告
大會簡介
本屆大會以“自主創新?應用落地?生態共建”為主題,圍繞AI大算力與數據處理、光子集成電路、超異構計算、RISC-V生態、5G射頻/6G半導體、AIoT與邊緣計算、智能汽車與自動駕駛,分享前沿技術突破與應用場景,推動創新成果轉化與產業鏈協同,促進芯片、應用方案與整機研發深度合作。
ICDIA創芯展以“1+1+4+1”模式,即打造1場高峰論壇、1場AI開發者主題大會、4場分論壇(先進設計與創芯應用+汽車芯片與智能駕駛+AIoT與智聯生態+產研項目與投資對接)、1場IC應用生態展。
演講嘉賓
葉棟,2002年北郵博士畢業,B-ISDN寬帶通信專業,擁有超過20年的網絡互聯系統架構設計經驗 ,在AI網絡協議、RDMA、虛擬化、軟件協議棧等方面擁有豐富的專業知識。在英特爾(中國)工作多年,曾任英特爾網絡互聯產品事業部技術總監,負責英特爾以太網,P4可編程交換芯片,FPGA智能網卡, Google IPU相關系統架構產品的本地化研發和部署。啟動和主導了基于FPGA的智能網卡方案在國內的設計開發和推廣,構建了多家大型云廠商和服務商等大規模部署的技術方案的底座。
關于我們
AI網絡全棧式互聯架構產品及解決方案提供商
奇異摩爾,成立于2021年初,是一家行業領先的AI網絡全棧式互聯產品及解決方案提供商。公司依托于先進的高性能RDMA 和Chiplet技術,創新性地構建了統一互聯架構——Kiwi Fabric,專為超大規模AI計算平臺量身打造,以滿足其對高性能互聯的嚴苛需求。我們的產品線豐富而全面,涵蓋了面向不同層次互聯需求的關鍵產品,如面向北向Scale-out網絡的AI原生超級網卡、面向南向Scale-up網絡的GPU片間互聯芯粒、以及面向芯片內算力擴展的2.5D/3D IO Die和UCIe Die2Die IP等。這些產品共同構成了全鏈路互聯解決方案,為AI計算提供了堅實的支撐。
-
AI
+關注
關注
91文章
39793瀏覽量
301404 -
奇異摩爾
+關注
關注
0文章
79瀏覽量
4037 -
大模型
+關注
關注
2文章
3650瀏覽量
5183
原文標題:奇異摩爾受邀出席ICDIA 2025 創芯展AI開發者論壇,邀您共探AI Networking互聯趨勢
文章出處:【微信號:奇異摩爾,微信公眾號:奇異摩爾】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
昂瑞微受邀出席2026 MFi春季開發者技術論壇籌備會
2025全球開發者先鋒大會開源項目與AI的雙向賦能分論壇圓滿舉辦
九聯科技亮相2025開放原子開發者大會
迅龍軟件參加昇騰 AI?開發者創享日?廣東站,為開發者打造沉浸式實操體驗
奇異摩爾出席第三屆芯粒開發者大會AI芯片與系統分論壇
廣立微亮相ICDIA 2025創芯展
智芯公司亮相ICDIA 2025創芯展
啟揚受邀參加2025瑞芯微開發者大會
軟通動力出席華為開發者大會2025
格靈深瞳亮相Create2025百度AI開發者大會
普華基礎軟件受邀出席矽力杰2025開發者大會
奇異摩爾受邀出席第三屆HiPi Chiplet論壇
2025昇騰AI開發者創享日浙江站成功舉辦,現場演示OrangePi AIpro(20T)部署DeepSeek模型開發全流程
奇異摩爾受邀出席ICDIA 2025創芯展AI開發者論壇
評論