當(dāng)前AI推理面臨兩大核心矛盾
算力需求激增:大模型應(yīng)用爆發(fā)(如實(shí)時(shí)交互、多模態(tài)生成),企業(yè)亟需更低延遲、更高吞吐的推理能力;
資源浪費(fèi)嚴(yán)重:傳統(tǒng)架構(gòu)下,GPU算力閑置率超30%,長(zhǎng)文本處理場(chǎng)景首Token延遲飆升至秒級(jí),用戶體驗(yàn)流失率增加40%。
DeepSeek-V3/R1的給我們的啟示:混合專家模型(MoE)雖需320卡起步,卻為超大規(guī)模云計(jì)算廠商提供了差異化競(jìng)爭(zhēng)力——吞吐效率提升50%,單用戶推理成本降低20%。而對(duì)中小客戶,“高性價(jià)比”仍是剛需,Dense模型憑借靈活部署穩(wěn)占80%市場(chǎng)份額。
組網(wǎng)架構(gòu)的“黃金分割”
行業(yè)需求驅(qū)動(dòng)架構(gòu)革新
分離架構(gòu):適合頭部云廠商(如AWS、阿里云),通過獨(dú)立優(yōu)化Prefill(算力密集型)和Decode(帶寬密集型)集群,實(shí)現(xiàn)超大規(guī)模并發(fā)下的極致性能,客戶可溢價(jià)30%提供“高端推理服務(wù)”。
統(tǒng)一架構(gòu):中小廠商的“降本利器”——單網(wǎng)絡(luò)支持智能流量調(diào)度,硬件投資減少25%,運(yùn)維成本降低40%,兼容80%現(xiàn)有基礎(chǔ)設(shè)施,快速搶占中端市場(chǎng)。
采用星融元CX-N系列交換機(jī)+RoCEv2技術(shù),單設(shè)備支持400G/800G帶寬,滿足“既要大吞吐又要低延遲”的矛盾需求。
從實(shí)驗(yàn)室到生產(chǎn)線:組網(wǎng)設(shè)計(jì)的成本與效益平衡
Rail-Only拓?fù)洌? GPU/組共享PCIe鏈路,服務(wù)器內(nèi)直連減少跳數(shù),適合百卡以下集群,硬件成本降低30%。

GPU服務(wù)器內(nèi)部:每四個(gè)GPU作為一組,共享一個(gè)并行推理網(wǎng)卡,連接到同一個(gè)PCI Switch,兩組GPU之間的通信通過兩個(gè)PCI Switch之間的直連通道完成;
GPU服務(wù)器之間:同一組號(hào)的GPU之間的通信通過交換機(jī)直接完成;不同組號(hào)的GPU之間的通信,先通過PCI Swtitch將流量路由到另一組的網(wǎng)卡,然后通過交換機(jī)完成;
小規(guī)模場(chǎng)景:低成本敏捷部署

每臺(tái)推理服務(wù)器有8張GPU,2張400G網(wǎng)卡,雙歸連接到兩臺(tái)CX732Q-N
16個(gè)推理服務(wù)器(128張GPU)和2個(gè)CX732Q-N組成一個(gè)PoD。Prefill和Decode服務(wù)器可能屬于不同PoD
可橫向擴(kuò)展至64個(gè)PoD
中大規(guī)模場(chǎng)景:性能與擴(kuò)展性優(yōu)先
模塊化PoD設(shè)計(jì):以512 GPU為單元構(gòu)建獨(dú)立集群,Prefill與Decode服務(wù)器同PoD內(nèi)一跳互聯(lián),時(shí)延控制在10μs以內(nèi)。
橫向擴(kuò)展能力:可橫向擴(kuò)展至64個(gè)PoD,支持萬卡級(jí)集群無縫擴(kuò)容,滿足云計(jì)算平臺(tái)彈性需求。

未來展望:開放生態(tài)與硬件迭代的雙重助力
盡管DeepSeek尚未開源,但其PD分離架構(gòu)為行業(yè)提供了關(guān)鍵思路。未來趨勢(shì)將圍繞兩大方向:
軟硬件協(xié)同優(yōu)化:如DPU卸載KV緩存?zhèn)鬏斎蝿?wù),進(jìn)一步釋放GPU算力;
邊緣AI輕量化:通過模型剪枝與專用推理芯片,在10卡以下環(huán)境中實(shí)現(xiàn)MoE模型部署。
【參考文獻(xiàn)】
https://asterfusion.com/a20250306-scale-out/
審核編輯 黃宇
-
gpu
+關(guān)注
關(guān)注
28文章
5194瀏覽量
135434 -
PCI
+關(guān)注
關(guān)注
5文章
689瀏覽量
134246 -
AI
+關(guān)注
關(guān)注
91文章
39771瀏覽量
301372 -
組網(wǎng)
+關(guān)注
關(guān)注
1文章
438瀏覽量
23343
發(fā)布評(píng)論請(qǐng)先 登錄
KubePi:開源Kubernetes可視化管理面板,讓集群管理如此簡(jiǎn)單
中科曙光scaleX萬卡超集群重塑超大規(guī)模算力基礎(chǔ)設(shè)施
UPS電源核心技術(shù)深度解析:從拓?fù)?/b>結(jié)構(gòu)到智能管理的演進(jìn)之路
讀懂高效通信的星型組網(wǎng)
全球邁入 IPv6-Only 關(guān)鍵窗口期
PPEC Workbench 平臺(tái)拓?fù)?/b>全覆蓋,滿足各類電源開發(fā)需求
工控核心板GPU實(shí)測(cè)!工業(yè)級(jí)圖形加速到底有多強(qiáng)?#核心板 #GPU #嵌入式
怎樣確定分布式光伏集群通信網(wǎng)絡(luò)的負(fù)載均衡策略?
睿海光電以高效交付與廣泛兼容助力AI數(shù)據(jù)中心800G光模塊升級(jí)
高效管理Kubernetes集群的實(shí)用技巧
PCIe協(xié)議分析儀在數(shù)據(jù)中心中有何作用?
摩爾線程吳慶詳解 MUSA 軟件棧:以技術(shù)創(chuàng)新釋放 KUAE 集群潛能,引領(lǐng) GPU 計(jì)算新高度?
熱插拔算力集群
如何破解GPU集群集合通信路徑的“黑盒”難題?
Rail-Only拓?fù)渑cPCI Switch:GPU集群間高效通信的核心邏輯
評(píng)論