天天肉肉天天肉日日,国产精品爱久久久久,久产九九人人爱

當(dāng)前AI推理面臨兩大核心矛盾

算力需求激增：大模型應(yīng)用爆發(fā)（如實(shí)時(shí)交互、多模態(tài)生成），企業(yè)亟需更低延遲、更高吞吐的推理能力；

資源浪費(fèi)嚴(yán)重：傳統(tǒng)架構(gòu)下，GPU算力閑置率超30%，長(zhǎng)文本處理場(chǎng)景首Token延遲飆升至秒級(jí)，用戶體驗(yàn)流失率增加40%。

DeepSeek-V3/R1的給我們的啟示：混合專家模型（MoE）雖需320卡起步，卻為超大規(guī)模云計(jì)算廠商提供了差異化競(jìng)爭(zhēng)力——吞吐效率提升50%，單用戶推理成本降低20%。而對(duì)中小客戶，“高性價(jià)比”仍是剛需，Dense模型憑借靈活部署穩(wěn)占80%市場(chǎng)份額。

組網(wǎng)架構(gòu)的“黃金分割”

行業(yè)需求驅(qū)動(dòng)架構(gòu)革新

分離架構(gòu)：適合頭部云廠商（如AWS、阿里云），通過獨(dú)立優(yōu)化Prefill（算力密集型）和Decode（帶寬密集型）集群，實(shí)現(xiàn)超大規(guī)模并發(fā)下的極致性能，客戶可溢價(jià)30%提供“高端推理服務(wù)”。

統(tǒng)一架構(gòu)：中小廠商的“降本利器”——單網(wǎng)絡(luò)支持智能流量調(diào)度，硬件投資減少25%，運(yùn)維成本降低40%，兼容80%現(xiàn)有基礎(chǔ)設(shè)施，快速搶占中端市場(chǎng)。

采用星融元CX-N系列交換機(jī)+RoCEv2技術(shù)，單設(shè)備支持400G/800G帶寬，滿足“既要大吞吐又要低延遲”的矛盾需求。

從實(shí)驗(yàn)室到生產(chǎn)線：組網(wǎng)設(shè)計(jì)的成本與效益平衡

Rail-Only拓?fù)洌? GPU/組共享PCIe鏈路，服務(wù)器內(nèi)直連減少跳數(shù)，適合百卡以下集群，硬件成本降低30%。

GPU服務(wù)器內(nèi)部：每四個(gè)GPU作為一組，共享一個(gè)并行推理網(wǎng)卡，連接到同一個(gè)PCI Switch,兩組GPU之間的通信通過兩個(gè)PCI Switch之間的直連通道完成；

GPU服務(wù)器之間：同一組號(hào)的GPU之間的通信通過交換機(jī)直接完成；不同組號(hào)的GPU之間的通信，先通過PCI Swtitch將流量路由到另一組的網(wǎng)卡，然后通過交換機(jī)完成；

小規(guī)模場(chǎng)景：低成本敏捷部署

每臺(tái)推理服務(wù)器有8張GPU，2張400G網(wǎng)卡，雙歸連接到兩臺(tái)CX732Q-N

16個(gè)推理服務(wù)器（128張GPU）和2個(gè)CX732Q-N組成一個(gè)PoD。Prefill和Decode服務(wù)器可能屬于不同PoD

可橫向擴(kuò)展至64個(gè)PoD

中大規(guī)模場(chǎng)景：性能與擴(kuò)展性優(yōu)先

模塊化PoD設(shè)計(jì)：以512 GPU為單元構(gòu)建獨(dú)立集群，Prefill與Decode服務(wù)器同PoD內(nèi)一跳互聯(lián)，時(shí)延控制在10μs以內(nèi)。

橫向擴(kuò)展能力：可橫向擴(kuò)展至64個(gè)PoD，支持萬卡級(jí)集群無縫擴(kuò)容，滿足云計(jì)算平臺(tái)彈性需求。

未來展望：開放生態(tài)與硬件迭代的雙重助力

盡管DeepSeek尚未開源，但其PD分離架構(gòu)為行業(yè)提供了關(guān)鍵思路。未來趨勢(shì)將圍繞兩大方向：

軟硬件協(xié)同優(yōu)化：如DPU卸載KV緩存?zhèn)鬏斎蝿?wù)，進(jìn)一步釋放GPU算力；

邊緣AI輕量化：通過模型剪枝與專用推理芯片，在10卡以下環(huán)境中實(shí)現(xiàn)MoE模型部署。

【參考文獻(xiàn)】

https://asterfusion.com/a20250306-scale-out/

審核編輯黃宇

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴