3月31日,ODCC春季全會網絡工作組會議在浙江舟山圓滿落幕。為應對下一代AI網絡技術的演進需求,騰訊牽頭正式成立IO-NET項目工作組。該工作組將圍繞面向Agent的新型互聯體系,實現訓練、推理、業務執行一體化展開深入探討,攜手產業鏈共建統一生態規范,推動AI網絡持續演進。
作為IO-NET項目的重要成員,奇異摩爾依托工作組平臺,牽頭組織基于IO-NET的IOD芯粒工作組,聯合產業鏈伙伴共同探索通用IOD的實現路徑,為構建高效、標準化的下一代AI互聯生態提供核心技術支撐。
奇異摩爾首席架構師朱琛發表主題演講《基于通用IOD的XPU Scale-up網絡互聯實現路徑》。演講重點分析了Agent時代背景下,內存瓶頸正驅動集群架構向資源解耦方向演進。在這一演進過程中,通用IOD的應用場景從XPU-to-XPU拓展至XPU-to-CPU及XPU-to-Memory Pool。
朱琛指出,傳統RDMA在XPU-to-CPU及XPU-to-Memory Pool場景下顯得過于繁重,亟需一種更輕量化的DMA引擎。圍繞這一需求,他從分層視角出發,系統探討了從D2D,功能層以及Scale-up接口層通用IOD的實現路徑。他進一步闡述了奇異摩爾作為騰訊牽頭IO-NET項目組子項目的定位與未來規劃,研究目標的及相關技術規范的落地展望。
Agent時代所帶來的內存瓶頸
在大模型推理中,內存消耗大戶遠不止模型參數,更棘手的是KV Cache、長上下文、會話狀態、多輪Agent記憶以及Prompt Cache等動態數據。KV Cache存儲注意力機制中的鍵值向量,避免每生成一個token都重新計算,其大小隨序列長度和批量大小線性增長,在大規模場景下甚至會超過模型權重本身。
為何需要統一內存池
在大模型訓練與推理中,Batch Size是決定性能與效果的關鍵超參數。它不僅影響吞吐速度,更直接關系到模型的收斂行為與泛化能力。
隨著Agent時代的到來,長序列已成為推理場景的主流趨勢,顯存需求呈指數級攀升。在這一背景下,Batch Size的選擇正面臨兩難困境:
過大:過量占用GPU顯存,極易觸發顯存溢出(OOM),同時推升Token生成延遲,影響服務穩定性;
過小:無法充分利用GPU計算資源,導致計算單元因“喂不飽”而持續空轉,算力利用率大幅下降。
此時,統一內存池的重要性便凸顯出來。通過構建全局統一、彈性伸縮的內存池,能夠打破靜態顯存分配的僵化邊界,在Batch Size動態變化時實現顯存資源的靈活復用與高效調度——既能支撐更大Batch Size以提升吞吐,又能在高并發長序列場景下避免顯存瓶頸,真正實現算力與內存的協同最優。
從CPU-GPU到全域統一編址

(圖:奇異摩爾@ODCC春季大會)
如今,CPU與GPU不再是各自持有獨立內存的異構設備,而是能夠平等訪問統一內存空間的計算單元,徹底消除了傳統架構中數據在CPU內存與GPU顯存之間反復拷貝的瓶頸。以英偉達為例,其通過NVLink-C2C互聯構建了GPU與CPU對共享內存的無差別、低延遲訪問,CPU和GPU可共享同一進程頁表,硬件維護緩存一致性,GPU可直接訪問CPU端LPDDR5X內存(總帶寬900 GB/s),CPU也能以緩存行粒度訪問GPU端內存。
華為的UB-Mesh在架構上也采用了類似思路,通過統一總線協議連接GPU、內存池、SSD、網卡等異構資源,構建可擴展至百萬級芯片的大規模AI系統。
面向下一代AI推理,統一編址的理念正從“CPU-GPU對”向更廣闊的異構計算生態延伸——XPU與內存池之間的協同、異構算力的統一調度、異構芯片間的互聯能力,已成為下一代AI推理系統亟待突破的核心課題。
從XPU間互聯到內存池互聯
以IOD 芯粒讓計算和互聯解耦的技術路徑已經逐步形成產業共識。正如Meta的最新的MTIA系列都基于上一代優化,采用模塊化小芯片(芯粒,將大芯片拆分為多個獨立小模塊拼接,降低研發難度、提升復用性)設計,融入最新的 AI 工作負載洞察與硬件技術,并以更短的周期完成部署。這種更緊湊的迭代閉環,讓硬件能更好地適配不斷演變的模型架構,靈活支持未來大模型所需硬件技術的落地應用。

(圖:奇異摩爾@ODCC春季大會)
Kiwi IOD作為一款相對通用、支持內存語義、具備RDMA引擎且靈活可擴展的IO芯粒,除了實現XPU間互聯外,同樣可為XPU-Memory Pool互聯提供了理想技術載體。
原生支持內存語義
Kiwi IOD從底層支持內存語義(Memory Semantics),使得XPU訪問遠端內存池時,無需借助復雜的驅動或中間層,即可通過Load/Store指令直接讀寫池化內存。這種設計讓遠端內存訪問的編程體驗與訪問本地內存無異,大幅降低軟件開發復雜度。
輕量化協議封裝
針對內存池互聯場景,Kiwi IOD復用Scale-up協議,可優化報文封裝開銷,通過減輕IOD DMA操作(Read/Write/Atomic)的軟件參與度,實現數據通路的硬件直通。
通用IOD的XPU
Scale-up網絡互聯實現路徑

(圖:奇異摩爾@ODCC春季大會)
從NoC接口來看,計算芯粒的NoC與IOD必須在協議層實現接口對齊。在協議層適配方面,UCIe協議層原生支持PCIe Flit模式與CXL Flit模式,計算芯粒與IOD的協議適配層需采用一致的映射方式以實現互通。在統一的IOD協議層接口下,IOD能夠為NoC提供差異化支持:在XPU-to-XPU場景中,支持XPU個性化的原子操作;在XPU-to-Memory Pool場景中,支持XPU個性化的近存計算操作。
從功能層來看,以XPU-to-Memory Pool場景為例,內存池對XPU的內存分配策略(如靜態分配、動態按需分配)以及池化內存到XPU地址空間的映射方式與地址翻譯機制,可選擇通過IOD實現。
從Scale-up接口來看,IOD本身支持多元化的Scale-up接口,其靈活性使其能夠持續適應Scale-up生態的演進需求。

(圖:IO-NET內存池項目計劃)
展望未來,奇異摩爾將持續依托騰訊IO-NET工作組的整體規劃,牽頭打造面向IO-NET的芯粒工作組,攜手產業鏈上下游,共同構建適用于XPU-to-XPU、XPU-to-CPU及Memory Pool等場景的通用IOD技術規范,并推動專用IOD硬件的定制化落地。以此為AI Agent時代背景下的推理瓶頸提供互聯領域的關鍵支撐,加速下一代異構計算互聯生態的標準化與規模化進程。
-
內存
+關注
關注
9文章
3223瀏覽量
76461 -
Agent
+關注
關注
0文章
209瀏覽量
29105 -
奇異摩爾
+關注
關注
0文章
83瀏覽量
4064
原文標題:生態共建 | 奇異摩爾攜手產業共建IO-NET芯粒工作組,引領下一代AI網絡演進
文章出處:【微信號:奇異摩爾,微信公眾號:奇異摩爾】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
奇異摩爾聯合成立智算互聯芯粒實驗室
兆芯攜手多家產業伙伴合作完成產品兼容適配認證
比亞迪正式加入國際汽車工作組
奇異摩爾參編人工智能加速器互聯芯粒技術要求團體標準發布
奇異摩爾攜手產業伙伴共建IO-NET芯粒工作組
評論