在第三屆 NVIDIA DPU 中國黑客松競賽中,我們見證了開發者與 NVIDIA 網絡技術的深度碰撞。在 23 支參賽隊伍中,有 5 支隊伍脫穎而出,展現了在 AI 網絡、存儲和安全等領域的創新突破。
由劉瀚騁、劉崇鵬、劉陽組成的 SeekExpert 團隊在本屆黑客松中展現了卓越的技術實力,憑借其創新項目“利用 NVIDIA DOCA GPUNetIO 技術,加速 Expert-Kit 推理框架中的專家權重分發和通信傳輸部分,從而提升 MoE 模型推理的速度和效率”取得了第二名。該項目利用 NVIDIA DOCA GPUNetIO 技術,針對 Expert-Centric 架構的 Expert-Kit MoE 推理框架中的專家權重分發和通信傳輸關鍵環節進行了優化。
從網絡瓶頸到 DPU 異構加速的實踐突破
隨著數據中心計算向異構模式深度演進,網絡通信的控制和數據調度變得日益復雜,DPU 作為中間銜接的橋梁必將大有可為。在過去開發和使用 Expert-Kit 推理框架的過程中,SeekExpert 團隊發現將傳統開發模式運用到該框架存在較大的性能瓶頸。具體來說,框架采用 Expert-Centric 架構,該架構專注于快速專家調度和專家異構計算,但實際運行時網絡性能成為了關鍵的制約因素——具體表現為專家權重分發及中間結果傳輸過程中的數據拷貝開銷會導致推理延遲增加,同時網絡數據路徑處理占用大量 CPU 資源,與專家計算形成資源競爭,直接影響系統整體吞吐量。
基于這個痛點,SeekExpert 團隊意識到NVIDIA BlueField DPU恰好能破解這一難題,通過 DPU 專門處理網絡傳輸任務的技術特性,既能實現權重分發的加速,又能釋放 CPU 資源,從而使 CPU 專注專家計算的核心功能,這就是參賽項目的由來。
雙管齊下:攻克技術選型與協同開發難題
在開發過程中,團隊面臨的兩大底層技術挑戰,一個是來自于技術選型的難題,另一個是與 CUDA 協同開發的復雜性。首先,團隊需要全面理解 GPUNetIO、DMA、RDMA 等不同網絡加速方案的適用場景,并判斷哪個最符合團隊專家權重分發的需求,其次需要實現 DOCA 與 CUDA 的深度集成,這涉及到 GPU 內存管理、數據流同步等底層細節,調試復雜度極高。
為攻克這些難題,團隊采取了雙管齊下的策略:一方面充分利用 NVIDIA 的技術資源,通過DOCA 官方文檔中完善的 API 說明和示例代碼來獲取關鍵技術指引;另一方面,當遇到技術瓶頸時,團隊成員會從各自的技術視角開展討論,分析問題根源并提出針對性解決方案。
為 DPU 在大模型推理加速領域鋪路
該項目創新性地將 NVIDIA DOCA GPUNetIO 技術與 MoE 模型推理加速相結合,通過 Expert-Kit 推理框架實現異構硬件資源的協同優化,讓 DPU 專門處理網絡密集型的專家權重分發和通信任務,使 CPU 得以專注于專家計算,從而在云計算、數據中心的 AI 推理平臺中有效緩解集群時間維度(動態負載)與空間維度(不同設備協同)的資源利用率難題,為 DPU 在大模型推理加速領域提供了優化方向。
DOCA 開發者快問快答
Q
您是從哪里了解到 NVIDIA DPU 黑客松競賽的?參賽的目標是什么?
A
我們是通過老師的介紹了解到這次 NVIDIA DPU 中國黑客松競賽的。由于我們之前在研究異構設備共享內存時就接觸過 DOCA 軟件框架,當我們的 Expert-Kit 推理框架遇到網絡傳輸優化瓶頸時,自然聯想到了 DPU 可能存在的機會。
Q
賽前舉辦的 DPU 線上技術訓練營對您的備賽起到哪些幫助?
A
訓練營對 DPU 在各個領域的解決方案進行了引領性講解,涵蓋了安全、網絡卸載等多個方向,讓我們對 DOCA 開發有了更為全面的認識。
Q
參與 NVIDIA DPU 黑客松競賽有哪些收獲?
A
除了技術能力的提升,我們還結識了很多其他參賽隊伍的隊員,了解了他們在相關研究方向上的探索,這拓寬了我們的技術視野。同時,通過比賽我們也深入了解了 NVIDIA 在各行各業的技術探索和應用,對整個 AI 和硬件加速生態有了更全面的認識。
Q
本次競賽有沒有難忘或有趣的經歷?
A
最印象深刻的是最后前往 NVIDIA 北京辦公室參觀,整個參觀讓我們深刻感受到了 NVIDIA 的快速發展軌跡,以及 NVIDIA 在各行各業所做出的技術貢獻。
Q
您是從什么渠道了解到 NVIDIA DOCA 的?什么契機使你成為 DOCA 開發者?
A
我們最初是在研究異構設備的共享內存接觸到的 NVIDIA DOCA。DPU 作為 CPU、GPU 和網絡之間的數據通信所需的核心部件,能夠讓整個數據和控制拓撲變得簡潔與清晰,也能夠很好地承擔起異構計算中的協調和加速角色。
Q
最初從事 DOCA 開發時,有具體明確的目標嗎?
A
目標是通過讓 DPU 承擔網絡處理、數據移動等任務,使得 CPU 能夠專注于計算密集型工作,同時 DPU 通過高速互聯 GPU 協同工作。
Q
過往有其他成功的 DOCA 開發經歷嗎?
A
在異構設備分布式共享內存項目開發中,我們利用 DPU 實現了跨地址空間的高效數據傳遞,這些相關經驗幫助我們后續在 Expert-Kit 推理框架中應用 DOCA 技術奠定了基礎。
Q
您對 DOCA 的評價如何呢?DOCA 中國開發者社區對你有哪些幫助?
A
DOCA 提供了一個編程框架,相關文檔也很齊全,對 AI 生態,包括 CUDA 等也有很好的包容性。
開發者寄語
“大語言模型的推理需求推動數據中心向異構計算演進,CPU、GPU、XPU 等不同類型設備需要協同工作才能發揮最大效能。DPU 和 DOCA 技術正是連接這些異構設備的關鍵,通過智能卸載和資源調度,能提升數據中心的整體利用率。期待更多開發者加入 DOCA 社區,共同探索 DPU 在異構計算方面的可能性。”
——SeekExpert 團隊
-
NVIDIA
+關注
關注
14文章
5594瀏覽量
109731 -
gpu
+關注
關注
28文章
5194瀏覽量
135450 -
模型
+關注
關注
1文章
3752瀏覽量
52109
原文標題:開發者故事 | 基于 DOCA GPUNetIO 的 MoE 模型推理加速實踐
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
今日看點:消息稱 AMD、高通考慮導入 SOCAMM 內存;曦望發布新一代推理GPU芯片啟望S3
LLM推理模型是如何推理的?
通過NVIDIA Jetson AGX Thor實現7倍生成式AI性能
NVIDIA TensorRT LLM 1.0推理框架正式上線
什么是AI模型的推理能力
使用NVIDIA NVLink Fusion技術提升AI推理性能
使用OpenVINO將PP-OCRv5模型部署在Intel顯卡上
DeepSeek R1 MTP在TensorRT-LLM中的實現與優化
NVIDIA從云到邊緣加速OpenAI gpt-oss模型部署,實現150萬TPS推理
【「DeepSeek 核心技術揭秘」閱讀體驗】書籍介紹+第一章讀后心得
NVIDIA DOCA 3.0版本的亮點解析
利用NVIDIA DOCA GPUNetIO技術提升MoE模型推理性能
評論