国产精品换妻,玖玖成人,国产麻豆精品一区二区

在第三屆 NVIDIA DPU 中國黑客松競賽中，我們見證了開發者與 NVIDIA 網絡技術的深度碰撞。在 23 支參賽隊伍中，有 5 支隊伍脫穎而出，展現了在 AI 網絡、存儲和安全等領域的創新突破。

由劉瀚騁、劉崇鵬、劉陽組成的 SeekExpert 團隊在本屆黑客松中展現了卓越的技術實力，憑借其創新項目“利用 NVIDIA DOCA GPUNetIO 技術，加速 Expert-Kit 推理框架中的專家權重分發和通信傳輸部分，從而提升 MoE 模型推理的速度和效率”取得了第二名。該項目利用 NVIDIA DOCA GPUNetIO 技術，針對 Expert-Centric 架構的 Expert-Kit MoE 推理框架中的專家權重分發和通信傳輸關鍵環節進行了優化。

從網絡瓶頸到 DPU 異構加速的實踐突破

隨著數據中心計算向異構模式深度演進，網絡通信的控制和數據調度變得日益復雜，DPU 作為中間銜接的橋梁必將大有可為。在過去開發和使用 Expert-Kit 推理框架的過程中，SeekExpert 團隊發現將傳統開發模式運用到該框架存在較大的性能瓶頸。具體來說，框架采用 Expert-Centric 架構，該架構專注于快速專家調度和專家異構計算，但實際運行時網絡性能成為了關鍵的制約因素——具體表現為專家權重分發及中間結果傳輸過程中的數據拷貝開銷會導致推理延遲增加，同時網絡數據路徑處理占用大量 CPU 資源，與專家計算形成資源競爭，直接影響系統整體吞吐量。

基于這個痛點，SeekExpert 團隊意識到NVIDIA BlueField DPU恰好能破解這一難題，通過 DPU 專門處理網絡傳輸任務的技術特性，既能實現權重分發的加速，又能釋放 CPU 資源，從而使 CPU 專注專家計算的核心功能，這就是參賽項目的由來。

雙管齊下：攻克技術選型與協同開發難題

在開發過程中，團隊面臨的兩大底層技術挑戰，一個是來自于技術選型的難題，另一個是與 CUDA 協同開發的復雜性。首先，團隊需要全面理解 GPUNetIO、DMA、RDMA 等不同網絡加速方案的適用場景，并判斷哪個最符合團隊專家權重分發的需求，其次需要實現 DOCA 與 CUDA 的深度集成，這涉及到 GPU 內存管理、數據流同步等底層細節，調試復雜度極高。

為攻克這些難題，團隊采取了雙管齊下的策略：一方面充分利用 NVIDIA 的技術資源，通過DOCA 官方文檔中完善的 API 說明和示例代碼來獲取關鍵技術指引；另一方面，當遇到技術瓶頸時，團隊成員會從各自的技術視角開展討論，分析問題根源并提出針對性解決方案。

為 DPU 在大模型推理加速領域鋪路

該項目創新性地將 NVIDIA DOCA GPUNetIO 技術與 MoE 模型推理加速相結合，通過 Expert-Kit 推理框架實現異構硬件資源的協同優化，讓 DPU 專門處理網絡密集型的專家權重分發和通信任務，使 CPU 得以專注于專家計算，從而在云計算、數據中心的 AI 推理平臺中有效緩解集群時間維度（動態負載）與空間維度（不同設備協同）的資源利用率難題，為 DPU 在大模型推理加速領域提供了優化方向。

DOCA 開發者快問快答

您是從哪里了解到 NVIDIA DPU 黑客松競賽的？參賽的目標是什么？

我們是通過老師的介紹了解到這次 NVIDIA DPU 中國黑客松競賽的。由于我們之前在研究異構設備共享內存時就接觸過 DOCA 軟件框架，當我們的 Expert-Kit 推理框架遇到網絡傳輸優化瓶頸時，自然聯想到了 DPU 可能存在的機會。

賽前舉辦的 DPU 線上技術訓練營對您的備賽起到哪些幫助？

訓練營對 DPU 在各個領域的解決方案進行了引領性講解，涵蓋了安全、網絡卸載等多個方向，讓我們對 DOCA 開發有了更為全面的認識。

參與 NVIDIA DPU 黑客松競賽有哪些收獲？

除了技術能力的提升，我們還結識了很多其他參賽隊伍的隊員，了解了他們在相關研究方向上的探索，這拓寬了我們的技術視野。同時，通過比賽我們也深入了解了 NVIDIA 在各行各業的技術探索和應用，對整個 AI 和硬件加速生態有了更全面的認識。

本次競賽有沒有難忘或有趣的經歷？

最印象深刻的是最后前往 NVIDIA 北京辦公室參觀，整個參觀讓我們深刻感受到了 NVIDIA 的快速發展軌跡，以及 NVIDIA 在各行各業所做出的技術貢獻。

您是從什么渠道了解到 NVIDIA DOCA 的？什么契機使你成為 DOCA 開發者？

我們最初是在研究異構設備的共享內存接觸到的 NVIDIA DOCA。DPU 作為 CPU、GPU 和網絡之間的數據通信所需的核心部件，能夠讓整個數據和控制拓撲變得簡潔與清晰，也能夠很好地承擔起異構計算中的協調和加速角色。

最初從事 DOCA 開發時，有具體明確的目標嗎？

目標是通過讓 DPU 承擔網絡處理、數據移動等任務，使得 CPU 能夠專注于計算密集型工作，同時 DPU 通過高速互聯 GPU 協同工作。

過往有其他成功的 DOCA 開發經歷嗎？

在異構設備分布式共享內存項目開發中，我們利用 DPU 實現了跨地址空間的高效數據傳遞，這些相關經驗幫助我們后續在 Expert-Kit 推理框架中應用 DOCA 技術奠定了基礎。

您對 DOCA 的評價如何呢？DOCA 中國開發者社區對你有哪些幫助？

DOCA 提供了一個編程框架，相關文檔也很齊全，對 AI 生態，包括 CUDA 等也有很好的包容性。

開發者寄語

“大語言模型的推理需求推動數據中心向異構計算演進，CPU、GPU、XPU 等不同類型設備需要協同工作才能發揮最大效能。DPU 和 DOCA 技術正是連接這些異構設備的關鍵，通過智能卸載和資源調度，能提升數據中心的整體利用率。期待更多開發者加入 DOCA 社區，共同探索 DPU 在異構計算方面的可能性。”

——SeekExpert 團隊

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴