国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

利用NVIDIA DOCA GPUNetIO技術提升MoE模型推理性能

NVIDIA英偉達企業解決方案 ? 來源:NVIDIA英偉達企業解決方案 ? 2025-09-23 15:25 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在第三屆 NVIDIA DPU 中國黑客松競賽中,我們見證了開發者與 NVIDIA 網絡技術的深度碰撞。在 23 支參賽隊伍中,有 5 支隊伍脫穎而出,展現了在 AI 網絡、存儲和安全等領域的創新突破。

由劉瀚騁、劉崇鵬、劉陽組成的 SeekExpert 團隊在本屆黑客松中展現了卓越的技術實力,憑借其創新項目“利用 NVIDIA DOCA GPUNetIO 技術,加速 Expert-Kit 推理框架中的專家權重分發和通信傳輸部分,從而提升 MoE 模型推理的速度和效率”取得了第二名。該項目利用 NVIDIA DOCA GPUNetIO 技術,針對 Expert-Centric 架構的 Expert-Kit MoE 推理框架中的專家權重分發和通信傳輸關鍵環節進行了優化。

從網絡瓶頸到 DPU 異構加速的實踐突破

隨著數據中心計算向異構模式深度演進,網絡通信的控制和數據調度變得日益復雜,DPU 作為中間銜接的橋梁必將大有可為。在過去開發和使用 Expert-Kit 推理框架的過程中,SeekExpert 團隊發現將傳統開發模式運用到該框架存在較大的性能瓶頸。具體來說,框架采用 Expert-Centric 架構,該架構專注于快速專家調度和專家異構計算,但實際運行時網絡性能成為了關鍵的制約因素——具體表現為專家權重分發及中間結果傳輸過程中的數據拷貝開銷會導致推理延遲增加,同時網絡數據路徑處理占用大量 CPU 資源,與專家計算形成資源競爭,直接影響系統整體吞吐量。

基于這個痛點,SeekExpert 團隊意識到NVIDIA BlueField DPU恰好能破解這一難題,通過 DPU 專門處理網絡傳輸任務的技術特性,既能實現權重分發的加速,又能釋放 CPU 資源,從而使 CPU 專注專家計算的核心功能,這就是參賽項目的由來。

雙管齊下:攻克技術選型與協同開發難題

在開發過程中,團隊面臨的兩大底層技術挑戰,一個是來自于技術選型的難題,另一個是與 CUDA 協同開發的復雜性。首先,團隊需要全面理解 GPUNetIO、DMA、RDMA 等不同網絡加速方案的適用場景,并判斷哪個最符合團隊專家權重分發的需求,其次需要實現 DOCA 與 CUDA 的深度集成,這涉及到 GPU 內存管理、數據流同步等底層細節,調試復雜度極高。

為攻克這些難題,團隊采取了雙管齊下的策略:一方面充分利用 NVIDIA 的技術資源,通過DOCA 官方文檔中完善的 API 說明和示例代碼來獲取關鍵技術指引;另一方面,當遇到技術瓶頸時,團隊成員會從各自的技術視角開展討論,分析問題根源并提出針對性解決方案。

為 DPU 在大模型推理加速領域鋪路

該項目創新性地將 NVIDIA DOCA GPUNetIO 技術與 MoE 模型推理加速相結合,通過 Expert-Kit 推理框架實現異構硬件資源的協同優化,讓 DPU 專門處理網絡密集型的專家權重分發和通信任務,使 CPU 得以專注于專家計算,從而在云計算、數據中心的 AI 推理平臺中有效緩解集群時間維度(動態負載)與空間維度(不同設備協同)的資源利用率難題,為 DPU 在大模型推理加速領域提供了優化方向。

DOCA 開發者快問快答

Q

您是從哪里了解到 NVIDIA DPU 黑客松競賽的?參賽的目標是什么?

A

我們是通過老師的介紹了解到這次 NVIDIA DPU 中國黑客松競賽的。由于我們之前在研究異構設備共享內存時就接觸過 DOCA 軟件框架,當我們的 Expert-Kit 推理框架遇到網絡傳輸優化瓶頸時,自然聯想到了 DPU 可能存在的機會。

Q

賽前舉辦的 DPU 線上技術訓練營對您的備賽起到哪些幫助?

A

訓練營對 DPU 在各個領域的解決方案進行了引領性講解,涵蓋了安全、網絡卸載等多個方向,讓我們對 DOCA 開發有了更為全面的認識。

Q

參與 NVIDIA DPU 黑客松競賽有哪些收獲?

A

除了技術能力的提升,我們還結識了很多其他參賽隊伍的隊員,了解了他們在相關研究方向上的探索,這拓寬了我們的技術視野。同時,通過比賽我們也深入了解了 NVIDIA 在各行各業的技術探索和應用,對整個 AI 和硬件加速生態有了更全面的認識。

Q

本次競賽有沒有難忘或有趣的經歷?

A

最印象深刻的是最后前往 NVIDIA 北京辦公室參觀,整個參觀讓我們深刻感受到了 NVIDIA 的快速發展軌跡,以及 NVIDIA 在各行各業所做出的技術貢獻。

Q

您是從什么渠道了解到 NVIDIA DOCA 的?什么契機使你成為 DOCA 開發者?

A

我們最初是在研究異構設備的共享內存接觸到的 NVIDIA DOCA。DPU 作為 CPU、GPU 和網絡之間的數據通信所需的核心部件,能夠讓整個數據和控制拓撲變得簡潔與清晰,也能夠很好地承擔起異構計算中的協調和加速角色。

Q

最初從事 DOCA 開發時,有具體明確的目標嗎?

A

目標是通過讓 DPU 承擔網絡處理、數據移動等任務,使得 CPU 能夠專注于計算密集型工作,同時 DPU 通過高速互聯 GPU 協同工作。

Q

過往有其他成功的 DOCA 開發經歷嗎?

A

在異構設備分布式共享內存項目開發中,我們利用 DPU 實現了跨地址空間的高效數據傳遞,這些相關經驗幫助我們后續在 Expert-Kit 推理框架中應用 DOCA 技術奠定了基礎。

Q

您對 DOCA 的評價如何呢?DOCA 中國開發者社區對你有哪些幫助?

A

DOCA 提供了一個編程框架,相關文檔也很齊全,對 AI 生態,包括 CUDA 等也有很好的包容性。

開發者寄語

“大語言模型的推理需求推動數據中心向異構計算演進,CPU、GPU、XPU 等不同類型設備需要協同工作才能發揮最大效能。DPU 和 DOCA 技術正是連接這些異構設備的關鍵,通過智能卸載和資源調度,能提升數據中心的整體利用率。期待更多開發者加入 DOCA 社區,共同探索 DPU 在異構計算方面的可能性。”

——SeekExpert 團隊

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • NVIDIA
    +關注

    關注

    14

    文章

    5594

    瀏覽量

    109731
  • gpu
    gpu
    +關注

    關注

    28

    文章

    5194

    瀏覽量

    135450
  • 模型
    +關注

    關注

    1

    文章

    3752

    瀏覽量

    52109

原文標題:開發者故事 | 基于 DOCA GPUNetIO 的 MoE 模型推理加速實踐

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業解決方案】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    今日看點:消息稱 AMD、高通考慮導入 SOCAMM 內存;曦望發布新一代推理GPU芯片啟望S3

    推理深度定制的GPGPU芯片。其單芯片推理性能提升5倍,支持從FP16到FP8、FP6、FP4等多精度靈活切換,釋放低精度推理效率,這種設計更貼合當前
    發表于 01-28 11:09 ?393次閱讀

    LLM推理模型是如何推理的?

    這篇文章《(How)DoReasoningModelsReason?》對當前大型推理模型(LRM)進行了深刻的剖析,超越了表面的性能宣傳,直指其技術本質和核心局限。以下是基于原文的詳細技術
    的頭像 發表于 01-19 15:33 ?488次閱讀
    LLM<b class='flag-5'>推理模型</b>是如何<b class='flag-5'>推理</b>的?

    NVIDIA Grace Blackwell平臺實現MoE模型性能十倍提升

    如今,幾乎任一前沿模型的內部結構都采用混合專家 (MoE) 模型架構,這種架構旨在模擬人腦的高效運作機制。
    的頭像 發表于 12-13 09:23 ?889次閱讀
    <b class='flag-5'>NVIDIA</b> Grace Blackwell平臺實現<b class='flag-5'>MoE</b><b class='flag-5'>模型</b><b class='flag-5'>性能</b>十倍<b class='flag-5'>提升</b>

    通過NVIDIA Jetson AGX Thor實現7倍生成式AI性能

    Jetson Thor 平臺還支持多種主流量化格式,包括 NVIDIA Blackwell GPU 架構的新 NVFP4 格式,有助于進一步優化推理性能。該平臺同時支持推測解碼等新技術,為在邊緣端加速生成式 AI 工作負載提供了
    的頭像 發表于 10-29 16:53 ?1429次閱讀

    NVIDIA TensorRT LLM 1.0推理框架正式上線

    TensorRT LLM 作為 NVIDIA 為大規模 LLM 推理打造的推理框架,核心目標是突破 NVIDIA 平臺上的推理性能瓶頸。為實
    的頭像 發表于 10-21 11:04 ?1174次閱讀

    什么是AI模型推理能力

    NVIDIA 的數據工廠團隊為 NVIDIA Cosmos Reason 等 AI 模型奠定了基礎,該模型近日在 Hugging Face 的物理
    的頭像 發表于 09-23 15:19 ?1275次閱讀

    使用NVIDIA NVLink Fusion技術提升AI推理性能

    本文詳細闡述了 NVIDIA NVLink Fusion 如何借助高效可擴展的 NVIDIA NVLink scale-up 架構技術,滿足日益復雜的 AI 模型不斷增長的需求。
    的頭像 發表于 09-23 14:45 ?923次閱讀
    使用<b class='flag-5'>NVIDIA</b> NVLink Fusion<b class='flag-5'>技術</b><b class='flag-5'>提升</b>AI<b class='flag-5'>推理性能</b>

    使用OpenVINO將PP-OCRv5模型部署在Intel顯卡上

    是一個用于優化和部署人工智能(AI)模型提升AI推理性能的開源工具集合,不僅支持以卷積神經網絡(CNN)為核心組件的預測式AI模型(Predictive AI),還支持以Transf
    的頭像 發表于 09-20 11:17 ?1241次閱讀
    使用OpenVINO將PP-OCRv5<b class='flag-5'>模型</b>部署在Intel顯卡上

    DeepSeek R1 MTP在TensorRT-LLM中的實現與優化

    TensorRT-LLM 在 NVIDIA Blackwell GPU 上創下了 DeepSeek-R1 推理性能的世界紀錄,Multi-Token Prediction (MTP) 實現了大幅提速
    的頭像 發表于 08-30 15:47 ?4450次閱讀
    DeepSeek R1 MTP在TensorRT-LLM中的實現與優化

    NVIDIA Nemotron Nano 2推理模型發布

    NVIDIA 正式推出準確、高效的混合 Mamba-Transformer 推理模型系列 NVIDIA Nemotron Nano 2。
    的頭像 發表于 08-27 12:45 ?1783次閱讀
    <b class='flag-5'>NVIDIA</b> Nemotron Nano 2<b class='flag-5'>推理模型</b>發布

    NVIDIA從云到邊緣加速OpenAI gpt-oss模型部署,實現150萬TPS推理

    的發布持續深化了雙方的 AI 創新合作。NVIDIANVIDIA Blackwell 架構上優化了這兩款全新的開放權重模型并實現了推理性能加速,在
    的頭像 發表于 08-15 20:34 ?2303次閱讀
    <b class='flag-5'>NVIDIA</b>從云到邊緣加速OpenAI gpt-oss<b class='flag-5'>模型</b>部署,實現150萬TPS<b class='flag-5'>推理</b>

    【「DeepSeek 核心技術揭秘」閱讀體驗】書籍介紹+第一章讀后心得

    剖析 DeepSeek-V3 的模型架構、訓練框架、推理階段優化、后訓練優化等關鍵技術。從混合專家模型MoE)的起源與發展,到 DeepS
    發表于 07-17 11:59

    NVIDIA DOCA 3.0版本的亮點解析

    NVIDIA DOCA 框架已發展成為新一代 AI 基礎設施的重要組成部分。從初始版本到備受期待的 NVIDIA DOCA 3.0 發布,每個版本都擴展了
    的頭像 發表于 07-04 14:27 ?1238次閱讀
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>DOCA</b> 3.0版本的亮點解析

    模型推理顯存和計算量估計方法研究

    隨著人工智能技術的飛速發展,深度學習大模型在各個領域得到了廣泛應用。然而,大模型推理過程對顯存和計算資源的需求較高,給實際應用帶來了挑戰。為了解決這一問題,本文將探討大
    發表于 07-03 19:43

    英偉達GTC25亮點:NVIDIA Dynamo開源庫加速并擴展AI推理模型

    NVIDIA Dynamo 提高了推理性能,同時降低了擴展測試時計算 (Scaling Test-Time Compute) 的成本;在 NVIDIA Blackwell 上的推理優化
    的頭像 發表于 03-20 15:03 ?1234次閱讀