国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

中科馭數高性能網卡產品 成就DeepSeek推理模型網絡底座

中科馭數 ? 來源:中科馭數 ? 作者:中科馭數 ? 2025-03-31 11:56 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

2025年初,DeepSeek-V3與DeepSeek-R1推理模型的開源引爆了AI社區,這兩款產品作為通用千億級模型與專用推理優化模型,為全球AI技術生態帶來重大變革,不僅展示了中國AGI技術的突破性進展,而且開源模型發展帶來部署成本的極速下降,為定制化AGI服務,推理本地化部署,帶來發展機遇,也掀起了新的一輪智算基礎設施建設浪潮。

與按Token生成數量計費的AI云服務模式不同,出于數據安全的考慮,很多用戶選擇采用本地化部署推理集群的方式將AI能力集成到當前業務流中。由于整個推理應用的業務鏈條非常長,本地化部署需要綜合考慮如下各個方面與需求的匹配度:

硬件與基礎設施規劃:包括GPU與專用芯片選型、網絡架構優化與隔離、存儲方案評估

模型優化與部署策略:包括量化壓縮等推理加速技術選型、資源動態調度技術等

安全與合規性:需要綜合考慮數據使用的便捷性與合規要求

高可用與容災設計:包括故障自愈方案、數據備份等

成本控制:根據業務使用模式合理制定需求規格,嚴控成本

為了更好地服務客戶完成本地化推理集群的選型與部署工作,近期中科馭數作為國內AI網絡的頭部DPU芯片產品供應商,從網絡選型對推理集群性能影響的角度出發,設計與執行了一系列實驗并收集了翔實的一手材料數據。

本實驗環境共采用了DeepSeek-R1-Distill-Qwen-32B未量化版本作為基礎模型,基于vLLM搭建了推理集群,并采用evalscope對推理效果完成了評估。本次時延共使用了兩臺雙GPU服務器,服務器基本配置如下:

wKgZPGfqEmyAYGdXAABBxTO92jo515.png

首先,我們關注采用TCP方式作為底層推理網絡基礎時,進行了如下測試:

當采用2TP+2PP的模型切割方式時,獲得了如下基礎數據:

wKgZO2fqEm2AfHMkAACuI4a0wyQ954.png

隨后切換到4TP+1PP模型切割模式,加大了不同節點間的矩陣數據交換需求,得到如下數據:

wKgZPGfqEm2ATKkCAACg0byqwjM265.png

為了更好的體現測試數據的公平性,本測試隨后選擇行業領導企業的成熟網卡產品進行了實驗,得出了基本一致的數據測試結果。并且在TCP模式下,中科馭數FlexFlow-2200T設備基本達到了與國際一線廠商相同的能力水平。

wKgZO2fqEm2AWR7HAAESY-R7iYQ492.png

隨后,本實驗將底層基礎網絡技術切換為RDMA網絡,進行了測試驗證并收集到如下數據:

wKgZPGfqEm6ASuZiAAE2xuyU9TE948.png

通過對比可以得知在模型進行良好切分設計的情況下,RDMA網絡并未能提升整體推理性能,但是在節點間需要傳遞張量數據的情況下,RDMA網絡可大幅提升模型推理性能,同時在大并發規模時,能夠更好的保持推理集群的服務穩定性。

wKgZO2fqEm6ANiufAAAtfole5AE22.webpwKgZPGfqEm6ABPWOAAAytATWCfA30.webp

通過一系列的實驗結果,我們可以得出如下結論:

一、良好的模型切分設計可以大幅提升模型性能,此時無需引入復雜的RDMA網絡運維,即可獲得最佳的推理性能體驗,從而獲得最高的投入產出比。

二、在單臺服務器GPU算力受限,不得不在節點間進行張量切分時,可以使用RDMA網絡保證推理模型的服務性能與穩定性。但是引入RDMA帶來性能提升的同時,成本的提升比例也是一致的。大家可以按照實際應用場景,考慮多方因素后綜合選擇。

wKgZO2fqEm-ACDe5AAAeYNUAnHM46.webp

中科馭數的作為國內全品種網卡的研發企業,基于全自研、國產芯片K2-Pro打造的FlexFlow-2200T網卡,可以承擔智算大模型的網絡底座,為您的智算模型增加一顆“中國芯”。

審核編輯 黃宇

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 網卡
    +關注

    關注

    4

    文章

    339

    瀏覽量

    28904
  • DPU
    DPU
    +關注

    關注

    0

    文章

    414

    瀏覽量

    26962
  • DeepSeek
    +關注

    關注

    2

    文章

    835

    瀏覽量

    3255
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    阿里巴巴發布通義千問旗艦推理模型Qwen3-Max-Thinking

    今天,我們正式發布千問旗艦推理模型Qwen3-Max-Thinking,創下數項權威評測全球新紀錄。
    的頭像 發表于 01-27 15:47 ?372次閱讀
    阿里巴巴發布通義千問旗艦<b class='flag-5'>推理模型</b>Qwen3-Max-Thinking

    LLM推理模型是如何推理的?

    這篇文章《(How)DoReasoningModelsReason?》對當前大型推理模型(LRM)進行了深刻的剖析,超越了表面的性能宣傳,直指其技術本質和核心局限。以下是基于原文的詳細技術原理、關鍵
    的頭像 發表于 01-19 15:33 ?476次閱讀
    LLM<b class='flag-5'>推理模型</b>是如何<b class='flag-5'>推理</b>的?

    中科西南總部落地成都天府新區

    近日,2025 天府人工智能產業生態大會在成都科創生態島盛大開幕。省委副書記、省長施小琳出席活動。在開幕式備受關注的人工智能產業重大項目集中簽約環節,中科與天府新區管委會正式簽署合作協議,宣告
    的頭像 發表于 10-13 15:10 ?956次閱讀

    NVIDIA Nemotron Nano 2推理模型發布

    NVIDIA 正式推出準確、高效的混合 Mamba-Transformer 推理模型系列 NVIDIA Nemotron Nano 2。
    的頭像 發表于 08-27 12:45 ?1776次閱讀
    NVIDIA Nemotron Nano 2<b class='flag-5'>推理模型</b>發布

    中科亮相2025 CCF全國高性能計算學術大會

    在昨日開幕的中國計算機學會全國高性能計算學術大會(CCF HPC China 2025)上,中科作為高通量以太網聯盟成員參與聯盟成果發布。同期舉辦的世界算力博覽會上,
    的頭像 發表于 08-20 09:39 ?928次閱讀

    澎峰科技完成OpenAI最新開源推理模型適配

    澎峰科技現已完成 OpenAI 最新開源推理模型 gpt-oss-20b 在 DeepFusion 大模型一體機上的原生適配與優化,用戶可一鍵啟用這顆“小而強悍”的新引擎,在本地享受企業級 AI 生產力!
    的頭像 發表于 08-14 11:34 ?1402次閱讀

    利用NVIDIA推理模型構建AI智能體

    開放式推理模型能夠更快、更廣泛地進行思考,為客戶服務、網絡安全、制造、物流和機器人等領域的 AI 智能體生成更明智的結果。
    的頭像 發表于 08-13 14:32 ?1585次閱讀
    利用NVIDIA<b class='flag-5'>推理模型</b>構建AI智能體

    速看!EASY-EAI教你離線部署Deepseek R1大模型

    1.Deepseek簡介DeepSeek-R1,是幻方量化旗下AI公司深度求索(DeepSeek)研發的推理模型。DeepSeek-R1采用
    的頭像 發表于 07-25 15:22 ?1372次閱讀
    速看!EASY-EAI教你離線部署<b class='flag-5'>Deepseek</b> R1大<b class='flag-5'>模型</b>

    【「DeepSeek 核心技術揭秘」閱讀體驗】書籍介紹+第一章讀后心得

    DeepSeek性能突破形成直觀的認識。同時,介紹 DeepSeek模型家族 ,涵蓋通用語言模型、多模態
    發表于 07-17 11:59

    信而泰×DeepSeek:AI推理引擎驅動網絡智能診斷邁向 “自愈”時代

    網絡智能診斷平臺。通過對私有化網絡數據的定向訓練,信而泰打造了高性能、高可靠性的網絡診斷模型,顯著提升了AI輔助診斷的精準度與實用性。該方案
    發表于 07-16 15:29

    【書籍評測活動NO.62】一本書讀懂 DeepSeek 全家桶核心技術:DeepSeek 核心技術揭秘

    。DeepSeek-V3 的發布幾乎沒有預熱和炒作,僅憑借其出色的效果和超低的成本迅速走紅。 DeepSeek-R1 則是在 DeepSeek-V3 的基礎上構建的推理模型,它在后訓練
    發表于 06-09 14:38

    中科受邀出席2025中關村論壇

      2025中關村論壇年會3月27日至31日在京舉辦,中科作為高性能芯片企業代表受邀參與中關村論壇,在位于中關村展示中心的常設展中展出公司最新的DPU芯片
    的頭像 發表于 04-07 09:57 ?1096次閱讀

    詳解 LLM 推理模型的現狀

    領域的最新研究進展,特別是自DeepSeekR1發布后興起的推理時間計算擴展相關內容。在LLM中實施和改進推理簡單來說,基于LLM的推理模型是一種旨在通過生成中間
    的頭像 發表于 04-03 12:09 ?1610次閱讀
    詳解 LLM <b class='flag-5'>推理模型</b>的現狀

    英偉達GTC25亮點:NVIDIA Dynamo開源庫加速并擴展AI推理模型

    DeepSeek-R1 上的吞吐量提高了 30 倍 NVIDIA 發布了開源推理軟件 NVIDIA Dynamo,旨在以高效率、低成本加速并擴展 AI 工廠中的 AI 推理模型。 作為 NVIDIA
    的頭像 發表于 03-20 15:03 ?1231次閱讀

    如何使用OpenVINO運行DeepSeek-R1蒸餾模型

    DeepSeek-R1在春節期間引發了全球科技界的熱度,DeepSeek-R1 是由 DeepSeek 開發的開源推理模型,用于解決需要邏輯推理
    的頭像 發表于 03-12 13:45 ?2375次閱讀
    如何使用OpenVINO運行<b class='flag-5'>DeepSeek</b>-R1蒸餾<b class='flag-5'>模型</b>