伦伦影院久久影视,天天操天天干天天射,ririsao久久精品一区 ,一本大道香蕉大久在红桃,999久久久免费精品国产色夜,色悠悠久久综合88,亚洲国产精品久久无套麻豆,亚洲香蕉毛片久久网站,一本一道久久综合狠狠老

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

中科馭數(shù)高性能網(wǎng)卡產(chǎn)品 成就DeepSeek推理模型網(wǎng)絡(luò)底座

中科馭數(shù) ? 來源:中科馭數(shù) ? 作者:中科馭數(shù) ? 2025-03-31 11:56 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

2025年初,DeepSeek-V3與DeepSeek-R1推理模型的開源引爆了AI社區(qū),這兩款產(chǎn)品作為通用千億級模型與專用推理優(yōu)化模型,為全球AI技術(shù)生態(tài)帶來重大變革,不僅展示了中國AGI技術(shù)的突破性進(jìn)展,而且開源模型發(fā)展帶來部署成本的極速下降,為定制化AGI服務(wù),推理本地化部署,帶來發(fā)展機(jī)遇,也掀起了新的一輪智算基礎(chǔ)設(shè)施建設(shè)浪潮。

與按Token生成數(shù)量計費(fèi)的AI云服務(wù)模式不同,出于數(shù)據(jù)安全的考慮,很多用戶選擇采用本地化部署推理集群的方式將AI能力集成到當(dāng)前業(yè)務(wù)流中。由于整個推理應(yīng)用的業(yè)務(wù)鏈條非常長,本地化部署需要綜合考慮如下各個方面與需求的匹配度:

硬件與基礎(chǔ)設(shè)施規(guī)劃:包括GPU與專用芯片選型、網(wǎng)絡(luò)架構(gòu)優(yōu)化與隔離、存儲方案評估

模型優(yōu)化與部署策略:包括量化壓縮等推理加速技術(shù)選型、資源動態(tài)調(diào)度技術(shù)等

安全與合規(guī)性:需要綜合考慮數(shù)據(jù)使用的便捷性與合規(guī)要求

高可用與容災(zāi)設(shè)計:包括故障自愈方案、數(shù)據(jù)備份等

成本控制:根據(jù)業(yè)務(wù)使用模式合理制定需求規(guī)格,嚴(yán)控成本

為了更好地服務(wù)客戶完成本地化推理集群的選型與部署工作,近期中科馭數(shù)作為國內(nèi)AI網(wǎng)絡(luò)的頭部DPU芯片產(chǎn)品供應(yīng)商,從網(wǎng)絡(luò)選型對推理集群性能影響的角度出發(fā),設(shè)計與執(zhí)行了一系列實驗并收集了翔實的一手材料數(shù)據(jù)。

本實驗環(huán)境共采用了DeepSeek-R1-Distill-Qwen-32B未量化版本作為基礎(chǔ)模型,基于vLLM搭建了推理集群,并采用evalscope對推理效果完成了評估。本次時延共使用了兩臺雙GPU服務(wù)器,服務(wù)器基本配置如下:

wKgZPGfqEmyAYGdXAABBxTO92jo515.png

首先,我們關(guān)注采用TCP方式作為底層推理網(wǎng)絡(luò)基礎(chǔ)時,進(jìn)行了如下測試:

當(dāng)采用2TP+2PP的模型切割方式時,獲得了如下基礎(chǔ)數(shù)據(jù):

wKgZO2fqEm2AfHMkAACuI4a0wyQ954.png

隨后切換到4TP+1PP模型切割模式,加大了不同節(jié)點(diǎn)間的矩陣數(shù)據(jù)交換需求,得到如下數(shù)據(jù):

wKgZPGfqEm2ATKkCAACg0byqwjM265.png

為了更好的體現(xiàn)測試數(shù)據(jù)的公平性,本測試隨后選擇行業(yè)領(lǐng)導(dǎo)企業(yè)的成熟網(wǎng)卡產(chǎn)品進(jìn)行了實驗,得出了基本一致的數(shù)據(jù)測試結(jié)果。并且在TCP模式下,中科馭數(shù)FlexFlow-2200T設(shè)備基本達(dá)到了與國際一線廠商相同的能力水平。

wKgZO2fqEm2AWR7HAAESY-R7iYQ492.png

隨后,本實驗將底層基礎(chǔ)網(wǎng)絡(luò)技術(shù)切換為RDMA網(wǎng)絡(luò),進(jìn)行了測試驗證并收集到如下數(shù)據(jù):

wKgZPGfqEm6ASuZiAAE2xuyU9TE948.png

通過對比可以得知在模型進(jìn)行良好切分設(shè)計的情況下,RDMA網(wǎng)絡(luò)并未能提升整體推理性能,但是在節(jié)點(diǎn)間需要傳遞張量數(shù)據(jù)的情況下,RDMA網(wǎng)絡(luò)可大幅提升模型推理性能,同時在大并發(fā)規(guī)模時,能夠更好的保持推理集群的服務(wù)穩(wěn)定性。

wKgZO2fqEm6ANiufAAAtfole5AE22.webpwKgZPGfqEm6ABPWOAAAytATWCfA30.webp

通過一系列的實驗結(jié)果,我們可以得出如下結(jié)論:

一、良好的模型切分設(shè)計可以大幅提升模型性能,此時無需引入復(fù)雜的RDMA網(wǎng)絡(luò)運(yùn)維,即可獲得最佳的推理性能體驗,從而獲得最高的投入產(chǎn)出比。

二、在單臺服務(wù)器GPU算力受限,不得不在節(jié)點(diǎn)間進(jìn)行張量切分時,可以使用RDMA網(wǎng)絡(luò)保證推理模型的服務(wù)性能與穩(wěn)定性。但是引入RDMA帶來性能提升的同時,成本的提升比例也是一致的。大家可以按照實際應(yīng)用場景,考慮多方因素后綜合選擇。

wKgZO2fqEm-ACDe5AAAeYNUAnHM46.webp

中科馭數(shù)的作為國內(nèi)全品種網(wǎng)卡的研發(fā)企業(yè),基于全自研、國產(chǎn)芯片K2-Pro打造的FlexFlow-2200T網(wǎng)卡,可以承擔(dān)智算大模型的網(wǎng)絡(luò)底座,為您的智算模型增加一顆“中國芯”。

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 網(wǎng)卡
    +關(guān)注

    關(guān)注

    4

    文章

    344

    瀏覽量

    29028
  • DPU
    DPU
    +關(guān)注

    關(guān)注

    0

    文章

    415

    瀏覽量

    27128
  • DeepSeek
    +關(guān)注

    關(guān)注

    2

    文章

    837

    瀏覽量

    3366
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    阿里巴巴發(fā)布通義千問旗艦推理模型Qwen3-Max-Thinking

    今天,我們正式發(fā)布千問旗艦推理模型Qwen3-Max-Thinking,創(chuàng)下數(shù)項權(quán)威評測全球新紀(jì)錄。
    的頭像 發(fā)表于 01-27 15:47 ?518次閱讀
    阿里巴巴發(fā)布通義千問旗艦<b class='flag-5'>推理模型</b>Qwen3-Max-Thinking

    LLM推理模型是如何推理的?

    這篇文章《(How)DoReasoningModelsReason?》對當(dāng)前大型推理模型(LRM)進(jìn)行了深刻的剖析,超越了表面的性能宣傳,直指其技術(shù)本質(zhì)和核心局限。以下是基于原文的詳細(xì)技術(shù)原理、關(guān)鍵
    的頭像 發(fā)表于 01-19 15:33 ?631次閱讀
    LLM<b class='flag-5'>推理模型</b>是如何<b class='flag-5'>推理</b>的?

    彰顯硬科技實力 中科數(shù)榮登VENTURE50硬科技榜 構(gòu)建DPU“運(yùn)力”底座

    近日,由清科控股、投資界發(fā)起的 2025 VENTURE50(簡稱 V50)評選結(jié)果正式揭曉,DPU 芯片研發(fā)領(lǐng)軍企業(yè)中科數(shù)憑借深厚的技術(shù)壁壘、成熟的商業(yè)化能力及突出的產(chǎn)業(yè)價值,成功榮登 “2025 VENTURE 50 硬科
    的頭像 發(fā)表于 12-13 11:26 ?1180次閱讀

    中科數(shù)西南總部落地成都天府新區(qū)

    近日,2025 天府人工智能產(chǎn)業(yè)生態(tài)大會在成都科創(chuàng)生態(tài)島盛大開幕。省委副書記、省長施小琳出席活動。在開幕式備受關(guān)注的人工智能產(chǎn)業(yè)重大項目集中簽約環(huán)節(jié),中科數(shù)與天府新區(qū)管委會正式簽署合作協(xié)議,宣告
    的頭像 發(fā)表于 10-13 15:10 ?1091次閱讀

    什么是AI模型推理能力

    NVIDIA 的數(shù)據(jù)工廠團(tuán)隊為 NVIDIA Cosmos Reason 等 AI 模型奠定了基礎(chǔ),該模型近日在 Hugging Face 的物理推理模型排行榜中位列榜首。
    的頭像 發(fā)表于 09-23 15:19 ?1394次閱讀

    NVIDIA Nemotron Nano 2推理模型發(fā)布

    NVIDIA 正式推出準(zhǔn)確、高效的混合 Mamba-Transformer 推理模型系列 NVIDIA Nemotron Nano 2。
    的頭像 發(fā)表于 08-27 12:45 ?1951次閱讀
    NVIDIA Nemotron Nano 2<b class='flag-5'>推理模型</b>發(fā)布

    中科數(shù)亮相2025 CCF全國高性能計算學(xué)術(shù)大會

    在昨日開幕的中國計算機(jī)學(xué)會全國高性能計算學(xué)術(shù)大會(CCF HPC China 2025)上,中科數(shù)作為高通量以太網(wǎng)聯(lián)盟成員參與聯(lián)盟成果發(fā)布。同期舉辦的世界算力博覽會上,
    的頭像 發(fā)表于 08-20 09:39 ?1075次閱讀

    澎峰科技完成OpenAI最新開源推理模型適配

    澎峰科技現(xiàn)已完成 OpenAI 最新開源推理模型 gpt-oss-20b 在 DeepFusion 大模型一體機(jī)上的原生適配與優(yōu)化,用戶可一鍵啟用這顆“小而強(qiáng)悍”的新引擎,在本地享受企業(yè)級 AI 生產(chǎn)力!
    的頭像 發(fā)表于 08-14 11:34 ?1498次閱讀

    利用NVIDIA推理模型構(gòu)建AI智能體

    開放式推理模型能夠更快、更廣泛地進(jìn)行思考,為客戶服務(wù)、網(wǎng)絡(luò)安全、制造、物流和機(jī)器人等領(lǐng)域的 AI 智能體生成更明智的結(jié)果。
    的頭像 發(fā)表于 08-13 14:32 ?1704次閱讀
    利用NVIDIA<b class='flag-5'>推理模型</b>構(gòu)建AI智能體

    速看!EASY-EAI教你離線部署Deepseek R1大模型

    1.Deepseek簡介DeepSeek-R1,是幻方量化旗下AI公司深度求索(DeepSeek)研發(fā)的推理模型DeepSeek-R1采用
    的頭像 發(fā)表于 07-25 15:22 ?1518次閱讀
    速看!EASY-EAI教你離線部署<b class='flag-5'>Deepseek</b> R1大<b class='flag-5'>模型</b>

    【「DeepSeek 核心技術(shù)揭秘」閱讀體驗】+混合專家

    -V3的版本區(qū)別, 深入了解Deepseek的技術(shù)細(xì)節(jié),快速掌握大模型領(lǐng)域的前沿知識,洞察對行業(yè)應(yīng)用的影響,提升自身在該領(lǐng)域的專業(yè)水平和競爭力。 本書流程非常清晰,先認(rèn)識Deepseek性能
    發(fā)表于 07-22 22:14

    【「DeepSeek 核心技術(shù)揭秘」閱讀體驗】書籍介紹+第一章讀后心得

    DeepSeek性能突破形成直觀的認(rèn)識。同時,介紹 DeepSeek模型家族 ,涵蓋通用語言模型、多模態(tài)
    發(fā)表于 07-17 11:59

    信而泰×DeepSeek:AI推理引擎驅(qū)動網(wǎng)絡(luò)智能診斷邁向 “自愈”時代

    網(wǎng)絡(luò)智能診斷平臺。通過對私有化網(wǎng)絡(luò)數(shù)據(jù)的定向訓(xùn)練,信而泰打造了高性能、高可靠性的網(wǎng)絡(luò)診斷模型,顯著提升了AI輔助診斷的精準(zhǔn)度與實用性。該方案
    發(fā)表于 07-16 15:29

    【書籍評測活動NO.62】一本書讀懂 DeepSeek 全家桶核心技術(shù):DeepSeek 核心技術(shù)揭秘

    DeepSeek-V3 的發(fā)布幾乎沒有預(yù)熱和炒作,僅憑借其出色的效果和超低的成本迅速走紅。 DeepSeek-R1 則是在 DeepSeek-V3 的基礎(chǔ)上構(gòu)建的推理模型,它在后訓(xùn)練
    發(fā)表于 06-09 14:38

    訊飛星辰MaaS平臺實現(xiàn)高性能DeepSeek V3上線

    DeepSeek模型為代表的MoE技術(shù)路線,正不斷突破通用大模型的效果上限。其創(chuàng)新的PD優(yōu)化與大EP推理方案,推動大模型邁向“
    的頭像 發(fā)表于 06-04 10:15 ?1440次閱讀