伦伦影院久久影视,天天操天天干天天射,ririsao久久精品一区 ,一本大道香蕉大久在红桃,999久久久免费精品国产色夜,色悠悠久久综合88,亚洲国产精品久久无套麻豆,亚洲香蕉毛片久久网站,一本一道久久综合狠狠老

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Arm Neoverse N2平臺實現DeepSeek-R1滿血版部署

Arm社區 ? 來源:Arm社區 ? 2025-07-03 14:37 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

今年年初,開源大語言模型 (LLM) DeepSeek 在國內外人工智能 (AI) LLM 領域掀起熱議。它在模型架構和訓練、推理方法上實現創新,在性能和工程效率上帶來了顯著提升,并在成本效率方面頗具優勢。Arm 攜手合作伙伴,在 Arm Neoverse N2 平臺上使用開源推理框架 llama.cpp 實現 DeepSeek-R1 滿血版的部署,目前已可提供線上服務。

在基于 Neoverse N2 平臺設計的服務器級 CPU 上,通過對軟硬件架構的合理適配,以及出色調優來充分發揮平臺的計算能力和內存帶寬,能夠以 INT8 的量化版本提供業界可用的詞元 (token) 生成速度,并以更具競爭力的性價比為中小微企業提供業界頂尖的 LLM 服務。

在部署 DeepSeek 大模型過程中,Arm 結合底層架構特性進行了深度優化:模型本身跨多 ?NUMA(非統一內存訪問)節點以交錯 (interleave) 方式加載,以便充分利用所有內存帶寬;除 INT8 量化外,通過開啟 KV 量化,以及激活 Flash Attention 機制,以此進一步降低計算量和壓縮內存占用。通過技術團隊的努力,DeepSeek 滿血版的整體性能相較優化前提升了 67%。工程團隊后續也會持續投入,提高多節點上的計算并發度及帶寬利用率,并通過開發者社區不斷完善 Arm 架構的軟件生態。

細究 DeepSeek 的模型架構創新,它針對大模型運行時的痛點進行計算、內存訪問和算法流水線上的效率提升,比如 MLA 和 FP8 訓練和推理減少了內存占用和帶寬需求,DeepSeekMoE 降低了計算強度、提高計算效率,DualPipe 提高了多計算節點間的通信和計算效率。這些工程優化思維與 Arm 一貫倡導的高能效設計目標不謀而合,也使得在純 CPU 平臺上運行如此大規模的模型成為可能。

Arm 平臺致力于助力合作伙伴提高性能,并降低總體擁有成本 (TCO),在 Neoverse N2 平臺運行 DeepSeek 大模型推理也淋漓盡致地體現了這一原則。在為中小微企業提供大模型服務時,并發需求降低,成本敏感度提高。在基于 Neoverse N2 平臺上運行的 DeepSeek-R1 為他們提供了一個更為均衡的選擇。相較傳統多卡 GPU/加速器平臺,這能極大地降低訂閱服務成本,使用戶能以較低代價快速啟動業務部署。下圖是兩種方案訂閱服務的價格對比:

826368a6-532f-11f0-b715-92fbcf53809c.png

搭載 Neoverse N2 平臺的服務器平臺能把部署成本降低約八倍。此外,對數據中心來說,在 CPU 上部署 LLM 也能充分利用在線的空閑算力,提高整體資源利用率。與此同時,基于 Neoverse N2 平臺的服務器功耗僅為傳統八卡 GPU 服務器的 1/12,能極大地降低數據中心的能耗壓力。

如此大規模的模型(6,710億參數)能夠在數據中心服務器級 CPU 上運行,并迅速上線為客戶提供快速部署,得益于 Neoverse 平臺對 AI 推理負載的一貫思考和設計,包括 2 x 128 位的可伸縮向量擴展 (SVE2) 特性、BF16/INT8 數據格式支持,以及點積和矩陣乘法等指令的支持,加之多通道高帶寬內存配置,和低延遲 CMN 互聯等等。

隨著 AI 領域的飛速發展,LLM 在持續的工程創新和優化之下應用領域不斷變廣。Arm 將持續通過 Neoverse 平臺為行業賦能,并在這一新的技術紀元中引領變革。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • ARM
    ARM
    +關注

    關注

    135

    文章

    9573

    瀏覽量

    392910
  • 人工智能
    +關注

    關注

    1819

    文章

    50190

    瀏覽量

    266315
  • DeepSeek
    +關注

    關注

    2

    文章

    837

    瀏覽量

    3345

原文標題:在 Arm Neoverse N2 平臺上以更優成本、更低功耗,充分釋放 DeepSeek-R1 滿血版性能

文章出處:【微信號:Arm社區,微信公眾號:Arm社區】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    百度騰訊搶灘布局!DeepSeek-R1升級和開源背后,國產AI的逆襲之路

    電子發燒友網報道(文/李彎彎)日前,DeepSeek官方宣布DeepSeek-R1模型已完成小版本試升級,當前版本為DeepSeek-R1-0528。次日,DeepSeek-R1-05
    的頭像 發表于 06-03 06:34 ?6278次閱讀

    如何在Arm Neoverse N2平臺上提升llama.cpp擴展性能

    跨 NUMA 內存訪問可能會限制 llama.cpp 在 Arm Neoverse 平臺上的擴展能力。本文將為你詳細分析這一問題,并通過引入原型驗證補丁來加以解決。測試結果表明,在基于 Neo
    的頭像 發表于 02-11 10:06 ?238次閱讀

    DeepSeek R1 MTP在TensorRT-LLM中的實現與優化

    TensorRT-LLM 在 NVIDIA Blackwell GPU 上創下了 DeepSeek-R1 推理性能的世界紀錄,Multi-Token Prediction (MTP) 實現了大幅提速
    的頭像 發表于 08-30 15:47 ?4554次閱讀
    <b class='flag-5'>DeepSeek</b> <b class='flag-5'>R1</b> MTP在TensorRT-LLM中的<b class='flag-5'>實現</b>與優化

    速看!EASY-EAI教你離線部署Deepseek R1大模型

    1.Deepseek簡介DeepSeek-R1,是幻方量化旗下AI公司深度求索(DeepSeek)研發的推理模型。DeepSeek-R1采用強化學習進行后訓練,旨在提升推理能力,尤其擅
    的頭像 發表于 07-25 15:22 ?1474次閱讀
    速看!EASY-EAI教你離線<b class='flag-5'>部署</b><b class='flag-5'>Deepseek</b> <b class='flag-5'>R1</b>大模型

    【「DeepSeek 核心技術揭秘」閱讀體驗】--全書概覽

    講解Deepseek的使用方法 第三章 深入剖析Deepseek-V3的模型架構、訓練框架、推理階段優化、后訓練優化等關鍵技術 第四章關于DeepSeek-R1的技術剖析 第五章 從宏觀角度分析
    發表于 07-21 00:04

    【VisionFive 2單板計算機試用體驗】3、開源大語言模型部署

    1、ollama平臺搭建 ollama可以快速地部署開源大模型,網址為https://ollama.com, 試用該平臺,可以在多平臺上部署
    發表于 07-19 15:45

    【「DeepSeek 核心技術揭秘」閱讀體驗】書籍介紹+第一章讀后心得

    ,并同步開源了 模型權重。DeepSeek-R1是基于DeepSeek-V3基座模型開發的,專門針對高級推理任務進行 了優化。該模型在后訓練階段大規模使用強化學習技術,通過創新的訓練方法,實現了強大
    發表于 07-17 11:59

    NVIDIA Blackwell GPU優化DeepSeek-R1性能 打破DeepSeek-R1在最小延遲場景中的性能紀錄

    本文將探討 NVIDIA TensorRT-LLM 如何基于 8 個 NVIDIA Blackwell GPU 的配置,打破 DeepSeek-R1 在最小延遲場景中的性能紀錄:在 GTC 2025
    的頭像 發表于 07-02 19:31 ?3387次閱讀
    NVIDIA Blackwell GPU優化<b class='flag-5'>DeepSeek-R1</b>性能 打破<b class='flag-5'>DeepSeek-R1</b>在最小延遲場景中的性能紀錄

    【書籍評測活動NO.62】一本書讀懂 DeepSeek 全家桶核心技術:DeepSeek 核心技術揭秘

    2025年年初,DeepSeek 成為全球人工智能(AI)領域的焦點,其DeepSeek-V3 和DeepSeek-R1 版本在行業內引發了結構性震動。 DeepSeek-V3 是一個
    發表于 06-09 14:38

    瑞薩RZ/V2H平臺支持部署離線版DeepSeek -R1大語言模型

    瑞薩RZ/V2H平臺支持部署離線版DeepSeek -R1大語言模型
    的頭像 發表于 05-13 17:07 ?1774次閱讀
    瑞薩RZ/V<b class='flag-5'>2</b>H<b class='flag-5'>平臺</b>支持<b class='flag-5'>部署</b>離線版<b class='flag-5'>DeepSeek</b> -<b class='flag-5'>R1</b>大語言模型

    SAP實施專家解答:如何用DeepSeek-R1實現需求溝通效率倍增

    工博科技分享AI工具鏈在IT項目中的深度應用:通過DeepSeek-R1實現智能會議記錄結構化(2小時會議5分鐘生成決策表)和精準多語言文檔翻譯(錯誤率降低14%),幫助IT團隊將重復性工作耗時減少
    的頭像 發表于 04-28 09:13 ?761次閱讀

    解讀基于Arm Neoverse V2平臺的Google Axion處理器

    云計算需求在人工智能 (AI) 時代的爆發式增長,推動了開發者尋求性能優化且高能效的解決方案,以降低總體擁有成本 (TCO)。Arm 致力于通過 Arm Neoverse 平臺滿足不斷
    的頭像 發表于 04-21 13:47 ?1143次閱讀

    【幸狐Omni3576邊緣計算套件試用體驗】CPU部署DeekSeek-R1模型(1B和7B)

    優化:動態分配計算資源至關鍵token 中文優化:在Wudao Corpus等中文數據集上強化訓練 技術突破: 相比傳統LLM,DeepSeek-R1通過以下創新實現低資源部署: MoE架構:專家混合層
    發表于 04-21 00:39

    ORinNano離線部署Deepseek R1大模型教程

    ORinNano離線部署Deepseek R1大模型教程
    的頭像 發表于 04-10 15:32 ?1483次閱讀
    ORinNano離線<b class='flag-5'>部署</b><b class='flag-5'>Deepseek</b> <b class='flag-5'>R1</b>大模型教程

    如何基于Android 14在i.MX95 EVK上運行Deepseek-R1-1.5B和性能

    圖標: 3. Download deepseek-R1 models through PocketPal 1. 打開 pocketPal 并單擊右下角的“轉到模型”按鈕。 2. 確保您可以訪問
    發表于 04-04 06:59