今年年初,開源大語言模型 (LLM) DeepSeek 在國內(nèi)外人工智能 (AI) LLM 領(lǐng)域掀起熱議。它在模型架構(gòu)和訓(xùn)練、推理方法上實現(xiàn)創(chuàng)新,在性能和工程效率上帶來了顯著提升,并在成本效率方面頗具優(yōu)勢。Arm 攜手合作伙伴,在 Arm Neoverse N2 平臺上使用開源推理框架 llama.cpp 實現(xiàn) DeepSeek-R1 滿血版的部署,目前已可提供線上服務(wù)。
在基于 Neoverse N2 平臺設(shè)計的服務(wù)器級 CPU 上,通過對軟硬件架構(gòu)的合理適配,以及出色調(diào)優(yōu)來充分發(fā)揮平臺的計算能力和內(nèi)存帶寬,能夠以 INT8 的量化版本提供業(yè)界可用的詞元 (token) 生成速度,并以更具競爭力的性價比為中小微企業(yè)提供業(yè)界頂尖的 LLM 服務(wù)。
在部署 DeepSeek 大模型過程中,Arm 結(jié)合底層架構(gòu)特性進行了深度優(yōu)化:模型本身跨多 ?NUMA(非統(tǒng)一內(nèi)存訪問)節(jié)點以交錯 (interleave) 方式加載,以便充分利用所有內(nèi)存帶寬;除 INT8 量化外,通過開啟 KV 量化,以及激活 Flash Attention 機制,以此進一步降低計算量和壓縮內(nèi)存占用。通過技術(shù)團隊的努力,DeepSeek 滿血版的整體性能相較優(yōu)化前提升了 67%。工程團隊后續(xù)也會持續(xù)投入,提高多節(jié)點上的計算并發(fā)度及帶寬利用率,并通過開發(fā)者社區(qū)不斷完善 Arm 架構(gòu)的軟件生態(tài)。
細究 DeepSeek 的模型架構(gòu)創(chuàng)新,它針對大模型運行時的痛點進行計算、內(nèi)存訪問和算法流水線上的效率提升,比如 MLA 和 FP8 訓(xùn)練和推理減少了內(nèi)存占用和帶寬需求,DeepSeekMoE 降低了計算強度、提高計算效率,DualPipe 提高了多計算節(jié)點間的通信和計算效率。這些工程優(yōu)化思維與 Arm 一貫倡導(dǎo)的高能效設(shè)計目標(biāo)不謀而合,也使得在純 CPU 平臺上運行如此大規(guī)模的模型成為可能。
Arm 平臺致力于助力合作伙伴提高性能,并降低總體擁有成本 (TCO),在 Neoverse N2 平臺運行 DeepSeek 大模型推理也淋漓盡致地體現(xiàn)了這一原則。在為中小微企業(yè)提供大模型服務(wù)時,并發(fā)需求降低,成本敏感度提高。在基于 Neoverse N2 平臺上運行的 DeepSeek-R1 為他們提供了一個更為均衡的選擇。相較傳統(tǒng)多卡 GPU/加速器平臺,這能極大地降低訂閱服務(wù)成本,使用戶能以較低代價快速啟動業(yè)務(wù)部署。下圖是兩種方案訂閱服務(wù)的價格對比:

搭載 Neoverse N2 平臺的服務(wù)器平臺能把部署成本降低約八倍。此外,對數(shù)據(jù)中心來說,在 CPU 上部署 LLM 也能充分利用在線的空閑算力,提高整體資源利用率。與此同時,基于 Neoverse N2 平臺的服務(wù)器功耗僅為傳統(tǒng)八卡 GPU 服務(wù)器的 1/12,能極大地降低數(shù)據(jù)中心的能耗壓力。
如此大規(guī)模的模型(6,710億參數(shù))能夠在數(shù)據(jù)中心服務(wù)器級 CPU 上運行,并迅速上線為客戶提供快速部署,得益于 Neoverse 平臺對 AI 推理負載的一貫思考和設(shè)計,包括 2 x 128 位的可伸縮向量擴展 (SVE2) 特性、BF16/INT8 數(shù)據(jù)格式支持,以及點積和矩陣乘法等指令的支持,加之多通道高帶寬內(nèi)存配置,和低延遲 CMN 互聯(lián)等等。
隨著 AI 領(lǐng)域的飛速發(fā)展,LLM 在持續(xù)的工程創(chuàng)新和優(yōu)化之下應(yīng)用領(lǐng)域不斷變廣。Arm 將持續(xù)通過 Neoverse 平臺為行業(yè)賦能,并在這一新的技術(shù)紀(jì)元中引領(lǐng)變革。
-
ARM
+關(guān)注
關(guān)注
135文章
9552瀏覽量
391825 -
人工智能
+關(guān)注
關(guān)注
1817文章
50094瀏覽量
265263 -
DeepSeek
+關(guān)注
關(guān)注
2文章
835瀏覽量
3255
原文標(biāo)題:在 Arm Neoverse N2 平臺上以更優(yōu)成本、更低功耗,充分釋放 DeepSeek-R1 滿血版性能
文章出處:【微信號:Arm社區(qū),微信公眾號:Arm社區(qū)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
百度騰訊搶灘布局!DeepSeek-R1升級和開源背后,國產(chǎn)AI的逆襲之路
如何在Arm Neoverse N2平臺上提升llama.cpp擴展性能
DeepSeek R1 MTP在TensorRT-LLM中的實現(xiàn)與優(yōu)化
速看!EASY-EAI教你離線部署Deepseek R1大模型
【幸狐Omni3576邊緣計算套件試用體驗】CPU部署DeekSeek-R1模型(1B和7B)
南京市政務(wù)云基于華為云Stack成功部署DeepSeek滿血版大模型
香橙派發(fā)布OrangePi RV2本地部署Deepseek-R1蒸餾模型指南
【幸狐Omni3576邊緣計算套件試用體驗】DeepSeek 部署及測試
如何使用OpenVINO運行DeepSeek-R1蒸餾模型
在英特爾哪吒開發(fā)套件上部署DeepSeek-R1的實現(xiàn)方式
DeepSeek-R1:別被它的光環(huán)迷了眼,這些能力局限你得知道!
企業(yè)上云不再難!DeepSeek 滿血版R1-671B 來助跑
實戰(zhàn)案例 | 299元國產(chǎn)工業(yè)級AI核心板部署DeepSeek-R1
Arm Neoverse N2平臺實現(xiàn)DeepSeek-R1滿血版部署
評論