近日,基于開(kāi)源KTransformers架構(gòu)的 CPU/GPU 異構(gòu)推理能力,沐曦在曦云C500單卡GPU上成功實(shí)現(xiàn)DeepSeek-R1-671B滿血版單并發(fā)解碼吞吐16.5 tokens/s的優(yōu)異成績(jī),相比社區(qū)官方數(shù)據(jù)提升20%以上。
相比國(guó)際高端GPU八卡滿血版部署方案,本項(xiàng)目在單并發(fā)性能上具有極高的性價(jià)比。
KTransformers項(xiàng)目介紹
KTransformers (https://github.com/kvcache-ai/ktransformers)是由清華大學(xué) KVCache.AI 團(tuán)隊(duì)聯(lián)合趨境科技開(kāi)源的一套輕量化高性能模型推理框架,能夠在計(jì)算資源受限的場(chǎng)景下,通過(guò) CPU/GPU 異構(gòu)推理的方式更快速、更高效地實(shí)現(xiàn)大模型的本地推理。KTransformers旨在作為一個(gè)開(kāi)放的平臺(tái),用于試驗(yàn)創(chuàng)新的大型語(yǔ)言模型(LLM)推理優(yōu)化方案。同時(shí),KTransformers也計(jì)劃演進(jìn)成本地化中小并發(fā)場(chǎng)景下針對(duì)稀疏MoE模型最具性價(jià)比的開(kāi)源推理引擎,以及成為一個(gè)算子級(jí)優(yōu)化的集成實(shí)驗(yàn)平臺(tái)。沐曦正在做的工作非常符合開(kāi)源社區(qū)和KTransformers開(kāi)源項(xiàng)目的發(fā)展。
開(kāi)源合作內(nèi)容介紹
沐曦和KVCache.AI團(tuán)隊(duì)合作,通過(guò)對(duì)KTransformers模型框架進(jìn)行細(xì)致的分析和調(diào)整,團(tuán)隊(duì)成功達(dá)成了曦云C500與KTransformers的無(wú)縫對(duì)接,為進(jìn)一步性能優(yōu)化奠定了堅(jiān)實(shí)的基礎(chǔ)。
完成基本功能適配后,沐曦研發(fā)團(tuán)隊(duì)繼續(xù)對(duì)整個(gè)框架進(jìn)行了優(yōu)化。在深入研究了DeepSeek R1滿血版模型的計(jì)算特點(diǎn)和性能瓶頸,結(jié)合曦云C500的優(yōu)勢(shì),采用了一系列先進(jìn)的技術(shù)和算法,詳細(xì)如下:
1在KTransformers中加入了Multi-Token Prediction (MTP) 功能;
2加入了GPU fused MoE功能,該功能有效利用曦云C500 64GB的高帶寬顯存和高速FP16/BF16運(yùn)算能力,提升推理性能;
3配合自動(dòng)/手工算子融合技術(shù),高效的FP16/BF16精度Marlin算子(W4A16),以及經(jīng)過(guò)深度優(yōu)化的mcBLAS、PyTorch庫(kù)、FlashInfer庫(kù)。
此次合作不僅為KTransformers帶來(lái)了性能上的提升,更體現(xiàn)了開(kāi)源共創(chuàng)的價(jià)值:不同的團(tuán)隊(duì)和開(kāi)發(fā)者通過(guò)資源共享、經(jīng)驗(yàn)交流,共同推動(dòng)技術(shù)的進(jìn)步。沐曦和清華大學(xué)KVCache.AI團(tuán)隊(duì)的合作就是很好的例子,通過(guò)開(kāi)源倉(cāng)庫(kù)匯聚了各自的優(yōu)勢(shì),實(shí)現(xiàn)了技術(shù)上的突破,也為后續(xù)持續(xù)在開(kāi)源社區(qū)推理優(yōu)化提供了合作基礎(chǔ)。
通過(guò)開(kāi)源社區(qū)的共同努力,KTransformers將不斷提升其性能和功能,為更多的用戶提供優(yōu)質(zhì)的服務(wù)。同時(shí),這也將促進(jìn)整個(gè)人工智能行業(yè)的發(fā)展,推動(dòng)技術(shù)的不斷創(chuàng)新。單卡打開(kāi)DeepSeek R1滿血版并不斷地提升性能只是一個(gè)開(kāi)始,在開(kāi)源共創(chuàng)的道路上,我們將迎來(lái)更多的驚喜和突破,共同開(kāi)創(chuàng)國(guó)產(chǎn)算力生態(tài)和人工智能的無(wú)限未來(lái)。
關(guān)于沐曦
沐曦致力于為異構(gòu)計(jì)算提供安全可靠的GPU芯片及解決方案,打造全棧GPU芯片產(chǎn)品,推出曦思N系列GPU用于智算推理,曦云C系列GPU用于通用計(jì)算,以及曦彩G系列GPU用于圖形渲染,滿足“高能效”及“高通用性”的算力需求。沐曦產(chǎn)品均采用完全自主研發(fā)的GPU IP,擁有完全自主的指令集和架構(gòu),配以兼容主流GPU生態(tài)的完整軟件棧(MXMACA),具備高能效和高通用性的天然優(yōu)勢(shì),能夠?yàn)榭蛻魳?gòu)建軟硬件一體的全面生態(tài)解決方案,是“雙碳”背景下推動(dòng)數(shù)字經(jīng)濟(jì)建設(shè)和產(chǎn)業(yè)數(shù)字化、智能化轉(zhuǎn)型升級(jí)的算力基石。
-
gpu
+關(guān)注
關(guān)注
28文章
5177瀏覽量
135128 -
開(kāi)源
+關(guān)注
關(guān)注
3文章
4173瀏覽量
45933 -
沐曦
+關(guān)注
關(guān)注
1文章
73瀏覽量
1796 -
DeepSeek
+關(guān)注
關(guān)注
2文章
833瀏覽量
3194
原文標(biāo)題:開(kāi)源賦能:沐曦聯(lián)合清華大學(xué)KVCache.AI團(tuán)隊(duì)加速DeepSeek滿血版單卡C500異構(gòu)推理
文章出處:【微信號(hào):沐曦MetaX,微信公眾號(hào):沐曦MetaX】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
曦云C系列GPU Day 0 適配智譜全新一代大模型GLM-5
沐曦曦云C500/C550 GPU產(chǎn)品適配智譜GLM-OCR模型
沐曦曦云C500/C550 GPU產(chǎn)品適配騰訊混元圖像3.0圖生圖模型
沐曦曦云C500/C550 GPU產(chǎn)品適配PaddleOCR-VL-1.5模型
沐曦曦云C500/C550 GPU產(chǎn)品適配騰訊混元開(kāi)源翻譯模型1.5版本
沐曦股份MXMACA軟件棧3.3.0.X版本技術(shù)解析
沐曦股份曦云C系列GPU Day 0適配智譜GLM-4.6V多模態(tài)大模型
DLInfer聯(lián)手沐曦股份實(shí)現(xiàn)數(shù)據(jù)生成場(chǎng)景的實(shí)際落地
首款全國(guó)產(chǎn)通用GPU芯片發(fā)布 沐曦集成推出曦云C600
沐曦曦云C系列產(chǎn)品已支持TileLang
硅基流動(dòng)攜手沐曦首發(fā)基于曦云的Kimi K2推理服務(wù)
潤(rùn)和軟件StackRUNS異構(gòu)分布式推理框架的應(yīng)用案例
沐曦加速DeepSeek滿血版單卡C500異構(gòu)推理
評(píng)論