国产日韩欧美一区二区,sese久久,欧美成人精品一区二区红桃

近日，基于開源KTransformers架構的 CPU/GPU 異構推理能力，沐曦在曦云C500單卡GPU上成功實現(xiàn)DeepSeek-R1-671B滿血版單并發(fā)解碼吞吐16.5 tokens/s的優(yōu)異成績，相比社區(qū)官方數(shù)據(jù)提升20%以上。

相比國際高端GPU八卡滿血版部署方案，本項目在單并發(fā)性能上具有極高的性價比。

KTransformers項目介紹

KTransformers （https://github.com/kvcache-ai/ktransformers）是由清華大學 KVCache.AI 團隊聯(lián)合趨境科技開源的一套輕量化高性能模型推理框架，能夠在計算資源受限的場景下，通過 CPU/GPU 異構推理的方式更快速、更高效地實現(xiàn)大模型的本地推理。KTransformers旨在作為一個開放的平臺，用于試驗創(chuàng)新的大型語言模型（LLM）推理優(yōu)化方案。同時，KTransformers也計劃演進成本地化中小并發(fā)場景下針對稀疏MoE模型最具性價比的開源推理引擎，以及成為一個算子級優(yōu)化的集成實驗平臺。沐曦正在做的工作非常符合開源社區(qū)和KTransformers開源項目的發(fā)展。

開源合作內容介紹

沐曦和KVCache.AI團隊合作，通過對KTransformers模型框架進行細致的分析和調整，團隊成功達成了曦云C500與KTransformers的無縫對接，為進一步性能優(yōu)化奠定了堅實的基礎。

完成基本功能適配后，沐曦研發(fā)團隊繼續(xù)對整個框架進行了優(yōu)化。在深入研究了DeepSeek R1滿血版模型的計算特點和性能瓶頸，結合曦云C500的優(yōu)勢，采用了一系列先進的技術和算法，詳細如下：

1在KTransformers中加入了Multi-Token Prediction (MTP) 功能；

2加入了GPU fused MoE功能，該功能有效利用曦云C500 64GB的高帶寬顯存和高速FP16/BF16運算能力，提升推理性能；

3配合自動/手工算子融合技術，高效的FP16/BF16精度Marlin算子（W4A16），以及經(jīng)過深度優(yōu)化的mcBLAS、PyTorch庫、FlashInfer庫。

此次合作不僅為KTransformers帶來了性能上的提升，更體現(xiàn)了開源共創(chuàng)的價值：不同的團隊和開發(fā)者通過資源共享、經(jīng)驗交流，共同推動技術的進步。沐曦和清華大學KVCache.AI團隊的合作就是很好的例子，通過開源倉庫匯聚了各自的優(yōu)勢，實現(xiàn)了技術上的突破，也為后續(xù)持續(xù)在開源社區(qū)推理優(yōu)化提供了合作基礎。

通過開源社區(qū)的共同努力，KTransformers將不斷提升其性能和功能，為更多的用戶提供優(yōu)質的服務。同時，這也將促進整個人工智能行業(yè)的發(fā)展，推動技術的不斷創(chuàng)新。單卡打開DeepSeek R1滿血版并不斷地提升性能只是一個開始，在開源共創(chuàng)的道路上，我們將迎來更多的驚喜和突破，共同開創(chuàng)國產(chǎn)算力生態(tài)和人工智能的無限未來。

關于沐曦

沐曦致力于為異構計算提供安全可靠的GPU芯片及解決方案，打造全棧GPU芯片產(chǎn)品，推出曦思N系列GPU用于智算推理，曦云C系列GPU用于通用計算，以及曦彩G系列GPU用于圖形渲染，滿足“高能效”及“高通用性”的算力需求。沐曦產(chǎn)品均采用完全自主研發(fā)的GPU IP，擁有完全自主的指令集和架構，配以兼容主流GPU生態(tài)的完整軟件棧（MXMACA），具備高能效和高通用性的天然優(yōu)勢，能夠為客戶構建軟硬件一體的全面生態(tài)解決方案，是“雙碳”背景下推動數(shù)字經(jīng)濟建設和產(chǎn)業(yè)數(shù)字化、智能化轉型升級的算力基石。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴