近日,上海人工智能實驗室和沐曦股份聯合發布了高性能GPU算子生成系統—— Kernel-Smith。
Kernel-Smith創新性地將“穩定評估驅動的進化智能體”與“面向進化的后訓練范式”深度融合,依托上海人工智能實驗室書生大模型Intern-S1-Pro的基座能力進行深度定制化訓練,讓大模型真正化身為“算子優化大師”。
在雙方的合作中,沐曦團隊全程深度參與。聯合創始人、CTO兼首席軟件架構師楊建、研發副總裁黃向軍、AI部門的武亞光、董華楠、謝佳形均參與了該項目并做出貢獻。
沐曦自研軟件棧MXMACA展現出了深度兼容能力。在MXMACA后端測試中,Kernel-Smith 表現出色。研究團隊在四類常用算子上對比了不同模型生成高性能 MXMACA 算子的能力,結果顯示,Kernel-Smith-MACA-30B 的平均加速比超過了 DeepSeek-v3.2 和 Qwen3-235B-2507 等大參數量的開源模型,而 Kernel-Smith-MACA-235B 取得了進一步性能提升,驗證了 Kernel-Smith 框架支持異構平臺的能力。

沐曦MXMACA 平臺算子性能優化任務評測結果
目前,Kernel-Smith 自動生成的高性能算子已在實際場景中得到應用:不僅加速了 DeepSeek 新架構 Engram,并合入 DLBlas;還落地主流生產級推理引擎 SGLang 和 LMDeploy,實現了大模型自動生成算子從實驗室受控評估,到前沿模型研發與生產級部署的雙重跨越。
技術報告鏈接:
https://arxiv.org/pdf/2603.28342
在線體驗鏈接:
https://chat.intern-ai.org.cn/kernel-smith
算子開發的兩大挑戰
在當今的大模型時代,高性能 GPU 算子(Kernel)是將硬件算力轉化為實際吞吐量的核心引擎。無論是支撐 Megatron、vLLM、LMDeploy 等底層系統,還是驅動 AI for Science (AI4S) 的復雜科學計算,高效的算子實現都是釋放硬件潛能的重中之重。
然而,盡管大模型的編程能力日益強大,但讓其自主生成高性能算子并穩定應用于真實生產環境,仍是一個未被全面攻克的行業難題。
當前的算子開發高度依賴工程師的經驗。一個高效的算子往往需要在眾多融合模式、Tiling 策略等實現方案中反復搜索與調試,而現有基于 LLM 的算子生成系統,多依賴多輪對話或基于歷史的 Agent 循環,這帶來了兩大挑戰:
路徑依賴與試錯成本高: 傳統的 Debug 過程容易讓模型“錨定”在早期的錯誤決策上,限制了探索的多樣性。
“寫對”不等于“跑得快”: 功能上的正確性與極致的性能是兩種完全不同的能力。模型不僅需要一次性生成正確的代碼,更需要具備在測試階段通過持續迭代,不斷提升算子性能的能力。
兩大創新設計
為了解決這些問題,研究團隊創新地提出一個統一的進化智能體與強化訓練框架。
核心設計一:構建穩定評估驅動的進化智能體。
進化搜索天然適合算子優化,因為它可以通過維護一個候選程序池,在多輪迭代中不斷累積性能增益。然而,這一過程對“評測方差”極其敏感:如果 GPU 運行時間測量存在噪聲,智能體可能會誤刪極具潛力的算子,或者保留次優解,這種錯誤會在代際之間不斷放大。
為此,Kernel-Smith 在智能體設計上將“評測穩定性”放在首位。通過固定計算圖、重復測量以及異常值剔除等機制,大幅抑制了計時噪聲,確保了進化搜索動態的可靠性。同時,研究團隊還為 NVIDIA Triton 和 MetaX Maca GPU 構建了專屬的后端評估服務,提供編譯、正確性和加速比的結構化執行反饋。
核心設計二:化長為短,面向進化的后訓練策略。在模型訓練層面,Kernel-Smith 將訓練定義為進化循環中的“局部優化器(Local Improver)”。
具體而言,研究團隊將長周期的進化軌跡轉化為以“步驟”為中心的監督與強化學習信號。算法只保留那些“在保證正確性的前提下,帶來了高收益性能提升”的修改步驟。通過這一設計,Kernel-Smith 不僅提升了單步修改的代碼質量,更大幅提高了進化搜索中性能增益的復合增長率。
顯著性能優勢,超越頂尖閉源模型
得益于上述兩大核心設計,Kernel-Smith 在實戰中展現出了顯著的性能優勢。在統一的進化智能體協議下,Kernel-Smith-235B-RL 在 KernelBench(Nvidia Triton 后端)上實現了整體性能的 SOTA。在嚴格保證功能正確性的前提下,其平均加速比不僅優于所有開源基線模型,還超越了 Gemini-3.0-pro 和 Claude-4.6-opus 等頂尖閉源大模型。

KernelBench-Triton 評測結果
更重要的是,評測曲線顯示,Kernel-Smith-235B-RL 的平均得分增長曲線在整個搜索過程中始終處于領先地位(如下圖所示),這充分證明了該模型能夠最有效地利用測試時算力(Test-time Compute)實現性能躍升。

不同模型使用同樣的 KernelSmith Agent Framework,在 KernelBench-Triton 上的迭代增長曲線圖
走出實驗室,賦能前沿創新與生產級應用
Kernel-Smith 生成的高性能優化算子不僅成功賦能前沿架構創新,加速了 DeepSeek 新架構 Engram 并合入 DLBlas 開源算子庫 ;更重要的是,它已順利落地主流生產級推理引擎,分別為 SGLang 優化了 FlashAttention 后端的 normal_decode_set_metadata 算子,并為 LMDeploy 優化了 DeepSeek MoE Routing 算子,真正實現了大模型自動生成算子從實驗室受控評估,到前沿模型研發與生產級部署的雙重跨越。
相關 Pull Request 鏈接:
https://github.com/DeepLink-org/DLBlas/pull/102
https://github.com/sgl-project/sglang/pull/20778
https://github.com/InternLM/lmdeploy/pull/4345
在 NV-H200 硬件環境下的算子隔離評測中,Kernel-Smith 展現出顯著的 Test-Time Scaling 效應:隨著演化迭代的深入,算子性能實現持續增長。

算子進化迭代曲線圖
在主流推理引擎的實際落地中,Kernel-Smith 自動生成的算子為 SGLang 和 LMDeploy 分別帶來了 4.78x 和 1.36x 的真實加速收益。在 DeepSeek Engram 復雜場景的深度探索中,模型成功跨越局部最優解,觸發了從 5 倍到 12 倍以上的突破性性能躍升,最終達到 14.59x 加速。

算子隔離評測結果
同時,研究團隊在社區率先將自動化算子評測擴展至端到端模型吞吐。Kernel-Smith 生成的算子不僅穩定提升了 LMDeploy 的端到端吞吐(最高約3%),還可靠地降低了 SGLang 的真實服務延遲。這驗證了生成代碼在復雜系統中的魯棒性,也為自動化算子在生產級引擎中的端到端集成提供了可行的實踐參考。

LMDeploy 端到端模型吞吐評測
結語
沐曦股份堅持“自主創新+開放兼容”的雙軌并行路線,在底層硬件完成突破的同時,致力于圍繞MXMACA軟件棧, 打造一個開放、自主、全棧兼容的智能計算生態,公司的目標是將建成人工智能時代的“Android”。
目前,MXMACA軟件棧不僅深度兼容主流GPU生態,還支持40多種AI框架,覆蓋訓練、推理、科學計算全場景,可大福降低開發者的生態遷移成本。同時可支持500多款AI模型、4500多個開源項目軟件兼容測試,覆蓋95%的主流AI場景。此前已支持國內多款AI模型的“Day0適配”、實現即插即用。MXMACA開源社區也于去年開放,截至2026年3月13日,軟件棧注冊用戶已超過30萬人。
此次合作,既是MXMACA軟件棧生態的價值體現,也為公司持續深耕AI算力基礎設施、推動高性能計算技術產業化升級奠定了堅實基礎,未來雙方將繼續深化協同,依托Kernel-Smith與MXMACA的技術合力,為AI大模型、科學計算等領域提供更高效、更可靠的算力解決方案。
關于沐曦股份
沐曦股份致力于自主研發全棧高性能GPU芯片及計算平臺,為智算、通用計算、云渲染等前沿領域提供高能效、高通用性的算力支撐,助力數字經濟發展。
-
gpu
+關注
關注
28文章
5243瀏覽量
135953 -
人工智能
+關注
關注
1819文章
50218瀏覽量
266525 -
沐曦
+關注
關注
1文章
88瀏覽量
1873
原文標題:沐曦股份聯合上海人工智能實驗室發布高性能GPU算子生成系統Kernel-Smith
文章出處:【微信號:沐曦MetaX,微信公眾號:沐曦MetaX】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
沐曦股份參與編撰的超節點技術體系白皮書正式發布
壁仞科技與上海人工智能實驗室合作推出全新DeepLink混推方案
沐曦股份聯合上海人工智能實驗室發布高性能GPU算子生成系統Kernel-Smith
評論