今天,通義千問今天正式發布 Qwen3.5,并推出Qwen3.5系列的第一款模型 Qwen3.5-397B-A17B 的開放權重版本。沐曦股份曦云C系列GPU 完成對Qwen 3.5模型的Day 0 適配。
在此次模型適配中,曦云C系列GPU及MXMACA軟件棧憑借對主流編程生態的底層高度兼容能力,實現對線性注意力兩類核心內核(C++內核與Triton內核)的“零修改”適配,大幅降低國產算力平臺部署前沿算法的門檻。
對于C++軟件內核,沐曦自研的MXMACA軟件棧實現了對編程模型的原生級兼容,并非通過簡單的指令翻譯模擬,而是從編譯器前端到運行時后端的全棧貫通。這種“即插即用”能力,讓底層軟件無縫遷移至國產平臺,適配周期從傳統數周壓縮至小時級。
對于Triton內核,沐曦自主研發了Triton-MXMACA編譯后端。它直接從Triton的Python抽象語法樹生成沐曦GPU指令,實現高級語言到底層硬件的直達優化。原有Triton代碼能自動適配沐曦GPU架構,并獲得針對其張量核心與存儲層次的專項加速。如同為Triton配備了一位精通沐曦“母語”的同聲傳譯,既保證語義精準,又實現性能高效。
沐曦GPU以“硬件通用、軟件兼容”的技術路徑,得以讓新模型算子在沐曦GPU上實現無縫適配,兼具快速適配、功能正確與性能滿意三重優勢,從而加速Qwen3.5模型在國產算力平臺的落地。
除了Qwen3.5,近期沐曦股份曦云 C 系列產品還是國內首先完成與智譜AI GLM-5、階躍星辰最新旗艦基座模型 Step 3.5 Flash 實現深度協同適配的國產算力;也在第一時間完成與 PaddleOCR-VL-1.5 等模型的 Day 0 適配。
關于Qwen 3.5
作為原生視覺-語言模型,Qwen3.5-397B-A17B 在推理、編程、智能體能力與多模態理解等全方位基準評估中表現優異,助力開發者與企業顯著提升生產力。該模型采用創新的混合架構,將線性注意力(Gated Delta Networks)與稀疏混合專家(MoE)相結合,實現出色的推理效率:總參數量達 3970 億,每次前向傳播僅激活 170 億參數,在保持能力的同時優化速度與成本。千問還將語言與方言支持從 119 種擴展至 201 種,為全球用戶提供更廣泛的可用性與更完善的支持。

Qwen3.5-Plus性能表現
模型表現
自然語言
千問在多種評估任務與模態下,對 Qwen3.5 與前沿模型進行全面對比評估。

視覺語言

相對于 Qwen3 系列模型,Qwen3.5 的 Post-training 性能提升主要來自于千問對各類 RL 任務和環境的全面擴展。其更加強調 RL 環境的難度與可泛化性,而非針對特定指標或狹隘類別的 query 進行優化。下圖展示了在通用 Agent 能力上,模型效果隨 RL Environment scaling 帶來的增益。整體性能由各模型在以下基準上的平均排名計算得出:BFCL-V4、VITA-Bench、DeepPlanning、Tool-Decathlon 和 MCP-Mark。更多任務的 scaling 效果將在千問即將發布的技術報告中詳述。

Ag模型效果隨著RL Environment scaling帶來的增益
體驗Qwen3.5
Qwen Chat:https://chat.qwen.ai/
更多Qwen3.5詳情,請點擊下方閱讀原文。
-
gpu
+關注
關注
28文章
5231瀏覽量
135874 -
開源
+關注
關注
3文章
4270瀏覽量
46330 -
模型
+關注
關注
1文章
3783瀏覽量
52201 -
沐曦
+關注
關注
1文章
84瀏覽量
1860
原文標題:沐曦股份曦云C系列GPU 完成通義千問Qwen 3.5 Day 0 適配
文章出處:【微信號:沐曦MetaX,微信公眾號:沐曦MetaX】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
沐曦股份曦云C系列GPU深度適配通義千問Qwen3.5模型
評論