近日,海光DCU正式完成對階躍星辰旗艦開源基座模型Step 3.5 Flash的全流程適配與深度調(diào)優(yōu)。得益于新一代海光DCU原生支持FP8精度、超越主流旗艦產(chǎn)品的更大顯存等核心優(yōu)勢,高效完成Step 3.5 Flash FP8的推理適配,打造“適配更全面、性能更卓越”的國產(chǎn)算力解決方案。
作為階躍星辰推出的新一代基座模型,Step 3.5 Flash總參數(shù)達(dá)1960億,推理時僅激活約110億參數(shù),單請求代碼任務(wù)下推理速度最高可達(dá)350TPS,專為智能體(Agent)場景設(shè)計,在復(fù)雜推理和長鏈任務(wù)中表現(xiàn)出色,其推理深度可媲美部分頂級閉源模型,獲得全球開發(fā)者廣泛認(rèn)可。
本次適配工作中,海光DCU團(tuán)隊充分依托以DTK(異構(gòu)計算平臺)在內(nèi)的全棧AI軟件棧協(xié)同優(yōu)勢,針對Step 3.5 Flash的稀疏MoE架構(gòu)特性,重點開展底層算子優(yōu)化、硬件調(diào)度加速與全流程推理性能打磨,優(yōu)化模型推理時延與吞吐效率,確保模型在海光DCU平臺上實現(xiàn)高可靠、低延遲的穩(wěn)定運(yùn)行。
相較于主流的FP16精度,新一代海光DCU原生支持的FP8在相同硬件平臺上可大幅增加理論峰值性能,同時降低內(nèi)存占用與通信開銷,有效節(jié)約模型部署成本、提升Token Efficiency,為開發(fā)者提供更具性價比的算力支撐。
現(xiàn)在,全球開發(fā)者可在光合開發(fā)者社區(qū)一鍵下載Step 3.5 Flash及Step 3.5 Flash FP8模型并落地部署,滿足多樣化推理需求。
-
模型
+關(guān)注
關(guān)注
1文章
3789瀏覽量
52208 -
DCU
+關(guān)注
關(guān)注
0文章
18瀏覽量
3186 -
海光信息
+關(guān)注
關(guān)注
0文章
36瀏覽量
2706
發(fā)布評論請先 登錄
海光DCU完成Qwen3.5多模態(tài)MoE模型全量適配
天數(shù)智芯完成阿里云通義千問Qwen3.5系列多模態(tài)模型全量適配
沐曦股份曦云C系列GPU深度適配通義千問Qwen3.5模型
海光DCU完成階躍星辰基座模型Step 3.5 Flash推理適配
評論