近日,摩爾線程正式發布并開源大模型分布式訓練仿真工具SimuMax 1.0版本。該版本在顯存和性能仿真精度上實現突破性提升,同時引入多項關鍵功能,進一步增強了模型兼容性、靈活性與用戶體驗。
SimuMax是一款專為大語言模型(LLM)分布式訓練負載設計的仿真模擬工具,可為單卡到萬卡集群提供仿真支持。它無需實際執行完整訓練過程,即可高精度模擬訓練中的顯存使用和性能表現,幫助用戶深入洞察訓練效率,探索提升計算效能的優化途徑。
基于靜態分析模型,摩爾線程自研的SimuMax通過結合成本模型、內存模型和屋頂模型,實現對訓練過程的精準仿真。該工具支持多種主流分布式并行策略與優化技術,適用于以下多種應用場景:
并行策略:數據并行(DP)、張量并行(TP)、序列并行(SP)、流水線并行(PP)、專家并行(EP);
優化技術:ZeRO-1、完整重計算、選擇性重計算、融合內核等;
適用對象:希望尋找最優訓練策略以提升效率的用戶;從事框架或大模型算法開發的工程師,用于優化與調試;芯片制造商,用于性能預測與硬件設計輔助。
核心突破:
仿真精度實現顯著提升
SimuMax 1.0最顯著的更新在于其仿真精度的大幅提升,為用戶提供更可靠的分析結果。
顯存估計:針對Dense和MoE(混合專家)模型,顯存估計誤差穩定控制在1%以內;
性能估計:經測試,在多個主流GPU上,目前最優性能估計誤差持續低于4%;

新功能與增強:
擴展模型兼容與精細化控制
SimuMax 1.0引入了多項新特性,支持更廣泛的模型結構和高效率訓練需求:
MLA支持:新增對MLA模型架構的支持;
流水線并行(PP)增強:支持對首階段和末階段層的細粒度控制,優化模型分片策略;
MoE靈活性提升:在混合專家(MoE)模型中支持自定義Dense層,為模型設計提供了更大的靈活性。
Megatron兼容:提供簡化的模型遷移流程,可輕松轉換和分析基于Megatron框架的模型,提升與現有生態的互操作性。
重計算策略優化:實現更細粒度的選擇性重計算,支持更精準的內存和計算資源權衡。
全面的效率分析:新增對不同張量形狀與內存布局下計算效率與利用率的評估功能。
快速開始
開發者可通過以下步驟,快速體驗SimuMax:
克隆倉庫:
gitclonegit@github.com:MooreThreads/SimuMax.git cdSimuMax
安裝Python包:
pipinstall -r requirements.txt pip install -v -e .
運行示例:
參考項目中的教程和示例(如examples/perf_llama3_8b_tp1_pp2.py),即可開始使用SimuMax進行訓練仿真。
持續優化與生態共建
SimuMax已在GitHub全面開源,開發者可訪問倉庫獲取源代碼、詳細文檔和示例。摩爾線程鼓勵開發者通過提交Issue報告問題或通過Pull Request貢獻代碼,共同促進SimuMax功能的完善和軟件生態的繁榮。
SimuMax 開源地址:
https://github.com/MooreThreads/SimuMax
摩爾線程始終致力于為開發者提供強大的軟件工具鏈。SimuMax的發布,將為大模型分布式訓練的仿真和優化提供精準視角,助力AI產業提升算力利用效率,探索更高效的訓練范式。
未來,摩爾線程SimuMax團隊將繼續積極開發,計劃增加對上下文并行、更多流水線調度器、通算并行、Offload技術、策略搜索以及更精準的memory- bound算子模擬等功能的支持。
關于摩爾線程
摩爾線程以全功能GPU為核心,致力于向全球提供加速計算的基礎設施和一站式解決方案,為各行各業的數智化轉型提供強大的AI計算支持。
我們的目標是成為具備國際競爭力的GPU領軍企業,為融合人工智能和數字孿生的數智世界打造先進的加速計算平臺。我們的愿景是為美好世界加速。
-
仿真
+關注
關注
54文章
4482瀏覽量
138236 -
開源
+關注
關注
3文章
4203瀏覽量
46120 -
摩爾線程
+關注
關注
2文章
279瀏覽量
6449 -
大模型
+關注
關注
2文章
3648瀏覽量
5176
原文標題:摩爾線程發布大模型訓練仿真工具SimuMax v1.0:仿真精度顯著提升,顯存誤差僅1%
文章出處:【微信號:moorethreads,微信公眾號:摩爾線程】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
摩爾線程 × 五一視界|共建全棧國產化的物理AI仿真體系
摩爾線程快速完成對Qwen3.5模型全面適配
摩爾線程發布Torch-MUSA v2.7.0版本
摩爾線程新一代大語言模型對齊框架URPO入選AAAI 2026
摩爾線程發布Torch-MUSA v2.1.1版本
摩爾線程“AI工廠”:五大核心技術支撐,打造大模型訓練超級工廠
摩爾線程“AI工廠”:以系統級創新定義新一代AI基礎設施
深控數據平臺V1.0發布!以IoT之力重塑工廠“數據脈絡”
摩爾線程發布圖形顯卡驅動程序v300.110
摩爾線程GPU成功適配Deepseek-V3-0324大模型
摩爾線程發布大模型訓練仿真工具SimuMax v1.0
評論