久久久中文字幕伦理,玖玖干,天天日天天草天天干

近日，摩爾線程正式發(fā)布PyTorch深度學習框架的MUSA擴展庫——Torch-MUSA v2.7.0，新版本在功能集成、性能優(yōu)化與硬件支持方面實現(xiàn)進一步突破。Torch-MUSA在短短一個月內(nèi)，連續(xù)完成v2.5.0和v2.7.0兩次版本更新，充分體現(xiàn)了摩爾線程在MUSA生態(tài)建設(shè)上的持續(xù)投入與快速迭代能力。

▼Torch-MUSA開源地址：

https://github.com/MooreThreads/torch_musa

自v2.5.0起，Torch-MUSA版本號已與PyTorch主版本號保持同步，便于開發(fā)者進行版本識別與管理。新版本進一步集成muSolver與muFFT等計算加速庫，顯著提升復雜計算任務(wù)的執(zhí)行效率；同時新增對統(tǒng)一內(nèi)存設(shè)備（Unified Memory）的UMM支持，有效優(yōu)化內(nèi)存使用效率。

此外，新版本繼續(xù)保持與最新MUSA SDK的兼容性，支持使用MUSA SDK 4.2.0至4.3.0及更高版本進行編譯。目前Torch-MUSA專屬支持的算子總數(shù)已超過1050個，系統(tǒng)在性能與穩(wěn)定性方面均實現(xiàn)進一步提升，為大模型訓練與推理提供了更高效、更可靠的底層支持。

v2.7.0版本主要更新內(nèi)容

新增特性

▼動態(tài)雙精度轉(zhuǎn)換（Dynamic Double Cast）

用戶可通過設(shè)置環(huán)境變量export TORCH_USE_MUSA_DOUBLE_CAST=1，開啟Float64數(shù)據(jù)類型算子的動態(tài)轉(zhuǎn)換功能，torch_musa將使用float32作為計算數(shù)據(jù)類型。

▼分布式檢查點（Distributed Checkpoint）

支持從多個rank并行加載和保存模型，顯著加速檢查點的保存與加載過程。目前已支持分布式檢查點的異步保存功能。

功能增強

▼新增Poisson、binomial、_standard_gamma、_sample_dirichlet、vdot、upsample（1d、2d、3d、with aa）、flash_attention、transformer_encoder_layer 等多個實用算子，MUSA專屬支持的算子總數(shù)突破1050個。

▼通過升級PyTorch底層支持，torch.compile與AOTInductor功能進一步增強；

▼默認啟用TF32計算模式，提升浮點運算效率；

▼優(yōu)化性能分析工具Kineto的穩(wěn)定性，并將其適配版本升級至2.7.0；

▼繼續(xù)優(yōu)化FSDP2流水線并行策略，進一步降低內(nèi)存占用。

v2.5.0版本主要更新內(nèi)容

新增特性

▼新增muFFT與muSolver庫集成，大幅擴展計算能力；

▼在面向邊緣計算的SoC設(shè)備中支持統(tǒng)一內(nèi)存管理，基于Arm 架構(gòu)的UMA（統(tǒng)一內(nèi)存尋址）設(shè)計，實現(xiàn)GPU與CPU共享同一物理內(nèi)存空間，顯著降低模型運行過程中的內(nèi)存開銷，具體包括：

消除GPU端重復內(nèi)存分配；

減少主機與設(shè)備間的內(nèi)存拷貝；

GPU可直接訪問由CPU分配器申請的內(nèi)存空間。

算子擴展與性能優(yōu)化

▼新增支持包括ilshift、irshift、replication_pad1d_bwd、angle、ctcLossTensor、ctcLossTensorBwd、logit、amin/amax/prod.dim_int、glu_bwd等多個算子；

▼新增基礎(chǔ) Sparse(CSR) 操作支持；

▼擴充量化算子支持范圍；

▼修復torch.norm形狀錯誤問題；

▼支持reduce_sum的uint8輸入與int64輸出；

▼C++擴展新增支持tensor.is_musa()方法；

▼修復空輸入下argmax/argmin的異常行為；

▼優(yōu)化var/std、pad、convolution3d、layer_norm等操作的執(zhí)行效率。

系統(tǒng)功能增強

▼開放torch.musa.mccl.version()接口；

▼支持getCurrentMUSABlasHandle與getCurrentMUSABlasLtHandle；

▼優(yōu)化FSDP2流水線并行策略，降低訓練內(nèi)存占用。

未來計劃

Torch-MUSA將繼續(xù)跟進PyTorch的版本更新，計劃下一版本支持PyTorch 2.9.0，并進一步優(yōu)化性能與功能，持續(xù)構(gòu)建和完善基于MUSA架構(gòu)國產(chǎn)全功能GPU的深度學習生態(tài)。

▼ 關(guān)于摩爾線程

摩爾線程以全功能GPU為核心，致力于向全球提供加速計算的基礎(chǔ)設(shè)施和一站式解決方案，為各行各業(yè)的數(shù)智化轉(zhuǎn)型提供強大的AI計算支持。

我們的目標是成為具備國際競爭力的GPU領(lǐng)軍企業(yè)，為融合人工智能和數(shù)字孿生的數(shù)智世界打造先進的加速計算平臺。我們的愿景是為美好世界加速。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴