国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

摩爾線程正式開源TileLang-MUSA項目

摩爾線程 ? 來源:摩爾線程 ? 2026-02-11 16:57 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

近日,摩爾線程正式開源TileLang-MUSA項目,實現對TileLang編程語言的完整支持。該項目已成功在摩爾線程多代全功能GPU上完成功能驗證與特性開發,旨在通過高層抽象與編譯器優化,大幅降低開發門檻,為國產算力平臺提供更高效的AI與高性能計算開發體驗。

TileLang-MUSA開源地址:

https://github.com/MooreThreads/tilelang_musa

TileLang:重新定義GPU算子編程的語言

TileLang是一款基于張量分塊(Tiling)抽象的高性能AI算子編程語言,屬于領域特定語言(DSL)。它采用聲明式語法與類Python前端,使開發者能夠以接近數學公式的形式描述計算意圖,并由編譯器自動完成循環優化、內存調度與代碼生成,在保持底層性能的同時大幅降低GPU及異構計算平臺的編程復雜度。

在實際應用中,TileLang通過三大核心作用顯著提升GPU計算的開發效率:

通過高級抽象降低開發門檻,開發者無需深入底層硬件知識即可生成高性能代碼;

具備跨平臺能力,實現“一次編寫、多架構運行”,有效解決多元算力生態的適配難題;

編譯器自動執行Layout推導、線程映射、Warp特化、流水線排布、內存優化等復雜優化,在保障性能的同時提升開發效率。

TileLang已廣泛應用于多個關鍵領域,例如:在AI與機器學習中,研究人員可用其快速定義新型算子(如注意力機制);在科學計算中,可便捷移植大型數值模擬程序至不同硬件平臺;對硬件廠商而言,TileLang可作為構建芯片軟件生態的基礎工具鏈。

在產業實踐中,DeepSeek-V3的研發已采用TileLang進行算子快速原型設計與性能驗證,證明了其在大規模模型訓練中的實戰價值。摩爾線程開源的TileLang-MUSA項目,正是這一技術理念的產業落地——通過提供高效開發工具鏈降低創新門檻,推動國產算力應用生態的繁榮發展。

TileLang-MUSA:連接前沿語法與國產算力的橋梁

摩爾線程此次開源的 TileLang-MUSA項目,旨在充分釋放全功能GPU的性能潛力。它提供了一種介于底層匯編與高層DSL之間的“中間層”抽象,在保留硬件控制力的同時,顯著降低了編程復雜度。具體特性如下:

廣泛的硬件架構覆蓋:TileLang-MUSA已在摩爾線程多代全功能GPU上完成功能驗證與打通,包括訓推一體全功能智算卡 MTT S5000和MTT S4000,展現了良好的硬件兼容性。

核心計算特性的深度映射:項目團隊實現了TileLang高層語義到摩爾線程GPU底層MUSA架構的精準映射。

Tensor Core 加速:編譯器能夠自動調用MUSA的MMA(矩陣乘累加)指令,充分發揮硬件張量核心的峰值計算能力;

Tile-Level Pipeline:自動處理從全局內存(Global Memory)到共享內存(Shared Memory)再到寄存器(Registers)的多級數據搬運,利用MUSA異步拷貝指令掩蓋訪存延遲;

Warp級并行優化:完整支持Warp Specialization特性。

目前,基于MUSA架構的TileLang原生算子單元測試覆蓋率已超過80%,為大規模應用提供了可靠保障。

代碼示例:體驗“零門檻”算子遷移

開發者在完成環境配置后,可保留原有的import tilelang習慣,通過Cython編譯后端直接在MUSA環境中運行TileLang代碼。

以下是一個基于TileLang-MUSA的高性能矩陣乘法實現示例:通過簡潔明了的語法描述計算邏輯,編譯器能夠自動生成高度優化的MUSA內核代碼。依托TileLang豐富且經過深度調優的原語算子庫(primitives),開發者借助TileLang-MUSA不僅能夠顯著提升編碼效率,更能直接調用底層硬件的計算潛力,實現媲美手工優化性能的矩陣運算。

importtilelang
importtilelang.languageasT
importtorch
fromtilelang.primitives.gemm.baseimportGemmWarpPolicy


defmatmul(M, N, K, block_M, block_N, block_K, dtype="float16", accum_dtype="float"):
  @T.prim_func
defmatmul_kernel(
    A: T.Tensor((M, K), dtype),
    B: T.Tensor((K, N), dtype),
    C: T.Tensor((M, N), dtype),
):
withT.Kernel(T.ceildiv(N, block_N), T.ceildiv(M, block_M), threads=512)as(bx, by):
      T.use_swizzle(panel_size=4, order='col')
      A_shared = T.alloc_shared((block_M, block_K), dtype)
      B_shared = T.alloc_shared((block_K, block_N), dtype)
      C_local = T.alloc_fragment((block_M, block_N), accum_dtype)
      T.clear(C_local)
forkinT.Pipelined(T.ceildiv(K, block_K), num_stages=3):
        T.copy(A[by * block_M, k * block_K], A_shared)
        T.copy(B[k * block_K, bx * block_N], B_shared)
        T.gemm(A_shared, B_shared, C_local, policy=T.GemmWarpPolicy.Square)
      T.copy(C_local, C[by * block_M, bx * block_N])
returnmatmul_kernel


defmain():
  M, N, K, BLOCK_M, BLOCK_N, BLOCK_K =8192,7168,16384,256,256,64
  device ="musa"
  A = torch.randn((M, K), dtype=torch.float16, device=device)
  B = torch.randn((K, N), dtype=torch.float16, device=device)
  program = matmul(M, N, K, BLOCK_M, BLOCK_N, BLOCK_K, dtype="float16", accum_dtype="float32")


  kernel = tilelang.compile(
    program,
    out_idx=-1,
    target="musa",
    execution_backend="cython",
    verbose=True,
  )
  ref_out = torch.mm(A, B)
  C = kernel(A, B)
  torch.testing.assert_close(ref_out.to(torch.float16), C.to(torch.float16), rtol=1.25e-1, atol=1.25e-1)


if__name__ =="__main__":
  main()

*代碼示例

實測表現:兼顧開發效率與運行性能

TileLang-MUSA的設計理念是讓開發者“寫得快”且“跑得快”。在實際算子開發實踐中,這一目標已得到驗證。

以大語言模型中至關重要的FlashAttention-3和GEMM(通用矩陣乘)算子為例,在摩爾線程MTT S5000上的測試結果顯示:

開發效率倍增:相較手寫MUSA C++代碼,使用TileLang-MUSA的代碼量減少了約90%,且代碼邏輯更加清晰,極大降低了開發與維護成本。

性能媲美手寫:得益于TileLang-MUSA優秀的編譯器優化,生成的算子性能在典型配置下,Gemm最高可達到手寫優化版本的95%, FlashAttention-3可以達到手寫優化版本的85%。

自動化調優:借助TileLang-MUSA的Auto-tuning機制,開發者可以在MUSA架構的全功能GPU上快速搜索最優的分塊策略(Tile Size)和流水線級數,輕松超越未經深度優化的基準實現。

TileLang-MUSA的推出,為開發者帶來了三大核心價值:

無縫遷移:TileLang用戶可以近乎零成本地將算子邏輯遷移至摩爾線程GPU;

降低門檻:TileLang-MUSA為不熟悉MUSA指令集的AI工程師提供了高層次的開發入口,大幅降低了國產GPU的應用門檻;

賦能大模型:TileLang-MUSA通過支持FlashAttention等關鍵算子的高效開發,將有力加速大語言模型等前沿AI應用在國產算力平臺上的部署與落地。

TileLang-MUSA不僅驗證了“高層語言+國產GPU”這一技術路線的可行性,更為構建開放、易用的國產算力開發生態提供了關鍵工具支撐。

未來展望:打造基于MUSA的深度學習統一平臺

TileLang-MUSA的開源是摩爾線程構建國產算力生態的關鍵一步。以此為起點,摩爾線程將持續推進平臺與生態建設,致力于打造一個覆蓋從單算子到完整大模型的國產算力統一加速平臺:持續進行性能優化,開發更多MUSA架構定制擴展,使生成代碼性能穩定達到手寫優化版本的90%以上;深度集成SGLang等主流AI框架,實現訓練與推理場景的端到端無縫加速;從單算子優化延伸至Transformer、MoE等復雜模型架構的跨算子調度與全局優化;同時完善調試和性能分析工具鏈,為開發者提供全流程支持。

這一切努力,最終都將匯聚于一個核心目標:構建一個開放、高效、充滿生命力的國產算力生態,讓創新的想法在堅實的基石上自由生長。

點擊下方“閱讀原文”了解TileLang-MUSA開源項目,或直接訪問:

https://github.com/MooreThreads/tilelang_musa

*以上測試數據均來自摩爾線程實驗室

關于摩爾線程

摩爾線程以全功能GPU為核心,致力于向全球提供加速計算的基礎設施和一站式解決方案,為各行各業的數智化轉型提供強大的AI計算支持。

我們的目標是成為具備國際競爭力的GPU領軍企業,為融合人工智能和數字孿生的數智世界打造先進的加速計算平臺。我們的愿景是為美好世界加速。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • gpu
    gpu
    +關注

    關注

    28

    文章

    5177

    瀏覽量

    135247
  • 開源
    +關注

    關注

    3

    文章

    4173

    瀏覽量

    45990
  • 摩爾線程
    +關注

    關注

    2

    文章

    276

    瀏覽量

    6419

原文標題:摩爾線程開源TileLang-MUSA,以高效算子開發釋放全功能GPU計算潛力

文章出處:【微信號:moorethreads,微信公眾號:摩爾線程】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    摩爾線程快速完成對Qwen3.5模型全面適配

    2月17日,摩爾線程宣布已在旗艦級AI訓推一體全功能GPU MTT S5000上完成對阿里最新大模型Qwen3.5的全方位適配。此次支持充分展示了摩爾線程
    發表于 02-18 08:32 ?124次閱讀

    摩爾線程在MDC 2025重磅發布全棧創新成果

    12月20日,在首屆MUSA開發者大會上,摩爾線程創始人、董事長兼CEO張建中發表主題演講,系統展示了以自主MUSA統一架構為核心的全棧創新成果,全面展現公司在技術和生態上的關鍵突破與
    的頭像 發表于 12-22 18:04 ?1428次閱讀

    摩爾線程發布Torch-MUSA v2.7.0版本

    近日,摩爾線程正式發布PyTorch深度學習框架的MUSA擴展庫——Torch-MUSA v2.7.0,新版本在功能集成、性能優化與硬件支持方面實現進一步突破。Torch-
    的頭像 發表于 12-04 09:05 ?1097次閱讀

    摩爾線程亮相GOTC 2025全球開源技術峰會

    摩爾線程高級副總裁楊上山在主論壇發表《摩爾線程全功能GPU原生支持開源生態》的主題演講,系統闡述了摩爾
    的頭像 發表于 11-04 10:43 ?2133次閱讀

    擁抱DeepSeek開源生態| 算能TPU接入TileLang,集結北大復旦山大頂尖團隊!

    TPU的TileLang-TPU項目也于近日完成工程驗證。TileLang發布之初,算能聯合北京大學、復旦大學、山東大學等高校的科研團隊,共同開展TileLang
    的頭像 發表于 10-03 19:08 ?1385次閱讀
    擁抱DeepSeek<b class='flag-5'>開源</b>生態| 算能TPU接入<b class='flag-5'>TileLang</b>,集結北大復旦山大頂尖團隊!

    摩爾線程發布Torch-MUSA v2.1.1版本

    近日,摩爾線程發布其面向PyTorch深度學習框架的MUSA擴展庫——Torch-MUSA v2.1.1。該版本在v2.1.0的基礎上,進一步擴展了對大規模深度學習模型訓練與推理的支持
    的頭像 發表于 09-10 11:02 ?1005次閱讀

    摩爾線程吳慶詳解 MUSA 軟件棧:以技術創新釋放 KUAE 集群潛能,引領 GPU 計算新高度?

    的分享。GPU 計算軟件開發總監吳慶登上講臺,發表了題為《摩爾線程 MUSA 軟件棧助力 KUAE 集群釋放無限潛能》的演講。他從專業視角出發,為在場聽眾深入剖析了 MUSA 軟件棧在
    的頭像 發表于 07-28 13:47 ?6008次閱讀
    <b class='flag-5'>摩爾</b><b class='flag-5'>線程</b>吳慶詳解 <b class='flag-5'>MUSA</b> 軟件棧:以技術創新釋放 KUAE 集群潛能,引領 GPU 計算新高度?

    摩爾線程率先支持騰訊混元-A13B模型

    近日,騰訊正式開源基于專家混合(MoE)架構的大語言模型混元-A13B。同日,摩爾線程團隊憑借技術前瞻性,率先完成該模型在全功能GPU的深度適配與高效支持。這一成果充分彰顯了MUSA
    的頭像 發表于 07-04 14:10 ?884次閱讀

    摩爾線程發布Torch-MUSA v2.0.0版本 支持原生FP8和PyTorch 2.5.0

    近日,摩爾線程正式發布Torch-MUSA v2.0.0版本,這是其面向PyTorch深度學習框架的MUSA擴展庫的重要升級。新版本基于MUSA
    的頭像 發表于 05-11 16:41 ?1576次閱讀

    摩爾線程GPU率先支持Qwen3全系列模型

    近日,阿里云正式發布Qwen3系列的8款開源混合推理模型。摩爾線程團隊在模型發布當天,率先完成了Qwen3全系列模型在全功能GPU上的高效支持。這一成果充分展現了MUSA架構及全功能G
    的頭像 發表于 05-07 15:24 ?998次閱讀

    摩爾線程GPU成功適配Deepseek-V3-0324大模型

    架構和全功能GPU的強大技術實力,摩爾線程迅速響應并完成了對DeepSeek-V3的無縫升級,實現了零報錯、零兼容性問題的光速部署,充分展現了摩爾線程在AI大模型領域的領先優勢。
    的頭像 發表于 03-31 11:34 ?1265次閱讀
    <b class='flag-5'>摩爾</b><b class='flag-5'>線程</b>GPU成功適配Deepseek-V3-0324大模型

    摩爾線程支持阿里云通義千問QwQ-32B開源模型

    近日,阿里云團隊正式開源全新推理模型——通義千問QwQ-32B。摩爾線程在該模型發布后2小時內,迅速且高效完成了對千問QwQ-32B的支持。
    的頭像 發表于 03-07 17:48 ?1335次閱讀
    <b class='flag-5'>摩爾</b><b class='flag-5'>線程</b>支持阿里云通義千問QwQ-32B<b class='flag-5'>開源</b>模型

    摩爾線程全面支持DeepSeek開源周成果

    DeepSeek開源周正式收官,作為國內率先原生支持FP8計算精度的國產GPU企業,摩爾線程迅速響應,并在短時間內,成功實現對DeepSeek各個開源
    的頭像 發表于 03-04 10:06 ?1020次閱讀

    摩爾線程支持DeepSeek開源通信庫DeepEP和并行算法DualPipe

    DeepSeek開源周第四日,摩爾線程宣布已成功支持DeepSeek開源通信庫DeepEP和并行算法DualPipe,并發布相關開源代碼倉庫
    的頭像 發表于 02-28 15:58 ?1044次閱讀

    摩爾線程完成DeepSeek開源庫FlashMLA和DeepGEMM適配

    自DeepSeek啟動“開源周”以來,已陸續開源三個代碼庫。摩爾線程基于全新MUSA Compute Capability 3.1計算架構,
    的頭像 發表于 02-27 14:40 ?1425次閱讀