伦伦影院久久影视,天天操天天干天天射,ririsao久久精品一区 ,一本大道香蕉大久在红桃,999久久久免费精品国产色夜,色悠悠久久综合88,亚洲国产精品久久无套麻豆,亚洲香蕉毛片久久网站,一本一道久久综合狠狠老

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

擁抱DeepSeek開源生態| 算能TPU接入TileLang,集結北大復旦山大頂尖團隊!

算能開發者社區 ? 2025-10-03 19:08 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

近日,DeepSeek V3.2-Exp 上線,官宣支持國產AI算子編程語言TileLang 并發布了針對 V3.2 的算子示例,這意味著支持“同一語義、跨多后端”的TileLang得到了權威認可,基于算能TPU的TileLang-TPU項目也于近日完成工程驗證。

TileLang 發布之初,算能聯合北京大學、復旦大學、山東大學等高校的科研團隊,共同開展TileLang接入算能TPU的工作,目前已在BM1684X 、SC11等智算平臺上完成了主流大模型算子的工程驗證。

算能SC11 FP300單卡集成256GB LPDDR5X高帶寬內存,內置原生FP8算力單元,板載高達1.1TB/s的內存帶寬,配合PCIe Gen5主機接口及256GB/s的卡間高速互聯,有效應對大模型參數存儲與計算需求,DeepSeek V3滿血版在4卡SC11上吞吐超過600tokens/s。


Tile Language (TileLang) 是一種簡潔的領域專用語言,也是一款開源的 AI 算子編程語言,TileLang 對接算能TPU擴展的工作由北大碩士生解文浩、博士生任天行作為主要負責人牽頭開發,山大、復旦的研發團隊也參與了算子開發、大模型接入TPU的工作,一并表示感謝。4e96f3dc-a049-11f0-8ce9-92fbcf53809c.png

全棧貫通|從可行性到工程閉環

TileLang能夠將高級別的數據流描述,自動轉換并優化為高效的底層代碼(如CUDA或TPU kernel)。通過獨特的Tile級抽象和自動調度能力,開發者可以用更簡潔的代碼表達復雜計算,快速為自己的算法開發一個接近峰值性能的算子,顯著提升算子開發效率。

TileLang-TPU適配路徑以“少驚擾、強約束”為原則:前端僅描述 tile 級計算邏輯與數據流,不引入設備細節;中間以穩定的 Tile-IR 承接形狀推斷、布局決定與算子融合;后端生成面向算能 TPU 的 device 側 C 代碼與指令序列,并與 PPL 的內核注冊、調度與運行時貫通。

4ea1d662-a049-11f0-8ce9-92fbcf53809c.png

該路徑已在典型大模型算子上跑通,涵蓋常見的 GEMM、歸一化與位置相關變換等,完成從算子表達、代碼生成、到 hostdevice 數據搬運和執行的全鏈路打通。由此,TileLang 的一次建模、多后端復用能力在國產 TPU 場景獲得驗證,為后續開源與規模化交付奠定了基礎。

極致簡潔|三步實現 TPU后端支持

TileLang-TPU的核心工作聚焦三點:前端原語擴展。于 TileLang/language/customize.py 增補自定義 tile op 接口,使 GEMM、RMSNorm、RoPE、SwiGLU 等算子可以以更貼近數學定義的方式表達,并在 Tile-IR 層明確迭代空間、數據復用與流水線切分,減少手寫索引與 bank 沖突的偶然性。

4eb2f988-a049-11f0-8ce9-92fbcf53809c.png

代碼生成映射。于 src/target/codegen_ppl.cc 完成原語到算能 TPU 專用執行單元的映射,將GEMM 一類算子對齊到 BDC 的矩陣乘路徑(如 tpu_bdc_fp_mm.v 等),同時根據設備層級內存模型生成指令序列與局部緩存策略,確保計算與搬運(GDMA)管線化協同。以matmul在BM1684x上的計算為例,使用TileLang撰寫的算子跟PPL手寫算子性能持平,代碼更加簡潔。

4ebe3be0-a049-11f0-8ce9-92fbcf53809c.png

運行棧整合。生成的 device 側 C 代碼與元信息并入 PPL 體系,完成 kernel 注冊、調度入口與形參綁定,保證 host 側裝載、形狀檢查、dtype/stride 處理與 device 側執行一致;必要時補充 tiling 規則與長短軸對齊策略,以兼顧大shape與批處理場景。當前已實現TileLang 前端 → PPL/TPU 設備端 C → PPL 運行期可執行的完整鏈路,關鍵算子具備可對齊的性能基線與可定位的優化,便于后續按模型族進行系統化補全與壓測。

持續開源 | 一次改寫多處復用

TileLang開源的價值不止于“又多了一個后端”,更在于“少了成倍的重復移植”。在國產芯片生態日益多樣化的現實下,統一的 tile 級前端抽象能把算子資產沉淀在可組合、可驗證的語義層;遷移到新后端時,僅需圍繞 CodeGen 與 runtime 這條窄口補齊映射與 ABI,可繼承既有的表達、調度與測試體系。

這種“前端統一、后端定制”的方式,有機會在工程維度緩解國產芯片的碎片化,讓差異化架構以最小成本共享同一套高質量算子實現與基準。后續開發團隊將優先確保DeepSeek等主流模型鏈路的端到端可用,再面向長尾算子逐步補全,并在流水線深度、訪存回填、緩存復用等細節上持續優化最佳實踐。

TileLang-TPU 正在做開源前的代碼清理與文檔化的工作,它的意義并不在于“多了一個后端”,而在于“少了很多重復”,當同一套算子前端可以映射到更多芯片時,碎片化就不再是阻力,而會成為競爭力,讓不同架構以各自所長服務更大的模型與更廣的場景,而不是把資源消耗在移植與改寫上。

再次感謝來自北大、復旦、山大等高校的研發團隊在TileLang-TPU上所做的前瞻性工作,后續的開源倉庫將附帶清晰的示例與文檔,支持以標準化方式擴展原語、以嚴謹的工程標準實現“一次改寫、多平臺復用”的目標。TileLang-TPU的成功驗證,將進一步加深算能與高校、開源社區的合作深度,為完善國產芯片軟件棧打造一個經典范式。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    91

    文章

    40578

    瀏覽量

    302178
  • TPU
    TPU
    +關注

    關注

    0

    文章

    171

    瀏覽量

    21693
  • DeepSeek
    +關注

    關注

    2

    文章

    837

    瀏覽量

    3352
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    DeepSeek V3.1發布!擁抱國產力芯片

    架構到Agent能力突破,從API價格調整到國產芯片生態共建,DeepSeek V3.1的發布標志著中國AI產業進入技術突破與產業落地協同發展的新階段。 ? 圖:DeepSeek正式發布
    的頭像 發表于 08-23 07:55 ?1.7w次閱讀
    <b class='flag-5'>DeepSeek</b> V3.1發布!<b class='flag-5'>擁抱</b>國產<b class='flag-5'>算</b>力芯片

    沐曦股份GPU產品正式接入華佗開源生態

    沐曦股份堅持“自主創新與開放兼容”雙軌戰略,以自研MXMACA軟件棧為核心,構建硬件與應用的橋梁,并承載開源核心使命。該棧于2025年2月正式開源,致力于打造開放的GPU編程接口標準,大幅降低開發門檻,有效破解跨平臺兼容難題,驅動AI
    的頭像 發表于 03-16 14:40 ?447次閱讀
    沐曦股份GPU產品正式<b class='flag-5'>接入</b>華佗<b class='flag-5'>開源</b><b class='flag-5'>生態</b>

    國產生態擁抱開源AI智能體:光合組織全國OpenClaw體驗“龍蝦局”正式啟動

    服務,更同步首發業內首款端云協同國產工作站,標志著國內首個全面擁抱 OpenClaw 的國產生態,正式邁出技術落地與全民普及的關鍵一步,也為國產力打破
    的頭像 發表于 03-11 09:39 ?9190次閱讀
    國產<b class='flag-5'>算</b>力<b class='flag-5'>生態</b><b class='flag-5'>擁抱</b><b class='flag-5'>開源</b>AI智能體:光合組織全國OpenClaw體驗“龍蝦局”正式啟動

    摩爾線程正式開源TileLang-MUSA項目

    近日,摩爾線程正式開源TileLang-MUSA項目,實現對TileLang編程語言的完整支持。該項目已成功在摩爾線程多代全功能GPU上完成功能驗證與特性開發,旨在通過高層抽象與編譯器優化,大幅降低開發門檻,為國產
    的頭像 發表于 02-11 16:57 ?1573次閱讀

    北大團隊最新研究:AI芯片力提升數倍,效提升超90倍

    電子發燒友網綜合報道 2026年1月,國際頂級學術期刊《自然·電子》刊發的一項研究成果,讓全球半導體與力領域為之矚目——北京大學人工智能研究院陶耀宇研究員、集成電路學院楊玉超教授團隊,在國際上
    的頭像 發表于 01-15 09:31 ?2122次閱讀

    北大學以開源技術鋪就人才與產業共贏之路

    開源浪潮席卷全球科技領域,成為技術創新與產業升級的核心引擎,一所地方高校如何憑借前瞻布局與務實行動,在開源生態中占據重要席位,既培育出頂尖創新人才,又產出服務產業的硬核成果?中
    的頭像 發表于 01-07 10:30 ?472次閱讀

    北大開源鴻蒙技術俱樂部正式揭牌成立

    ”在東北大學渾南校區成功舉辦。 嘉賓合影 東北大學黨委常委、副校長王輝出席活動并致辭。王輝表示,立足國家戰略布局,發展開源生態、鍛造自主可控核心技術人才隊伍,是推動科技自立自強的關鍵一
    的頭像 發表于 10-31 10:43 ?910次閱讀
    東<b class='flag-5'>北大</b>學<b class='flag-5'>開源</b>鴻蒙技術俱樂部正式揭牌成立

    復旦大學探索開源人才發展新模式

    復旦大學作為一所與國家命運緊密相連的百年學府,始終將服務國家戰略需求、培養拔尖創新人才作為核心使命。在科研領域,以敢為人先、開放協作的姿態,探索著高校與產業、社區聯動的創新路徑。近年來,復旦大學圍繞開源
    的頭像 發表于 10-17 11:05 ?768次閱讀

    探秘安全生產預警預測系統的五大頂尖平臺

    探秘安全生產預警預測系統的五大頂尖平臺
    的頭像 發表于 10-16 09:56 ?1376次閱讀
    探秘安全生產預警預測系統的五<b class='flag-5'>大頂尖</b>平臺

    沐曦曦云C系列產品已支持TileLang

    近日,DeepSeek宣布在其新版本中擁抱國產GPU語言TileLang,引發業界廣泛關注。作為國產高性能GPU的代表,沐曦曦云C系列產品已率先在這一新興開源社區獲得支持。
    的頭像 發表于 10-14 09:25 ?1260次閱讀
    沐曦曦云C系列產品已支持<b class='flag-5'>TileLang</b>

    邊緣計算AI硬件如何接入DeepSeek嗎?需要具備哪些條件?

    2025年伊始,一款來自中國初創公司“深度求索”的AI大模型DeepSeek橫空出世,驚艷全球。DeepSeek厲害之處在于,在中國被外國芯片封鎖的背景下,在性能上接近美國頂尖AI模型,但研發
    的頭像 發表于 08-21 10:30 ?1986次閱讀
    邊緣計算AI硬件如何<b class='flag-5'>接入</b><b class='flag-5'>DeepSeek</b>嗎?需要具備哪些條件?

    開源金融創新論壇成功舉辦

    日前,2025開放原子開源生態大會——開源金融創新論壇在北京成功舉辦。論壇致力于推動金融行業擁抱開源
    的頭像 發表于 08-05 11:00 ?1344次閱讀

    【「DeepSeek 核心技術揭秘」閱讀體驗】--全書概覽

    DeepSeek對人工智能技術格局的一個影響 第六章 DeepSeek開源技術剖析 第七章 大模型發展未來展望 全書圖文并茂,對專業技術屬于進行了講解,也有對流程、框架、參數的展示,結合案例與應用方面的代入,是非常好的對
    發表于 07-21 00:04

    【「DeepSeek 核心技術揭秘」閱讀體驗】書籍介紹+第一章讀后心得

    可能大家耳熟詳的是DeepSeek-R1,這是在網頁端開啟了“深度思考”模式后調用的模型,如果不開,則是用的V3模型。但是,DeepSeek模型家族不止有V3和R1,它還開源有多模
    發表于 07-17 11:59

    TPU編程競賽系列|2025中國國際大學生創新大賽產業命題賽道,11項命題入選!

    中國國際大學生創新大賽(原“互聯網+”大賽)產業命題正式公布,十一項命題成功入選。本次賽題主要聚焦于國產TPU處理器的邊緣系統開發和
    的頭像 發表于 06-05 17:03 ?1536次閱讀
    <b class='flag-5'>TPU</b>編程競賽系列|2025中國國際大學生創新大賽產業命題賽道,<b class='flag-5'>算</b><b class='flag-5'>能</b>11項命題入選!