国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

擁抱DeepSeek開源生態| 算能TPU接入TileLang,集結北大復旦山大頂尖團隊!

算能開發者社區 ? 2025-10-03 19:08 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

近日,DeepSeek V3.2-Exp 上線,官宣支持國產AI算子編程語言TileLang 并發布了針對 V3.2 的算子示例,這意味著支持“同一語義、跨多后端”的TileLang得到了權威認可,基于算能TPU的TileLang-TPU項目也于近日完成工程驗證。

TileLang 發布之初,算能聯合北京大學、復旦大學、山東大學等高校的科研團隊,共同開展TileLang接入算能TPU的工作,目前已在BM1684X 、SC11等智算平臺上完成了主流大模型算子的工程驗證。

算能SC11 FP300單卡集成256GB LPDDR5X高帶寬內存,內置原生FP8算力單元,板載高達1.1TB/s的內存帶寬,配合PCIe Gen5主機接口及256GB/s的卡間高速互聯,有效應對大模型參數存儲與計算需求,DeepSeek V3滿血版在4卡SC11上吞吐超過600tokens/s。


Tile Language (TileLang) 是一種簡潔的領域專用語言,也是一款開源的 AI 算子編程語言,TileLang 對接算能TPU擴展的工作由北大碩士生解文浩、博士生任天行作為主要負責人牽頭開發,山大、復旦的研發團隊也參與了算子開發、大模型接入TPU的工作,一并表示感謝。4e96f3dc-a049-11f0-8ce9-92fbcf53809c.png

全棧貫通|從可行性到工程閉環

TileLang能夠將高級別的數據流描述,自動轉換并優化為高效的底層代碼(如CUDA或TPU kernel)。通過獨特的Tile級抽象和自動調度能力,開發者可以用更簡潔的代碼表達復雜計算,快速為自己的算法開發一個接近峰值性能的算子,顯著提升算子開發效率。

TileLang-TPU適配路徑以“少驚擾、強約束”為原則:前端僅描述 tile 級計算邏輯與數據流,不引入設備細節;中間以穩定的 Tile-IR 承接形狀推斷、布局決定與算子融合;后端生成面向算能 TPU 的 device 側 C 代碼與指令序列,并與 PPL 的內核注冊、調度與運行時貫通。

4ea1d662-a049-11f0-8ce9-92fbcf53809c.png

該路徑已在典型大模型算子上跑通,涵蓋常見的 GEMM、歸一化與位置相關變換等,完成從算子表達、代碼生成、到 hostdevice 數據搬運和執行的全鏈路打通。由此,TileLang 的一次建模、多后端復用能力在國產 TPU 場景獲得驗證,為后續開源與規模化交付奠定了基礎。

極致簡潔|三步實現 TPU后端支持

TileLang-TPU的核心工作聚焦三點:前端原語擴展。于 TileLang/language/customize.py 增補自定義 tile op 接口,使 GEMM、RMSNorm、RoPE、SwiGLU 等算子可以以更貼近數學定義的方式表達,并在 Tile-IR 層明確迭代空間、數據復用與流水線切分,減少手寫索引與 bank 沖突的偶然性。

4eb2f988-a049-11f0-8ce9-92fbcf53809c.png

代碼生成映射。于 src/target/codegen_ppl.cc 完成原語到算能 TPU 專用執行單元的映射,將GEMM 一類算子對齊到 BDC 的矩陣乘路徑(如 tpu_bdc_fp_mm.v 等),同時根據設備層級內存模型生成指令序列與局部緩存策略,確保計算與搬運(GDMA)管線化協同。以matmul在BM1684x上的計算為例,使用TileLang撰寫的算子跟PPL手寫算子性能持平,代碼更加簡潔。

4ebe3be0-a049-11f0-8ce9-92fbcf53809c.png

運行棧整合。生成的 device 側 C 代碼與元信息并入 PPL 體系,完成 kernel 注冊、調度入口與形參綁定,保證 host 側裝載、形狀檢查、dtype/stride 處理與 device 側執行一致;必要時補充 tiling 規則與長短軸對齊策略,以兼顧大shape與批處理場景。當前已實現TileLang 前端 → PPL/TPU 設備端 C → PPL 運行期可執行的完整鏈路,關鍵算子具備可對齊的性能基線與可定位的優化,便于后續按模型族進行系統化補全與壓測。

持續開源 | 一次改寫多處復用

TileLang開源的價值不止于“又多了一個后端”,更在于“少了成倍的重復移植”。在國產芯片生態日益多樣化的現實下,統一的 tile 級前端抽象能把算子資產沉淀在可組合、可驗證的語義層;遷移到新后端時,僅需圍繞 CodeGen 與 runtime 這條窄口補齊映射與 ABI,可繼承既有的表達、調度與測試體系。

這種“前端統一、后端定制”的方式,有機會在工程維度緩解國產芯片的碎片化,讓差異化架構以最小成本共享同一套高質量算子實現與基準。后續開發團隊將優先確保DeepSeek等主流模型鏈路的端到端可用,再面向長尾算子逐步補全,并在流水線深度、訪存回填、緩存復用等細節上持續優化最佳實踐。

TileLang-TPU 正在做開源前的代碼清理與文檔化的工作,它的意義并不在于“多了一個后端”,而在于“少了很多重復”,當同一套算子前端可以映射到更多芯片時,碎片化就不再是阻力,而會成為競爭力,讓不同架構以各自所長服務更大的模型與更廣的場景,而不是把資源消耗在移植與改寫上。

再次感謝來自北大、復旦、山大等高校的研發團隊在TileLang-TPU上所做的前瞻性工作,后續的開源倉庫將附帶清晰的示例與文檔,支持以標準化方式擴展原語、以嚴謹的工程標準實現“一次改寫、多平臺復用”的目標。TileLang-TPU的成功驗證,將進一步加深算能與高校、開源社區的合作深度,為完善國產芯片軟件棧打造一個經典范式。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    90

    文章

    38413

    瀏覽量

    297701
  • TPU
    TPU
    +關注

    關注

    0

    文章

    166

    瀏覽量

    21553
  • DeepSeek
    +關注

    關注

    2

    文章

    826

    瀏覽量

    2859
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    DeepSeek V3.1發布!擁抱國產力芯片

    架構到Agent能力突破,從API價格調整到國產芯片生態共建,DeepSeek V3.1的發布標志著中國AI產業進入技術突破與產業落地協同發展的新階段。 ? 圖:DeepSeek正式發布
    的頭像 發表于 08-23 07:55 ?1.6w次閱讀
    <b class='flag-5'>DeepSeek</b> V3.1發布!<b class='flag-5'>擁抱</b>國產<b class='flag-5'>算</b>力芯片

    北大開源鴻蒙技術俱樂部正式揭牌成立

    ”在東北大學渾南校區成功舉辦。 嘉賓合影 東北大學黨委常委、副校長王輝出席活動并致辭。王輝表示,立足國家戰略布局,發展開源生態、鍛造自主可控核心技術人才隊伍,是推動科技自立自強的關鍵一
    的頭像 發表于 10-31 10:43 ?492次閱讀
    東<b class='flag-5'>北大</b>學<b class='flag-5'>開源</b>鴻蒙技術俱樂部正式揭牌成立

    探秘安全生產預警預測系統的五大頂尖平臺

    探秘安全生產預警預測系統的五大頂尖平臺
    的頭像 發表于 10-16 09:56 ?1028次閱讀
    探秘安全生產預警預測系統的五<b class='flag-5'>大頂尖</b>平臺

    沐曦曦云C系列產品已支持TileLang

    近日,DeepSeek宣布在其新版本中擁抱國產GPU語言TileLang,引發業界廣泛關注。作為國產高性能GPU的代表,沐曦曦云C系列產品已率先在這一新興開源社區獲得支持。
    的頭像 發表于 10-14 09:25 ?788次閱讀
    沐曦曦云C系列產品已支持<b class='flag-5'>TileLang</b>

    TPU編程競賽|第二十屆研電賽杯賽啟動 -- 智,創見未來!

    第二十屆中國研究生電子設計競賽(以下簡稱“研電賽”)正式啟動,作為命題企業聚焦人工智能與邊緣計算前沿技術,圍繞TPU硬件平臺與輕量化AIoT系統發布兩大創新賽題,涵蓋大模型邊緣部署、智能交互系統
    的頭像 發表于 04-01 17:33 ?1741次閱讀
    <b class='flag-5'>TPU</b>編程競賽|第二十屆研電賽<b class='flag-5'>算</b><b class='flag-5'>能</b>杯賽啟動 -- 智<b class='flag-5'>算</b>賦<b class='flag-5'>能</b>,創見未來!

    北京大學兩部 DeepSeek 秘籍新出爐!(附全集下載)

    北大的肖睿團隊出品了兩份 DeepSeek “內部秘籍”, 趕緊拿來給大家分享。 可能有的家友對什么是 DeepSeek?它有什么用?仍感到一頭霧水。 就讓我們回歸基礎,從大語言模型的
    發表于 02-27 17:57

    誠邁科技HongZOS接入DeepSeek

    近日,誠邁科技基于開源鴻蒙研發的物聯網操作系統「鴻誠志遠HongZOS」成功接入DeepSeek,并在鴻志工業三防平板上實現在線部署和本地化部署。這標志著誠邁科技正式開啟「HongZOS+AI大模型」的深度融合,將為行業客戶帶來
    的頭像 發表于 02-25 17:30 ?1173次閱讀

    開源大模型DeepSeek的開放內容詳析

    當大家討論為什么 DeepSeek 能夠形成全球刷屏之勢,讓所有廠商、平臺都集成之時,「開源」成為了最大的關鍵詞之一,圖靈獎得主 Yann LeCun 稱其是「開源的勝利」。模型開源
    的頭像 發表于 02-19 09:48 ?2473次閱讀
    <b class='flag-5'>開源</b>大模型<b class='flag-5'>DeepSeek</b>的開放內容詳析

    DeepSeek訪問量飆升,應用生態迅速擴展

    擴展。 目前,三家基礎電信企業已全面接入國產開源大模型DeepSeek,為其提供了廣泛的網絡覆蓋和通信支持。同時,手機、PC等終端廠商也在積極擁抱D
    的頭像 發表于 02-14 10:00 ?779次閱讀

    榮耀手機正式接入DeepSeek

    榮耀正式宣布接入DeepSeek,并致力于將榮耀手機打造成為DeepSeek的第一手機。對于系統版本為MagicOS8.0及以上的榮耀手機用戶,只需將YOYO助理升級到80.0.1.503版本及以上,即可與
    的頭像 發表于 02-10 16:33 ?1514次閱讀

    軟通動力天元智接入DeepSeek系列模型

    近日,軟通動力天元智大模型網關迎來重磅升級,正式接入DeepSeek系列模型,為企業生產力提升帶來全新助力。
    的頭像 發表于 02-10 09:44 ?908次閱讀

    “兆瀚”力產品強力支持DeepSeek,共筑國產AI新生態

    全球人工智能競賽進入白熱化之際,中國AI領域迎來里程碑式突破——誕生于本土的開源大模型DeepSeek,憑借媲美全球頂尖水平的算法精度和極致開放的生態策略,迅速獲得全球矚目。作為昇騰戰
    的頭像 發表于 02-07 19:37 ?1242次閱讀
    “兆瀚”<b class='flag-5'>算</b>力產品強力支持<b class='flag-5'>DeepSeek</b>,共筑國產AI新<b class='flag-5'>生態</b>!

    TPU編程競賽系列|第九屆集創賽“杯”火熱報名中!

    第九屆全國大學生集成電路創新創業大賽(以下簡稱“集創賽”)正式開始報名。能在處理器應用方向特別設立了“TPU的邊緣計算架構優化與創新應用設計”賽題,誠邀各校參賽隊伍充分發揮TPU
    的頭像 發表于 02-06 13:41 ?1650次閱讀
    <b class='flag-5'>TPU</b>編程競賽系列|第九屆集創賽“<b class='flag-5'>算</b><b class='flag-5'>能</b>杯”火熱報名中!

    深度解析deepseek開源是什么意思

    Deepseek開源是指Deepseek項目的源代碼被公開,允許任何人免費查看、使用、修改和分發。
    的頭像 發表于 02-06 09:29 ?4252次閱讀

    TPU編程競賽|2024 CCF BDCI大賽圓滿結束!賽道“常務副SOTA”團隊榮獲最佳算法能力獎

    團隊脫穎而出,榮獲大賽最佳算法能力獎。本屆CCFBDCI大賽中,賽道推出了“基于TPU平臺的OCR模型性能優化”的賽題,旨在探索如何通過高效的
    的頭像 發表于 01-08 08:33 ?984次閱讀
    <b class='flag-5'>TPU</b>編程競賽|2024 CCF BDCI大賽圓滿結束!<b class='flag-5'>算</b><b class='flag-5'>能</b>賽道“常務副SOTA”<b class='flag-5'>團隊</b>榮獲最佳算法能力獎