算力已成為 AI 時代的“石油”,但如何高效挖掘異構算力的潛能,打破單一硬件架構的軟件壁壘,是全行業面臨的共同考題。
過去二十年,CUDA 幾乎定義了 GPU 編程的主流路徑。但在 2026 年,隨著更多國內AI芯片算力崛起與異構計算的普及,Triton 正從一個學術界的編程語言,演變為工業界打破 CUDA 壟斷、連接上層算法與底層芯片的關鍵“通用語”。然而,語言的繁榮也帶來了新的挑戰:算子開發如何平衡易用性與極致性能?如何解決碎片化的硬件適配難題?
1 月 9 日,由眾智 FlagOS 開源社區、北京智源人工智能研究院與 CSDN 聯合主辦的「2026 TritonNext 技術大會」在北京海淀區中關村國家自主創新示范區展示中心盛大開幕。
作為國內首個聚焦 Triton 生態、下一代算子編程和編譯器的硬核技術盛會,本次大會以“聚焦下一代算子編程語言與真實落地實踐”為核心,匯聚了來自北京智源人工智能研究院、中科院計算所、華為、螞蟻集團、字節跳動、百度、摩爾線程等頂尖機構與企業的 AI 系統專家。從 FlagOS 的統一生態構建到大廠的落地實戰,從 AI 輔助編程到 RISC-V 的前沿探索,與會專家共同探討了 AI 編譯器、高性能算子開發及異構硬件適配的最新解法,吹響了 AI 系統軟件棧向“好用”、“通用”進軍的號角。澎峰科技作為 FlagOS 生態伙伴參加會議并作了《基于 FlagGems Triton 的運行時調優與算子優化》分享。
張先軼:基于 FlagGems Triton 的運行時調優與算子優化
作為 OpenBLAS 的發起人,北京澎峰科技創始人兼 CEO 張先軼以 FlagGems C++ Wrapper 的底層依賴——輕量級 C++ 運行時庫 libtriton_jit 為例,分享了團隊在高性能算子庫上的核心優化實踐。他表示,重構 libtriton_jit 有兩個核心目標:一是降低開銷,消除純 Python 運行時中不可避免的解釋器開銷和調度延遲;二是實現多后端統一,提供統一 C++ 接口,支持多硬件后端,并屏蔽底層 API 差異。
在技術實現上,他選擇了 Policy-Based Design(編譯時多態),利用 C++ 模板在編譯期靜態確定行為,從而消除抽象層開銷,同時兼顧靈活性。雖然這種做法會增加二進制體積,但經過優化,wrapper 延遲顯著下降,整體性能提升 2.5~4 倍;在小算子場景下,平均延遲僅為 11.69 μs,比重構前快 43%。此外,他進一步分享了算子層面的優化實踐,包括在 mm 算子加入 TMA 優化,同時提升 TensorDescriptor 穩定性,并擴大 Triton Autotuning 搜索空間;對 Kron、argmin、resolve_conj、gelu_backward、glu_backward 等算子,則通過針對算法特性的 Block_size 調整,實現了更高加速比。整體而言,這些優化不僅大幅降低了延遲,也實現了算子層面的極致解耦,為構建高性能算子庫提供了一套高效、靈活且可維護的解決方案。
一場技術盛會的價值,不僅在于前沿思想的碰撞,更在于生態力量的凝聚。大會舉行了 “眾智 FlagOS v1.6 研發致謝單位授予儀式”。澎峰科技代表與北京智源研究院、中科院計算所、中科加禾、安謀科技、北京大學、北京師范大學、百度飛槳、硅基流動、寒武紀、海光信息、華為、基流科技、摩爾線程、沐曦科技、清微智能、天數智芯、先進編譯實驗室、移動研究院、中國礦業大學(北京)等多家在 FlagOS v1.6 版本研發中做出卓越貢獻的單位代表上臺,接受了這份代表社區認可的榮譽。
這一環節不僅是對過去一年多來所有貢獻者辛勤付出的肯定,更展現了 FlagOS 社區“眾智”的力量——正是這些來自產學研各界的核心力量,共同推動著國產 AI 系統軟件棧從愿景走向現實。
TritonNext:始于一行代碼,成于眾人之智
從上午場深度的技術趨勢及架構剖析,到下午場熱烈的技術實踐與代碼實戰操練,2026 TritonNext 技術大會不僅呈現了一場關于 Triton 與 AI 系統軟件的技術盛宴,更生動詮釋了“眾智”的力量。
當“一次編寫,處處運行”不再是遙遠的理想,當 AI 開始自動生成并驗證算子,當開發者們能夠通過統一的開源社區協同攻克異構硬件的壁壘——我們看到的,是一個正在加速繁榮的、由開發者驅動的開源新生態。這場大會是起點,更是集結號,真正的變革將在每一行被貢獻的代碼、每一次社區的討論中發生。
對于奮戰在一線的開發者而言,“異構適配”與“性能優化”或許是過去幾年中最令人頭疼的工程難題。而貫穿 2026 TritonNext 技術大會始終的,正是對這些難題的正面回應。
從 KernelGen 將算子開發門檻降至“分鐘級”,到 FlagTree 讓跨芯遷移成本縮短至“天級”,再到 Triton-Distributed 將分布式編程化繁為簡——大會傳遞出一個明確的信號:工具的進化,正在將開發者從繁瑣的底層適配工作中解放出來,能夠重新聚焦于最具創造力的算法與應用創新。AI 系統軟件的未來,正由每一位被賦能的開發者親手構建。澎峰科技將持續深度參與 FlagOS 生態構建,與產業伙伴共同推動 Triton 在技術攻堅、應用落地與社區生態的協同發展與繁榮。
-
AI
+關注
關注
91文章
39793瀏覽量
301428 -
RISC-V
+關注
關注
48文章
2886瀏覽量
53018 -
澎峰科技
+關注
關注
0文章
82瀏覽量
3707
原文標題:TritonNext技術大會圓滿落幕,澎峰科技受邀參會
文章出處:【微信號:perfxlab,微信公眾號:perfxlab】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
中興通訊亮相MWC 2026世界移動通信大會
傳音控股旗下TECNO亮相MWC 2026世界移動通信大會
翱捷科技亮相MWC 2026世界移動通信大會
光峰科技亮相2026美國西部光電展
創通聯達攜魔方派亮相2026高通邊緣智能開發者生態大會
光峰科技亮相CES 2026國際消費電子展
遠峰科技榮獲小鵬汽車2025年度技術貢獻獎
2026年藍牙亞洲大會定檔深圳
澎峰科技完成OpenAI最新開源推理模型適配
澎峰科技亮相2025世界人工智能大會
澎峰科技PerfXCloud通過湖南第二批生成式人工智能服務登記
澎峰科技亮相第六屆中國科學院大學校友創新論壇
Imagination與澎峰科技攜手推動GPU+AI解決方案,共拓計算生態
Imagination與澎峰科技攜手推動GPU+AI解決方案,共拓計算生態
澎峰科技亮相2026 TritonNext技術大會
評論