近日,北京后摩智能科技有限公司與北京大學集成電路學院孫廣宇長聘副教授團隊、上海交通大學張宸助理教授團隊、香港科技大學謝源講席教授團隊、東南大學司鑫副教授團隊及阿里巴巴達摩院合作的研究成果《H2-LLM: Hardware-Dataflow Co-Exploration for Heterogeneous Hybrid-Bonding-based Low-Batch LLM Inference》,成功榮獲第52屆計算機體系結構國際研討會(ISCA)最佳論文獎。作為國內學術機構在該會議上的首次獲獎成果,其核心創新聚焦于邊緣側大語言模型(LLM)推理加速架構的關鍵技術突破,為解決邊緣設備高效LLM推理難題提供了創新性方案。
隨著LLM在智能對話、代碼生成、邊緣推理等場景的規模化應用,如何在邊緣設備上實現低延遲、高能效的推理計算,成為行業亟待攻克的技術瓶頸。現有DRAM近存計算架構雖具備高帶寬優勢,但受限于芯片計算邏輯嵌入設計,算力供給不足,難以滿足邊緣側對計算密集型任務的加速需求。針對這一挑戰,合作團隊基于混合鍵合(Hybrid Bonding)新興工藝,研發出面向邊緣側的H2-LLM推理加速架構。該架構通過提出通用近存計算架構模板,抽象設計空間以協調工藝中算力與帶寬的權衡,并采用“以數據為中心”的數據流抽象優化異構硬件資源利用,實現了計算密集型與訪存密集型算子的協同加速。實驗數據顯示,相較于基線DRAM近存架構,H2-LLM在LLM推理的預填充(Prefill)和解碼(Decoding)階段實現2.72倍的性能提升與1.48倍的能效優化,為邊緣設備部署大語言模型提供了關鍵技術支撐。
此次成果是產學研協同創新的典范。北京大學孫廣宇團隊在領域定制芯片架構設計與自動化領域處于國際領先地位,研究成果多次獲得頂級會議和期刊的最佳論文獎,并在多款芯片設計中實現產業驗證。后摩智能與上海交通大學、東南大學、阿里巴巴達摩院的合作,充分發揮了各方在學術研究、技術開發和應用場景方面的優勢,推動了邊緣計算與大模型推理技術的工程化落地。
ISCA作為計算機體系結構領域的頂級國際會議,自1973年創辦以來,始終是學術界與產業界技術交流的核心平臺,與MICRO、HPCA、ASPLOS并稱“體系結構四大會”。谷歌TPU、寒武紀芯片、華為昇騰等具有全球影響力的架構創新均曾在此首發。此次獲獎標志著中國在邊緣計算與LLM推理架構領域的研究已躋身國際頂尖行列,對推動我國人工智能底層技術發展具有重要意義。
未來,后摩智能將繼續秉承開放合作、創新驅動的理念,與更多頂尖高校、科研機構和企業開展深度合作,共同推動智能計算技術的創新與發展。同時,后摩智能也將繼續加強與各方的合作,圍繞國家新一代人工智能戰略需求,持續聚焦邊緣側計算與大模型推理的技術融合,共同推動智能計算技術的產業化應用。
-
邊緣計算
+關注
關注
22文章
3484瀏覽量
52817 -
大模型
+關注
關注
2文章
3496瀏覽量
5031 -
LLM
+關注
關注
1文章
341瀏覽量
1272
原文標題:面向邊緣側LLM推理,后摩智能與北京大學等高校合作成果獲 ISCA 2025 最佳論文
文章出處:【微信號:后摩智能,微信公眾號:后摩智能】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
九聯科技榮獲2025 CTTA聯盟合作伙伴市場表現獎泛智能終端類銀獎
上海貝嶺榮獲2025金輯獎最佳技術實踐應用獎
軒轅智駕榮獲2025金輯獎最佳技術實踐應用獎
愛芯元智榮獲2025金輯獎最佳技術實踐應用獎
奧比中光3D視覺技術賦能IROS 2025研究成果
華為攜手AIS斬獲FutureNet Asia 2025最佳網絡AI解決方案獎
研華邊緣AI系統MIC-ATL3S榮獲CEC 2025年度最佳產品獎
斑馬技術榮獲2025亞洲最佳雇主品牌獎
智芯公司榮獲ICEPT 2025優秀論文獎
Nullmax端到端自動駕駛最新研究成果入選ICCV 2025

后摩智能與高校合作研究成果榮獲ISCA 2025最佳論文獎
評論