国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

摩爾線程Round Attention優化AI對話

摩爾線程 ? 來源:摩爾線程 ? 2025-03-06 09:39 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

【編者按】摩爾線程科研團隊發布研究成果《Round Attention:以輪次塊稀疏性開辟多輪對話優化新范式》,該方法端到端延遲低于現在主流的Flash Attention推理引擎,kv-cache 顯存占用節省55%到82% 。

近年來,大型語言模型的進步推動了語言模型服務在日常問題解決任務中的廣泛應用。然而,長時間的交互暴露出兩大顯著挑戰:首先,上下文長度的快速擴張因自注意力機制的平方級復雜度而導致巨大的計算開銷;其次,盡管鍵值( KV )緩存技術能緩解冗余計算,但其顯著增加的 GPU 內存需求導致推理批處理規模受限及 GPU 利用率低下。摩爾線程提出 Round Attention 用于解決這些問題。

wKgZO2fI_O-AWQPwAABaa_segco266.png

01論文主要貢獻

以輪次為分析單元研究 Attention 規律:Round Attention 專為多輪對話場景推理需求設計,以輪次為自然邊界劃分 KV 緩存,研究發現輪次粒度的 Attention 分布存在兩個重要規律。

提出 Round Attention inference pipeline :基于發現的兩個規律提出 Round Attention ,將稀疏性從 Token 級提升至塊級,選取最相關的塊參與 attention 計算,減少 attention 計算耗時,并將不相關的塊 offloadCPU內存節省顯存占用。該 pipeline 在保持推理精度的情況下,減少了推理耗時,降低了顯存占用。

02核心創新:輪次塊稀疏性的三大優勢

自然邊界的語義完整性

問題洞察:多輪對話中,用戶意圖常以輪次為單位呈現(如“推薦餐廳”→“詢問人均消費”→“確認地址”)。

解決方案:Round Attention 將 KV 緩存按輪次(對)切分為獨立塊,每個塊完整包含一輪對話的提問與回答,確保模型在計算注意力時能直接關聯完整語義單元。

分水嶺層的注意力穩定性

關鍵發現:通過分析 SharedGPT 數據集,發現主流開源模型(如 Qwen2.5B )在特定“分水嶺層”后,各層對歷史輪次的注意力分布高度相似,且同一輪內問題與答案的注意力模式一致。

技術價值:僅需在分水嶺層一次性篩選 Top-K 相關輪次,即可覆蓋后續所有層的計算需求,相比其他工作逐層動態路由,有效減少 Top-K 計算開銷。

端到端的存儲與傳輸優化

存儲設計:將每輪 KV 緩存按分水嶺層拆分為下層塊( b_m )與上層塊( u_m ),以輪次為單位整體存儲于 CPU 內存,減少 GPU 內存占用。

傳輸效率:相比其他 kv cache offload 工作以 Token 級細粒度傳輸, Round Attention 以輪次為單位批量搬運 KV 緩存,單次 H2D 操作即可完成,降低 H2D 操作帶來的延遲。

03效果

端到端延遲低于現在主流的 Flash Attention 推理引擎, kv-cache 顯存占用節省 55% 到 82% ,并且在主觀評測和客觀評測兩個數據集上模型推理準確率基本未受影響。

wKgZPGfI_O-AcZSGAAAnn-oYOr0288.png

wKgZPGfI_O-AKEHxAAJyGnIc7S8703.png

04未來展望:開源協作與技術融合

摩爾線程 Round Attention 期待與開源社區深度協同,繼續探索稀疏注意力可能的優化工作,共同攻克 LLM 落地中的效率與成本難題。該論文已發布在 arXiv :

關于摩爾線程

摩爾線程成立于2020年10月,以全功能GPU為核心,致力于向全球提供加速計算的基礎設施和一站式解決方案,為各行各業的數智化轉型提供強大的AI計算支持。

我們的目標是成為具備國際競爭力的GPU領軍企業,為融合人工智能和數字孿生的數智世界打造先進的加速計算平臺。我們的愿景是為美好世界加速。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • gpu
    gpu
    +關注

    關注

    28

    文章

    5194

    瀏覽量

    135422
  • 內存
    +關注

    關注

    9

    文章

    3209

    瀏覽量

    76353
  • 語言模型
    +關注

    關注

    0

    文章

    571

    瀏覽量

    11310
  • 摩爾線程
    +關注

    關注

    2

    文章

    279

    瀏覽量

    6449

原文標題:技術研究 | 摩爾線程 Round Attention:以輪次塊稀疏性開辟多輪對話優化新范式

文章出處:【微信號:moorethreads,微信公眾號:摩爾線程】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    國產顯卡摩爾線程MTT S30講評

    摩爾線程
    國產計算機小秦
    發布于 :2024年03月20日 16:20:37

    摩爾線程正式加入openKylin開源社區

    近日,摩爾線程智能科技(北京)有限責任公司(簡稱:摩爾線程)簽署了openKylin社區 CLA(Contributor License Agreement 貢獻者許可協議),正式加入
    的頭像 發表于 09-14 11:57 ?2248次閱讀

    摩爾線程計劃本周完成“崗位優化

     11月6日,摩爾線程的創始人兼CEO張建中在一份全員信中宣布了公司的人員優化計劃,預計將在本周內完成。張建中表示,這是公司發展的必要選擇,盡管艱難,但希望大家能夠理解。他在信中指出,在這個充滿挑戰和機遇的時刻,中國的GPU行業
    的頭像 發表于 11-07 16:08 ?1958次閱讀

    國內GPU龍頭!摩爾線程本周人員優化

    據了解,摩爾線程此次優化調整主要涉及組織架構和人員績效方面。在組織架構方面,公司設立了兩個戰略部門,分別是AISG(AI戰略組)和MCSG(元計算戰略組),以整合公司資源,推動產品技術
    的頭像 發表于 11-08 16:17 ?1687次閱讀

    國產摩爾線程顯卡驅動重磅升級!

    今日,摩爾線程正式發布版本號為v250.60的Windows驅動程序,著重對DirectX 11游戲性能進行了大幅優化
    的頭像 發表于 02-21 09:13 ?2304次閱讀
    國產<b class='flag-5'>摩爾</b><b class='flag-5'>線程</b>顯卡驅動重磅升級!

    摩爾線程與億景智聯戰略合作,共推生成式AI在高校的應用創新

    近日,摩爾線程與億景智聯達成戰略合作,聚焦于將先進的生成式AI技術應用于高校教育教學領域。
    的頭像 發表于 05-13 14:07 ?1856次閱讀
    <b class='flag-5'>摩爾</b><b class='flag-5'>線程</b>與億景智聯戰略合作,共推生成式<b class='flag-5'>AI</b>在高校的應用創新

    摩爾線程與師者AI攜手完成70億參數教育AI大模型訓練測試

    近日,國內知名的GPU制造商摩爾線程與全學科教育AI大模型“師者AI”聯合宣布,雙方已成功完成了一項重要的大模型訓練測試。此次測試依托摩爾
    的頭像 發表于 06-14 16:31 ?1320次閱讀

    摩爾線程與智譜AI完成大模型性能測試與適配

    近日,摩爾線程與智譜AI在人工智能領域開展了一輪深入的合作,共同對GPU大模型進行了適配及性能測試。此次測試不僅涵蓋了大模型的推理能力,還涉及了基于摩爾
    的頭像 發表于 06-14 16:40 ?2147次閱讀

    摩爾線程攜手東華軟件完成AI大模型推理測試與適配

    近日,摩爾線程與東華軟件云筑AI創新中心宣布,雙方已完成大模型推理測試與適配。依托摩爾線程的全功能GPU國產算力,東華軟件打造安全可信的基于
    的頭像 發表于 07-31 10:51 ?3608次閱讀

    摩爾線程GPU與超圖軟件大模型適配:共筑國產地理空間AI新生態

    10月24日,摩爾線程公司宣布與超圖軟件達成重要合作里程碑。經過雙方的嚴格測試,摩爾線程的MTT S/X系列全功能GPU已成功與超圖軟件最新發布的大模型系列產品完成兼容認證。  
    的頭像 發表于 10-24 11:29 ?2558次閱讀

    摩爾線程AI算力平臺AutoDL達成深度合作

    近日,摩爾線程與國內領先的AI算力平臺AutoDL宣布達成深度合作,雙方聯合推出面向個人開發者的“摩爾線程專區”,首次將國產GPU算力開放至
    的頭像 發表于 05-23 16:10 ?1721次閱讀

    摩爾線程AI工廠”:以系統級創新定義新一代AI基礎設施

    2025年7月25日,上海——在世界人工智能大會(WAIC 2025)開幕前夕,摩爾線程以“算力進化,精度革命”為主題舉辦技術分享會,并創新性提出“AI工廠”理念。摩爾
    發表于 07-28 10:34 ?2795次閱讀
    <b class='flag-5'>摩爾</b><b class='flag-5'>線程</b>“<b class='flag-5'>AI</b>工廠”:以系統級創新定義新一代<b class='flag-5'>AI</b>基礎設施

    摩爾線程AI工廠”:五大核心技術支撐,打造大模型訓練超級工廠

    2025年7月25日,上海——在世界人工智能大會(WAIC 2025)開幕前夕,摩爾線程以“算力進化,精度革命”為主題舉辦技術分享會,并創新性提出“AI工廠”理念。摩爾
    的頭像 發表于 07-28 11:28 ?4528次閱讀
    <b class='flag-5'>摩爾</b><b class='flag-5'>線程</b>“<b class='flag-5'>AI</b>工廠”:五大核心技術支撐,打造大模型訓練超級工廠

    全棧國產AI Coding上線:摩爾線程+硅基流動+智譜,強強聯合!

    摩爾線程今日正式推出AI Coding Plan 智能編程服務。作為首個基于國產全功能 GPU 算力底座構建的智能開發解決方案,該服務以 MTT S5000 強勁的全精度計算能力為核心驅動,融合硅
    的頭像 發表于 02-03 17:07 ?1432次閱讀
    全棧國產<b class='flag-5'>AI</b> Coding上線:<b class='flag-5'>摩爾</b><b class='flag-5'>線程</b>+硅基流動+智譜,強強聯合!

    摩爾線程正式開源TileLang-MUSA項目

    近日,摩爾線程正式開源TileLang-MUSA項目,實現對TileLang編程語言的完整支持。該項目已成功在摩爾線程多代全功能GPU上完成功能驗證與特性開發,旨在通過高層抽象與編譯器
    的頭像 發表于 02-11 16:57 ?1235次閱讀