国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

SC11 FP300 MLA算子融合與優化

算能開發者社區 ? 2025-06-27 14:32 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

DeepSeekV3的attention模塊采用了MLA(Multi-head Latent Attention,多頭潛注意力)結構,通過對attention過程中的Key和Value進行低秩聯合壓縮,降低推理過程中需要的KV cache,提升推理效率。MLA對attention過程中的Query也進行了低秩壓縮,可以減少訓練過程中激活的內存。

大模型的推理分為兩階段,處理所有輸入prompt并產生首個token的過程稱為prefill,此后至產生所有token結束推理的過程稱為decode,本文的MLA算子融合及優化特指decode過程。

MLA的計算過程比較復雜,包括下投影、上投影、attention和輸出投影,為了減少數據搬運和任務調度帶來的時間開銷,提升芯片效率,我們在SC11上,將上投影和attention過程融合成MLA大算子,如圖1所示。DeepSeekV3提供了兩種計算模式:na?ve和absorb,我們采用計算量更少的absorb方式實現MLA decode過程,步驟如下:

78750016-5320-11f0-986f-92fbcf53809c.png

788afe16-5320-11f0-986f-92fbcf53809c.png圖1-SC11 MLA decode融合算子示意圖

常用的attention并行部署方案有兩種,TP(Tensor Parallel,張量并行)和DP(Data parallel,數據并行)。TP將權重切分到多顆芯片,每顆芯片會重復加載KV cache。DP將數據按batch分配到多顆芯片,每顆芯片處理不同batch的數據,但會重復加載權重。實際應用過程中,可以根據權重和緩存的大小選擇并行部署方案,權重和緩存大小如表1所示。

表1 權重與緩存數據大小

789c0530-5320-11f0-986f-92fbcf53809c.png

#seqlen指所有batch數據序列長度總和。

在SC11部署DeepSeekV3模型時,由于應用場景中的權重數據多于KV cache數據,所以MLA階段采用TP方案進行部署,即將Query、Key和Value的上投影權重矩陣按head切分,部署到四張SC11。DeepSeekV3的參數中,上投影權重有128頭,因此每張板卡處理32頭。每顆芯片有多個核,上投影權重會繼續按head切分到多核。由于低秩的KV cache不包含head維度,無法對KV cache進行TP,為了充分利用多核優勢,我們對MLA的實現方式進行了探索,優化了不同batch數目和序列長度下的實現方案,如表2所示。

表2 MLA decode多核實現方案

78ad1bb8-5320-11f0-986f-92fbcf53809c.png

除了算子融合與動態調用優化后的實現方案,MLA的實現過程也采用了業界常用的Flash Attention和Page Attention等優化方法,進一步減少數據搬運和內存占用。在Page Attention過程中,我們采用兩塊buffer優化KV cache搬運,使得數據搬運和MLA計算同步進行,優化過程如圖2所示。圖中SDMA代表負責DDR和L2 SRAM之間或內部的數據搬運模塊,GDMA代表負責任意內存之間數據搬運的模塊,BDC代表負責數據計算的單元。

在時刻T0同時進行兩個操作:

SDMA將batch 0以page方式存儲的KV cache從DDR搬到L2 SRAM中的Buffer0,形成連續存儲的緩存數據;

GDMA將上投影權重從DDR搬到芯片的片上內存(local memory)。

在時刻T1同時進行三個操作:

SDMA將batch 1以page方式存儲的KV cache從DDR搬到L2 SRAM中的Buffer1,形成連續存儲的緩存數據;

GDMA將Buffer0中連續存儲的batch 0的KV cache數據從L2 SRAM搬到localmemory;

BDC對batch 0進行MLA計算。

時刻T2和T3的操作可依此類推。測試數據表明,在128 batch 512序列的decode過程,使用雙buffer優化page attention實現過程后,可以節省30%的推理時間。

78b6566a-5320-11f0-986f-92fbcf53809c.png圖2-雙buffer優化Page Attention實現過程

經過融合與優化后的MLA,助力了DeepSeekV3全流程的性能,當模型處理128 batch數據,每batch輸入序列長度為128,輸出序列長度為1024時,DeepSeekV3全流程在4卡SC11上能達到532 token/s。

作者:周文婧,陳學儒,溫舉發

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    91

    文章

    39755

    瀏覽量

    301359
  • 人工智能
    +關注

    關注

    1817

    文章

    50094

    瀏覽量

    265278
  • 大模型
    +關注

    關注

    2

    文章

    3648

    瀏覽量

    5179
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    FP7135V060-G1/FP7125替代物料pin to pin

    描述FP7125是在恒定關斷時間內工作的平均電流模式控制LED驅動器IC模式。FP7125不會產生峰均誤差,因此可以大大提高精度,LED電流的線路和負載調節,無需環路補償或高壓側電流感應。輸出LED
    發表于 03-04 10:46 ?0次下載

    探秘MLA1812NR壓敏電阻系列:汽車級表面貼裝的可靠之選

    探秘MLA1812NR壓敏電阻系列:汽車級表面貼裝的可靠之選 在電子工程師的日常設計工作中,為電路選擇合適的保護元件至關重要。今天,我們就來詳細了解一下Littelfuse的MLA
    的頭像 發表于 12-15 16:40 ?342次閱讀

    一文講清真相,臺灣遠翔FP6291為何要分成G11與G12?

    近期市場關注的FP6291型號變更(從G1到G11/G12)實為一項提升產品一致性的技術優化。本文旨在說明:分檔并非質量分級,而是通過精密測試對關鍵參數進行分類,使終端應用獲得更穩定的性能表現。G
    的頭像 發表于 12-11 17:43 ?1420次閱讀
    一文講清真相,臺灣遠翔<b class='flag-5'>FP</b>6291為何要分成G<b class='flag-5'>11</b>與G12?

    國產遠翔FP6291的G11和G12,到底有什么區別?

    近期市場關注的FP6291型號變更(從G1到G11/G12)實為一項提升產品一致性的技術優化。本文旨在說明:分檔并非質量分級,而是通過精密測試對關鍵參數進行分類,使終端應用獲得更穩定的性能表現
    的頭像 發表于 12-10 09:19 ?486次閱讀
    國產遠翔<b class='flag-5'>FP</b>6291的G<b class='flag-5'>11</b>和G12,到底有什么區別?

    【團購】獨家全套珍藏!龍哥LabVIEW視覺深度學習實戰課(11大系列課程,共5000+分鐘)

    (第10系列)、YOLOv8-Tiny工業優化版(第9系列),滿足產線端設備算力限制,模型推理速度提升300%。 LabVIEW生態整合 作為工業自動化領域主流開發環境,LabVIEW與深度學習的集成
    發表于 12-04 09:28

    【團購】獨家全套珍藏!龍哥LabVIEW視覺深度學習實戰課程(11大系列課程,共5000+分鐘)

    (第10系列)、YOLOv8-Tiny工業優化版(第9系列),滿足產線端設備算力限制,模型推理速度提升300%。 LabVIEW生態整合 作為工業自動化領域主流開發環境,LabVIEW與深度學習的集成
    發表于 12-03 13:50

    遠翔的FP6291的G11和G12,到底有什么區別?

    分檔≠分級、分檔 =精篩選 “要理解分檔,核心在于一個參數——“輸入限流值”。 遠翔的FP6291具有輸入限流功能,可通過對芯片的OC腳對地加電阻實現輸入限流可調功能。 分檔不是分級,G11與G12
    發表于 12-02 15:14

    FP137的三電阻配置技巧:如何根據不同應用場景優化增益參數?

    FP137是一款基于高側檢測原理的電流測量IC,其架構針對廣泛的電源應用場景進行了優化。它包括一個差分輸入放大器和一個帶有源輸出的MOSFET。有三個外部電阻,軌道電流信號可以很容易地轉換為IC輸出引腳的放大電壓信號。此外,還可以通過改變這一個外部電阻器的值來調整增益。
    的頭像 發表于 10-29 14:17 ?1723次閱讀
    <b class='flag-5'>FP</b>137的三電阻配置技巧:如何根據不同應用場景<b class='flag-5'>優化</b>增益參數?

    小白必讀:到底什么是FP32、FP16、INT8?

    網上關于算力的文章,如果提到某個芯片或某個智算中心的算力,都會寫:在FP32精度下,英偉達H100的算力大約為0.9PFlops。在FP16精度下,某智算中心的算力是6.7EFlops。在INT8
    的頭像 發表于 10-20 14:34 ?1290次閱讀
    小白必讀:到底什么是<b class='flag-5'>FP</b>32、<b class='flag-5'>FP</b>16、INT8?

    sc-1和sc-2能洗掉什么雜質

    半導體晶圓清洗工藝中,SC-1與SC-2作為RCA標準的核心步驟,分別承擔著去除有機物/顆粒和金屬離子的關鍵任務。二者通過酸堿協同機制實現污染物的分層剝離,其配方設計、反應原理及工藝參數直接影響芯片
    的頭像 發表于 10-13 11:03 ?1824次閱讀
    <b class='flag-5'>sc</b>-1和<b class='flag-5'>sc</b>-2能洗掉什么雜質

    UWB自動跟隨技術原理、算法融合優化和踩坑實錄

    UWB為什么是最靠譜的自動跟隨技術?原理是什么?需要做什么算法融合優化?我們在開發過程中踩過的坑。
    的頭像 發表于 08-14 17:45 ?1537次閱讀
    UWB自動跟隨技術原理、算法<b class='flag-5'>融合</b><b class='flag-5'>優化</b>和踩坑實錄

    進迭時空同構融合RISC-V AI CPU的Triton算子編譯器實踐

    Pytorch已能做到100%替換CUDA,國內也有智源研究院主導的FlagGems通用算子庫試圖構建起不依賴CUDA的AI計算生態,截至今日,FlagGems已進入Pyto
    的頭像 發表于 07-15 09:04 ?1840次閱讀
    進迭時空同構<b class='flag-5'>融合</b>RISC-V AI CPU的Triton<b class='flag-5'>算子</b>編譯器實踐

    鴻蒙應用px,vp,fp概念詳解

    傳統移動端開發方向,轉到鴻蒙應用開發方向。 前端開發同學對于開發范式很熟悉,但是對于工作流程和開發方式是會有不適感,其實移動應用開發與前端開發,最大的區別就在于UI適配和性能優化上了。 今天我們就來分析下鴻蒙中UI適配的規范與小竅門。 二、 鴻蒙中vp、px、fp 是什么
    的頭像 發表于 07-07 11:48 ?1364次閱讀
    鴻蒙應用px,vp,<b class='flag-5'>fp</b>概念詳解

    摩爾線程GPU原生FP8計算助力AI訓練

    近日,摩爾線程正式開源MT-MegatronLM與MT-TransformerEngine兩大AI框架。通過深度融合FP8混合訓練策略和高性能算子庫,這兩大框架在國產全功能GPU上實現了高效的混合
    的頭像 發表于 03-17 17:05 ?1517次閱讀
    摩爾線程GPU原生<b class='flag-5'>FP</b>8計算助力AI訓練

    SC2121、SC2161和SC2167解鎖高性能RDC國產替代方案

    SC2121、SC2161和SC2167解鎖高性能RDC國產替代方案
    的頭像 發表于 03-11 09:55 ?1553次閱讀
    <b class='flag-5'>SC</b>2121、<b class='flag-5'>SC</b>2161和<b class='flag-5'>SC</b>2167解鎖高性能RDC國產替代方案