国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

PowerVR上的LLM加速:LLM性能解析

穎脈Imgtec ? 2025-12-10 08:34 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

作者:Alex Pim,Imagination 軟件架構Fellow

Imagination,我們致力于加速大語言模型在日常設備上的運行。在本系列關于大語言模型性能與加速的兩篇博客的首篇中,我們將介紹關鍵性能指標:首次生成Token時間(TTFT)與Token間延遲(ITL)。在下一篇文章中,我們將分享如何在Imagination GPU上實現高效的Llama.cpp推理。

若您看過谷歌的“AI概覽”或體驗過Word里的詞匯預測功能,那便是LLM在發揮作用。它們基于Transformer網絡構建,而Transformer使用注意力機制(attention)來聚焦輸入中最相關的部分——就像你在觀看一場足球比賽時,會本能地盯著帶球的球員,而不是場上另外21位球員。LLM的神奇之處在于,通過對概率的建模,它們能夠捕捉到某種程度上的人類思維模式,因此在各種應用中都具有巨大的價值。

挑戰在于這一切都需要強大的計算能力。LLM依賴大規模矩陣運算,這類運算要求高但高度并行——換言之,正是GPU的完美用武之地。

閱讀白皮書《AI處理器的真正本質》可了解GPU為何能完美勝任高度并行任務。

正因如此,包括基于PowerVR架構的Imagination GPU在內的圖形處理器,在提升模型運行速度與效率方面發揮著關鍵作用——尤其在功耗與性能至關重要的移動及邊緣設備領域。


加速大語言模型推理

大語言模型(LLMs)通過提取先前Token的上下文窗口來生成文本,并預測序列中的下一個Token。當首次提交提示時,模型必須處理上下文窗口中的所有Token,這可能需要大量計算資源。模型生成的每個新Token都會附加到上下文窗口中的先前Token之后:這是一種自回歸模型。

ff3f76be-d55f-11f0-8ce9-92fbcf53809c.png

隨著每個新生成的token,推理速度將逐漸變慢。

為提升效率,框架常采用鍵值緩存機制,將先前處理過的token的中間結果存儲其中。這種方法避免了冗余計算,顯著加速了推理過程,使大語言模型即使在普通硬件上也能實際應用。同時,當新token生成時,該機制能使執行時間保持近似恒定。

ff4e02f6-d55f-11f0-8ce9-92fbcf53809c.png

由于KV緩存機制,大語言模型通常以兩種截然不同的模式運行:

預填充模式:模型處理整個token序列并初始化緩存。該階段涉及大規模矩陣乘法運算,通常受限于GPU的計算吞吐量。

解碼模式:復用緩存結果生成后續token。由于跳過前期計算,該模式速度顯著提升。其依賴矩陣-向量乘法運算,通常受限于GPU內存帶寬(用于流式傳輸權重和激活值)。

兩種模式在用戶體驗和硬件資源消耗方面存在差異,因此應分別采用專屬性能指標進行評估。


LLM性能指標

討論LLM部署性能時,主要涉及兩項指標:

首次token生成時間(TTFT)——預填充模式下執行計算任務所需時間

Token間延遲(ITL)——解碼模式下執行計算任務所需時間


首次生成token時間(Time to First Token)

TTFT指標指大語言模型生成首個輸出token所需的時間,此時模型必須已處理完全部用戶輸入提示(即預填充階段完成)。

“首次生成Token的時間(Time to First Token)在大語言模型應用于汽車場景或交互式應用中通常非常重要;因為人類已經習慣了以自己的說話速度被‘聽見’。如果一個數字助手或應用程序的響應速度達不到人與人交流時的反應速度,那么用戶的整體‘體驗’就會開始下降。”

試想若在谷歌搜索時輸入問題卻需等待數十秒才能獲得答案——這在當今標準下相當令人沮喪(盡管我們中有些人曾經歷過從磁帶加載電腦游戲的漫長等待)。

因此無論是數據中心部署還是邊緣計算場景,GPU供應商面臨的核心挑戰在于:即使在功耗受限或網絡延遲高的環境下,仍需為用戶提供迅捷的首次響應。

具體而言,大型語言模型(如Llama-3.2-3b)要生成輸入查詢的首個token,需處理大量矩陣乘法運算(下表所示),其中參數N代表用戶輸入token數量(此例為13)。以用戶提示詞“建站只需10步:”為例:

M: 1024, K: 3072, N: 13

M: 128, K: 32, N: 13

M: 3072, K: 3072, N: 13

M: 3072, K: 8192, N: 13

M: 32, K: 128, N: 13

M: 8192, K: 3072, N: 13

表1 - LLAMA-3.2-3B型號典型GEMM M、K和N尺寸

llama.cpp中的矩陣乘法運算執行如下矩陣乘法:

CT= A * BT

這意味著矩陣C (NxM)的計算方式為A(M*K) * B(N*K)。值得注意的是,C和B均為轉置矩陣,這意味著轉置矩陣的元素相對于原始矩陣沿對角線方向進行了交換。

在LLM預填充階段所需的矩陣乘法運算中,存在若干較大維度的矩陣操作——這正是PowerVR GPU大顯身手的環節!這些矩陣乘法運算具有獨立性且交互需求極低,與GPU的SIMT架構所具備的超大規模并行特性高度契合。

模型生成首個輸出token前需執行多次上述矩陣乘法迭代,而矩陣運算耗時直接決定了用戶等待模型開始輸出所需的時間。


Token間延遲(Inter-Token Latency)

衡量大語言模型性能的第二個指標是“Token間延遲(Inter-Token Latency)”,其含義非常直接:即模型生成一個新Token所需的時間,或者說模型在逐個生成輸出時,兩個Token之間的間隔時間。

這個過程與處理用戶輸入提示(prompt)的過程略有不同,因為它涉及的是矩陣-向量(matrix-vector)乘法,而不是矩陣-矩陣(matrix-matrix)乘法;并且由于上一節提到的K-V緩存技術,這一階段的計算強度大幅降低。

在生成(或解碼)階段,數學操作是一系列矩陣-向量乘法,其中M、K、N中的N始終為1,而上一輪生成的Token(對應的向量)會作為單一輸入向量,進入下一層的一組矩陣-向量乘法中。

加速矩陣-向量乘法可以在GPU上實現,但由于其計算量相對較低,在GPU上反而容易受到內存帶寬的限制,這也是為什么LLM的decode階段通常可以在內存帶寬限制較小的CPU上執行。

普遍認為,在LLM的解碼階段,GPU較難發揮顯著優勢;然而,如果部署芯片(SoC)的主CPU負載較高,將解碼階段卸載到GPU仍然具有價值。

M: 128, K: 32, N: 1

M: 1024, K: 3072, N: 1

M: 3072, K: 3072, N: 1

M: 3072, K: 8192, N: 1

M: 32, K: 128, N: 1

M: 8192, K: 3072, N: 1

表2 - LLAMA-3.2-3B模型典型GEMV計算


結語

至此,我們關于在PowerVR GPU等邊緣設備上加速大型語言模型推理的兩篇博客系列已完成第一部分。我們介紹了“首次生成token時間”和“Token間延遲”的概念,以及它們如何應用于大語言模型計算的兩個主要階段。

在第二部分中,我們將剖析Imagination公司為適配PowerVR GPU架構對Llama.cpp應用程序所做的代碼修改——涵蓋Vulkan接口與默認OpenCL實現兩種方案。最后將重點分析我們自主優化的OpenCL內核,這些內核專為釋放PowerVR GPU的高利用率而設計,在采用F16量化權重格式時,能顯著提升矩陣乘矩陣與矩陣-向量乘法運算的性能表現。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    90

    文章

    38414

    瀏覽量

    297711
  • powervr
    +關注

    關注

    0

    文章

    99

    瀏覽量

    31508
  • LLM
    LLM
    +關注

    關注

    1

    文章

    341

    瀏覽量

    1272
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    對比解碼在LLM的應用

    為了改進LLM的推理能力,University of California聯合Meta AI實驗室提出將Contrastive Decoding應用于多種任務的LLM方法。實驗表明,所提方法能有效改進LLM的推理能力。讓我們走進
    發表于 09-21 11:37 ?1159次閱讀
    對比解碼在<b class='flag-5'>LLM</b><b class='flag-5'>上</b>的應用

    低比特量化技術如何幫助LLM提升性能

    針對大語言模型 (LLM) 在部署過程中的性能需求,低比特量化技術一直是優化效果最佳的方案之一,本文將探討低比特量化技術如何幫助 LLM 提升性能,以及新版 OpenVINO 對于低比
    的頭像 發表于 12-08 15:26 ?2204次閱讀
    低比特量化技術如何幫助<b class='flag-5'>LLM</b>提升<b class='flag-5'>性能</b>

    Arm KleidiAI助力提升PyTorchLLM推理性能

    熱門的深度學習框架尤為突出,許多企業均會選擇其作為開發 AI 應用的庫。通過部署 Arm Kleidi 技術,Arm 正在努力優化 PyTorch,以加速在基于 Arm 架構的處理器運行 LLM
    的頭像 發表于 12-03 17:05 ?1977次閱讀
    Arm KleidiAI助力提升PyTorch<b class='flag-5'>上</b><b class='flag-5'>LLM</b>推理<b class='flag-5'>性能</b>

    如何在魔搭社區使用TensorRT-LLM加速優化Qwen3系列模型推理部署

    TensorRT-LLM 作為 NVIDIA 專為 LLM 推理部署加速優化的開源庫,可幫助開發者快速利用最新 LLM 完成應用原型驗證與產品部署。
    的頭像 發表于 07-04 14:38 ?1801次閱讀

    無法在OVMS運行來自Meta的大型語言模型 (LLM),為什么?

    無法在 OVMS 運行來自 Meta 的大型語言模型 (LLM),例如 LLaMa2。 從 OVMS GitHub* 存儲庫運行 llama_chat Python* Demo 時遇到錯誤。
    發表于 03-05 08:07

    LLM性能的主要因素

    現在是2023年5月,截止目前,網絡已經開源了眾多的LLM,如何用較低的成本,判斷LLM的基礎性能,選到適合自己任務的LLM,成為一個關鍵
    的頭像 發表于 05-22 15:26 ?2584次閱讀
    <b class='flag-5'>LLM</b><b class='flag-5'>性能</b>的主要因素

    深度解讀各種人工智能加速器和GPULLM性能特征

    在不同的硬件平臺上評估LLM對于理解傳統和非傳統體系結構的能力和局限性至關重要。先前的工作已經在超級計算機上研究了LLM,并使用傳統的深度學習基準來提供對其能力的詳細評估與分析。
    發表于 10-25 11:49 ?1550次閱讀
    深度解讀各種人工智能<b class='flag-5'>加速</b>器和GPU<b class='flag-5'>上</b>的<b class='flag-5'>LLM</b><b class='flag-5'>性能</b>特征

    LLM推理加速新范式!推測解碼(Speculative Decoding)最新綜述

    這個問題隨著LLM規模的增大愈發嚴重。并且,如下左圖所示,目前LLM常用的自回歸解碼(autoregressive decoding)在每個解碼步只能生成一個token。這導致GPU計算資源利用率
    的頭像 發表于 01-29 15:54 ?5910次閱讀
    <b class='flag-5'>LLM</b>推理<b class='flag-5'>加速</b>新范式!推測解碼(Speculative Decoding)最新綜述

    100%在樹莓派上執行的LLM項目

    ChatGPT的人性口語化回復相信許多人已體驗過,也因此掀起一波大型語言模型(Large Language Model, LLM)熱潮,LLM即ChatGPT背后的主運作技術,但LLM運作需要龐大運算力,因此目前多是在云端(Cl
    的頭像 發表于 02-29 16:29 ?2381次閱讀
    100%在樹莓派上執行的<b class='flag-5'>LLM</b>項目

    什么是LLMLLM的工作原理和結構

    隨著人工智能技術的飛速發展,大型語言模型(Large Language Model,簡稱LLM)逐漸成為自然語言處理(NLP)領域的研究熱點。LLM以其強大的文本生成、理解和推理能力,在文本
    的頭像 發表于 07-02 11:45 ?1.8w次閱讀

    LLM模型的應用領域

    在本文中,我們將深入探討LLM(Large Language Model,大型語言模型)的應用領域。LLM是一種基于深度學習的人工智能技術,它能夠理解和生成自然語言文本。近年來,隨著計算能力的提高
    的頭像 發表于 07-09 09:52 ?1910次閱讀

    LLM大模型推理加速的關鍵技術

    LLM(大型語言模型)大模型推理加速是當前人工智能領域的一個研究熱點,旨在提高模型在處理復雜任務時的效率和響應速度。以下是對LLM大模型推理加速關鍵技術的詳細探討,內容將涵蓋模型壓縮、
    的頭像 發表于 07-24 11:38 ?2929次閱讀

    什么是LLM?LLM在自然語言處理中的應用

    所未有的精度和效率處理和生成自然語言。 LLM的基本原理 LLM基于深度學習技術,尤其是變換器(Transformer)架構。變換器模型因其自注意力(Self-Attention)機制而聞名,這種機制使得模型能夠捕捉文本中的長距離依賴關系。
    的頭像 發表于 11-19 15:32 ?4555次閱讀

    小白學大模型:構建LLM的關鍵步驟

    隨著大規模語言模型(LLM)在性能、成本和應用前景的快速發展,越來越多的團隊開始探索如何自主訓練LLM模型。然而,是否從零開始訓練一個LLM
    的頭像 發表于 01-09 12:12 ?1597次閱讀
    小白學大模型:構建<b class='flag-5'>LLM</b>的關鍵步驟

    LM Studio使用NVIDIA技術加速LLM性能

    隨著 AI 使用場景不斷擴展(從文檔摘要到定制化軟件代理),開發者和技術愛好者正在尋求以更 快、更靈活的方式來運行大語言模型(LLM)。
    的頭像 發表于 06-06 15:14 ?874次閱讀
    LM Studio使用NVIDIA技術<b class='flag-5'>加速</b><b class='flag-5'>LLM</b><b class='flag-5'>性能</b>