国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

澎峰科技發布大模型推理引擎PerfXLLM

perfxlab ? 來源:未知 ? 2023-11-25 15:35 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

自從2020年6月OpenAI發布chatGPT之后,基于Transformer網絡結構的語言大模型(LLM)引發了全世界的注意與追捧,成為了人工智能領域的里程碑事件。

但大模型推理所需要的巨額開銷也引發了相關研究者的關注。如何高效地進行推理,并盡可能地減少成本,從而促進大模型應用的落地成為了目前的關鍵問題。

于是,澎峰科技研發了一款大模型推理引擎—PerfXLLM,并且已經在高通驍龍8Gen2平臺實現了應用。接下來將分為四個部分進行介紹,第一部分將介紹PerfXLLM的整體架構設計,第二部分將展示手機端的性能表現,第三部分將詳細地闡述手機端的推理優化方案,最后在第四部分將介紹PerfXLLM的未來規劃。

一、PerfXLLM整體架構
目前大模型推理過程主要放在服務器或者云上進行處理。用戶發出請求,服務器進行響應,通過GPU等高性能計算部件完成推理計算,并通過網絡將結果傳輸給用戶。而隨著移動端設備硬件能力的不斷進步,并且用戶原始數據可能存在敏感隱私信息導致對安全問題有所顧慮,大模型在移動端的應用和落地也成為了實際需求之一。為了兼顧兩部分的需求,PerfXLLM設計上采用了云端一體的架構理念

wKgaomVhpNKAdcxlAAHerlLWLUA217.png

如上圖所示,當模型經過解析量化之后被PerfXLLM的推理引擎加載至內存中。不管是云側還是端側都是調用同樣的一套推理引擎代碼。有所區別的地方在于云側需要進行額外的Serving模塊,從而獲得更高的硬件利用率和QPS響應。再聚焦到底層Kernel,PerfXLLM中開發了一套針對大模型推理的算子庫,可以支持GPU、CPU等多種硬件設備。

二、PerfXLLM應用在手機端

目前,PerfXLLM針對高通驍龍8Gen2芯片進行了定制優化,高通8Gen2芯片進行了定制優化,對LlaMA模型采用了AWQ的int4量化方法,并為模型開發了PerfXChat APP。生成速度為6.7 token/s。模型內存占用為3.7GB。而llama.cpp的生成速度僅為3.2 token/s。

具體而言,通過芯片上的Andreno GPU進行加速,使用了OpenCL編程模型。首先對LlaMA模型進行int4量化,所采用的方式是AWQ量化方法。而后針對LlaMA模型中最耗時的Kernel進行了優化。手機端的輸入token和生成token較少時,模型主要瓶頸在于GEMM算子和GEMV算子,研發團隊對這兩個算子進行了手工調優。模型使用效果如下。

wKgaomVhpNKAW5faAABzdlK4fO8672.png

三、手機端推理優化方案介紹

由于手機端的硬件性能與服務器端差距較大,因而在手機端如何將大模型運行起來,并帶給用戶流暢的使用體驗并不是一件容易的事情。為了對手機端的大模型推理進行優化,PerfXLLM目前主要采用的手段有低精度量化、算子融合以及核心算子調優

3.1.低精度量化

低精度量化指的是將更高精度的數據表示類型轉化成低精度的數據表示類型來加快計算過程。常用的低精度量化有fp16、int8、int4等。通過低精度的量化,可以減少訪存開銷和內存空間,通過特殊計算單元加快運算。因而可以獲得比原精度更高的性能表現。PerfXLLM需要將7B的模型運行在手機上。如果是fp16的模型,則需要大概14GB的內存占用。但是目前市面上手機內存一般不超過16GB,再減去系統本身所需要的內存占用以及其他APP可能需要的內存空間,必須使用低精度量化才能滿足。

PerfXLLM采用的是AWQ量化方法,只對權重進行量化對于fp16的模型參數,將其量化成int4類型,內存占用減少到原來的1/4。所采用的group_size為128,只需要額外存儲1%左右的scale和zero參數。

wKgaomVhpNKAWqjlAAMz5QXzJbk176.png

3.2.算子融合

算子融合是將多個算子融合成一個,從而減少中間結果的數據讀取和寫入操作,并且也能有效地減少Kernel launch所需要的開銷。為了提高推理速度,PerfXLLM進行的算子融合操作主要體現在三個部分。第一部分是將殘差網絡的加法操作和歸一化操作進行融合,避免了中間結果在全局內存中的搬運;第二部分是將生成QKV的三次矩陣乘操作融合成一次,使用更大維度的矩陣乘法操作,從而更充分地利用硬件性能;第三部分是將self attention中的操作全部融合成一個算子,這些操作包含針對QK的旋轉編碼,QKV的兩次矩陣乘法以及中間的Softmax操作。具體的示意圖如下。

wKgaomVhpNOAJRSOAAIK2Hdzed0213.png

3.3.核心算子調優

語言大模型中所需要的算子較少,并且絕大部分性能開銷都集中在1-2個算子上,因而針對核心算子的細致調優便顯得尤為關鍵。在手機端,當生成token數量較少時,Attention相關算子的耗時占比非常少,而GEMM(通用矩陣乘法)類的算子耗時幾乎占據了整個推理過程。對于大模型推理而言,一般會分為兩個過程。在第一個過程中,輸入的token數量大于1,對應的算子即GEMM。第二個過程中,輸入的token數量恒定為1,對應的算子即GEMV(矩陣向量乘法)。因此,推理優化的核心問題在于如何提高GEMM和GEMV的性能。PerxLLM對這兩個算子進行了細致的優化。

1)針對GEMM算子。首先介紹GEMM算子的定義,給定矩陣A和B,其維度分別為[m, k]和[k,n],將兩者相乘得到矩陣C,維度為[m, n]。根據輸入token數量的不同,PerfXLLM將其分為兩種情況進行優化。當輸入token數量較少時,矩陣B是一個高瘦矩陣,GEMM變成訪存密集型算子。當輸入token數量較多時,GEMM是一個計算密集型算子。針對兩種不同的情況,PerfXLLM采用了兩種不同的分塊模式,將所需要的數據放置在共享內存之中,以盡可能地減少對全局內存的數據讀取。此外,采用了向量化訪存來提高訪存效率,通過循環展開來避免流水線阻塞提高指令并行度,進行參數調優來獲得更好的并行能力和分塊配置參數。具體的性能表現如下。固定M為12288,K為4096,N變化。

wKgaomVhpNOAP1dfAAG-cjcQtPM504.png

2)針對GEMV算子。需要說明的是,GEMV可以視作GEMM的一種變體,當B矩陣的n等于1時,則GEMM轉換為GEMV算子。GEMV是一個典型的訪存密集型算子,其優化核心在于如何提高訪存效率,并掩蓋計算所需要的開銷。PerfXLLM通過向量化訪存來提高訪存效率,通過循環展開來避免流水線阻塞提高指令并行度。并且針對int4類型的GEMV,通過共享內存來存儲zero和scale來減少對全局內存的數據訪問。此外,對A矩陣的兩個維度進行分塊來提高并行性。使用Image類型來提高對于B向量的訪存性能。

以上一些披露的信息,表明了PerfXLLM已經完成了整個計算系統架構的設計,并將緊密跟隨大模型算法的更迭速度,這彌補了計算芯片迭代慢的弊端(>2年)。

四、未來規劃

4.1.更多的模型支持

4.2.支持更多的硬件

4.3.性能優化

4.4.框架優化

歡迎聯系我們wangjh@perfxlab.com。一起探索大模型的軟件基礎建設。


原文標題:澎峰科技發布大模型推理引擎PerfXLLM

文章出處:【微信公眾號:澎峰科技PerfXLab】歡迎添加關注!文章轉載請注明出處。


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • RISC-V
    +關注

    關注

    48

    文章

    2887

    瀏覽量

    52938
  • 澎峰科技
    +關注

    關注

    0

    文章

    82

    瀏覽量

    3699

原文標題:澎峰科技發布大模型推理引擎PerfXLLM

文章出處:【微信號:perfxlab,微信公眾號:perfxlab】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    LLM推理模型是如何推理的?

    這篇文章《(How)DoReasoningModelsReason?》對當前大型推理模型(LRM)進行了深刻的剖析,超越了表面的性能宣傳,直指其技術本質和核心局限。以下是基于原文的詳細技術原理、關鍵
    的頭像 發表于 01-19 15:33 ?480次閱讀
    LLM<b class='flag-5'>推理模型</b>是如何<b class='flag-5'>推理</b>的?

    科技最新推出Deep Fusion DF35智算一體機

    在人工智能加速落地的今天,企業部署大模型面臨成本、性能與數據安全的三重挑戰。科技最新推出的Deep Fusion DF35智算一體機,以29000元起的突破性定價,將Qwen3-Next 80B FP16精度
    的頭像 發表于 10-13 16:51 ?1741次閱讀
    <b class='flag-5'>澎</b><b class='flag-5'>峰</b>科技最新推出Deep Fusion DF35智算一體機

    NVIDIA Nemotron Nano 2推理模型發布

    NVIDIA 正式推出準確、高效的混合 Mamba-Transformer 推理模型系列 NVIDIA Nemotron Nano 2。
    的頭像 發表于 08-27 12:45 ?1777次閱讀
    NVIDIA Nemotron Nano 2<b class='flag-5'>推理模型</b><b class='flag-5'>發布</b>

    科技完成OpenAI最新開源推理模型適配

    科技現已完成 OpenAI 最新開源推理模型 gpt-oss-20b 在 DeepFusion 大模型一體機上的原生適配與優化,用戶可一鍵啟用這顆“小而強悍”的新
    的頭像 發表于 08-14 11:34 ?1402次閱讀

    積算科技上線赤兔推理引擎服務,創新解鎖FP8大模型算力

    模型輕量化部署方案。用戶通過遠程算力平臺預置的模型鏡像與AI工具,僅需50%的GPU算力即可解鎖大模型推理、企業知識庫搭建、智能體開發,加速大模型
    的頭像 發表于 07-30 21:44 ?904次閱讀

    螞蟻數科正式發布金融推理模型

    7月26日,以“智能時代,同球共濟”為主題的2025世界人工智能大會在上海開幕;亮點很多。我們看到在世界人工智能大會論壇上,螞蟻數科正式發布了金融推理模型Agentar-Fin-R1,金融
    的頭像 發表于 07-28 16:36 ?647次閱讀

    中國智能計算產業聯盟攜手科技走進山東省政府

    近日?,中國智能計算產業聯盟攜手科技走進山東省政府,圍繞大模型應用創新與算力效能提升,與山東省政府、濟南市政府、歷城區政府、國家超算濟南中心的領導專家進行了深度座談。雙方聚焦大模型
    的頭像 發表于 07-25 09:45 ?710次閱讀

    信而泰×DeepSeek:AI推理引擎驅動網絡智能診斷邁向 “自愈”時代

    DeepSeek-R1:強大的AI推理引擎底座DeepSeek是由杭州深度求索人工智能基礎技術研究有限公司開發的新一代AI大模型。其核心優勢在于強大的推理
    發表于 07-16 15:29

    模型推理顯存和計算量估計方法研究

    隨著人工智能技術的飛速發展,深度學習大模型在各個領域得到了廣泛應用。然而,大模型推理過程對顯存和計算資源的需求較高,給實際應用帶來了挑戰。為了解決這一問題,本文將探討大模型
    發表于 07-03 19:43

    科技PerfXCloud通過湖南第二批生成式人工智能服務登記

    近日,湖南省委網信辦公布第二批生成式人工智能服務登記審核結果。全省僅有兩家企業通過本次登記審核:科技PerfXCloud(登記編號:Hunan-PerfXCloud-20250523S0004)、湘財證券智能問答助手大模型
    的頭像 發表于 06-03 10:52 ?901次閱讀

    Imagination與科技攜手推動GPU+AI解決方案,共拓計算生態

    的深度融合展開合作。雙方將結合 Imagination 領先的 GPU IP 技術與科技在 AI 模型壓縮與性能優化方面的軟硬協同能力,共同開拓面向 AI 行業應用的計算解決方案,推動國產計算生態
    發表于 05-21 09:40 ?1216次閱讀

    Imagination與科技攜手推動GPU+AI解決方案,共拓計算生態

    結合Imagination領先的GPUIP技術與科技在AI模型壓縮與性能優化方面的軟硬協同能力,共同開拓面向AI行業應用的計算解決方案,推動國產計算生態的繁榮
    的頭像 發表于 05-20 08:33 ?930次閱讀
    Imagination與<b class='flag-5'>澎</b><b class='flag-5'>峰</b>科技攜手推動GPU+AI解決方案,共拓計算生態

    洲明科技發布勃朗畫質引擎UF4

    作為亞太地區專業視聽領域的年度盛會Infocomm China始終是技術風向的標桿,展會期間,洲明科技發布“勃朗畫質引擎”——UF4,重磅亮相EB1-01展位,帶來一場顛覆視覺體驗的科技盛宴。
    的頭像 發表于 04-19 15:52 ?1191次閱讀

    詳解 LLM 推理模型的現狀

    領域的最新研究進展,特別是自DeepSeekR1發布后興起的推理時間計算擴展相關內容。在LLM中實施和改進推理簡單來說,基于LLM的推理模型是一種旨在通過生成中間
    的頭像 發表于 04-03 12:09 ?1610次閱讀
    詳解 LLM <b class='flag-5'>推理模型</b>的現狀

    使用OpenVINO?推理引擎進行推理時,如何更改模型布局?

    無法為一系列網絡準備輸入。 第一個模型的輸出在 CHW 布局中,但第二個模型的輸入在 NCHW 布局中。
    發表于 03-06 07:21