国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

RISC-V CPU 上 3 倍推理加速!V-SEEK:在 SOPHON SG2042 上加速 14B LLM

算能開發者社區 ? 2025-08-05 14:01 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

關鍵詞:V-SEEK、LLM Inference Optimization、RISC-V、SOPHON SG2042、llama.cpp、NUMA Optimization

aef34156-71c1-11f0-9080-92fbcf53809c.png
  • V-SEEK: ACCELERATING LLM REASONING ON OPEN-HARDWARE SERVER-CLASS RISC-V PLATFORMS

近年來,大型語言模型(LLM)的指數級增長依賴于基于 GPU 的系統。然而,CPU 正逐漸成為一種靈活且成本更低的替代方案,尤其是在面向推理(inference,即模型已完成訓練、僅做預測的階段)和推理負載(reasoning workloads,指需要多步邏輯推導的預測任務)時。

RISC-V(一種開源、免授權、可自由定制的指令集架構)憑借開放且與廠商無關的 ISA(Instruction Set Architecture,指令集架構)在該領域迅速受到關注。

然而,面向 LLM 負載的 RISC-V 硬件及其配套軟件生態未完全成熟和流暢,原因是需要對特定領域進行調優。

本文旨在填補這一空白,聚焦于在 SOPHON SG2042 上優化 LLM 推理;SG2042 是首款商用、具備向量處理能力的多核 RISC-V CPU。

在兩個新近為推理優化的 SOTA(state-of-the-art,業界最佳)開源 LLM——DeepSeek R1 Distill Llama 8B 與 DeepSeek R1 Distill QWEN 14B——上,我們實現了:

  • token 生成(token generation,逐詞生成)4.32 / 2.29 token/s
  • 提示處理(prompt processing,又稱 prefill,把整段輸入一次性算完)6.54 / 3.68 token/s 的吞吐,相比我們的基線實現最高加速達 2.9× / 3.0×。

本文目錄

  • 本文目錄
  • 一、引言
  • 二、研究方法
    • 2.1 高性能 Kernel
    • 2.2 編譯器工具鏈
    • 2.3 模型映射優化
  • 三、實驗結果與分析
    • Kernel Scaling
    • 不同編譯器影響
    • NUMA 策略影響
    • 性能小結
  • 參考文獻

一、引言

超大規模云服務商(hyperscalers,例如 AWS)與 AI 部署公司(例如 OpenAI)通常使用 GPU 集群或專用加速器(如 TPU,Tensor Processing Unit)來加速 LLM 工作負載。然而,多核 CPU 加速 LLM 也已得到近期探索[2],因為它在硬件成本更低的同時提供了更高的靈活性,尤其適用于本地部署(on-premise)和低延遲邊緣服務器(edge servers)。

現有研究主要針對 x86 和 ARM,而基于靈活且開源的 RISC-V 指令集架構的多核芯片則相對未被充分探索 [1]。

為了填補這一空白,本工作將業界先進的 LLM 推理框架 llama.cpp [7] 適配并優化到首款商用的、通用型多核 RISC-V 平臺——SOPHON SG2042[1]。

在兩個新近開源、專為推理優化的模型(DeepSeek R1 Distill Llama 8B / QWEN 14B)上,我們相比基線 llama.cpp 實現最高實現了 token 生成 3.0×、提示處理 2.8× 的加速(在 4-bit 量化精度下),分別達到 4.32 / 2.29 與 6.54 / 3.68 token/s 的吞吐。

在 vanilla Llama 7B 上,我們實現 token 生成 6.63 token/s、提示處理 13.07 token/s,即相比基線實現加速 4.3× / 5.5×,并較 SG2042 上已報道的最佳結果 [8] 提升 1.65×,同時與成熟的 x86 CPU 推理性能具有競爭力

二、研究方法

為了探索在 RISC-V 服務器級平臺上優化 LLM 推理的可用選項,我們選定了 MILK-V Pioneer 作為目標平臺,其核心為 64 核 SOPHON SG2042 CPU,并配備 128 GB DRAM 內存。平臺框圖見圖 1-center。

af47ab06-71c1-11f0-9080-92fbcf53809c.png

我們識別出可以從三個方向著手解決問題的路徑,均在軟件層面,靈感來自其他架構上的相關工作 [5,6,3]:

2.1 高性能 Kernel

針對關鍵 LLM 層開發經過優化的、若支持則已量化的計算內核(kernels,指一段專門用于矩陣運算的底層代碼),充分利用硬件資源,同時兼顧其內存結構、流水線(pipeline,指令執行順序)和向量化能力

af47ab06-71c1-11f0-9080-92fbcf53809c.png

圖 1-right 給出了我們提出的內核的偽代碼:

  • 首先,將 fp32(32 位浮點)輸入(向量或瘦矩陣)量化為 int8(8 位整數);
  • 接著,執行兩層嵌套循環以完成 GEMV(General Matrix-Vector multiplication,通用矩陣-向量乘法)操作,其中外層循環按步長 2 遍歷輸入矩陣 A 的行,內層循環按步長 32 遍歷其列。
  • 列循環結束后,進行反量化(de-quantization,把整數還原回浮點數),結合 A 塊和 B 的縮放因子(scale factors)以生成輸出的 fp32 值。

這一新內核既利用了平臺的向量單元,又優化了數據局部性(data locality,數據盡量靠近計算單元,減少訪存延遲)。

2.2 編譯器工具鏈

選擇合適的編譯工具鏈,支持先進的優化 Pass(optimization passes,編譯器內部對代碼進行變換以提升性能的階段)并能利用現有 ISA 擴展。

我們的場景下,內核使用 Xuantie 分支的 GCC 10.4 編譯,因為只有該版本支持 Sophon SG2042 的硬件向量單元。而對于整個 llama.cpp 框架,我們考慮兩種替代方案:GCC 13.2 和 Clang 19(Xuantie GCC 10.4 與最新版 llama.cpp 不兼容)。

2.3 模型映射優化

優化模型映射(model mapping,即把模型權重和計算任務分配到硬件上的過程),特別是頁面/線程分配,解決這類系統復雜的內存層級結構。具體而言,我們針對非一致內存訪問(NUMA,Non-uniform Memory Access,指多路服務器中 CPU 訪問遠/近內存速度不同的架構)延遲,探索了不同 numactl 選項組合的 4 種策略

  • NUMA Balancing 開啟,其余選項關閉;
  • 所有選項關閉;
  • Balancing 關閉 + Core Binding(核心綁定)開啟;
  • Balancing 關閉 + Memory Interleaving(內存交錯)開啟。

我們將上述優化應用于 llama.cpp [7] 框架,并在 3 個規模遞增的開源 LLM 上進行測試,均采用 Q4_0 量化(vanilla Llama 7B,DeepSeek R1 Distill Llama 8B,DeepSeek R1 Distill QWEN 14B,分別簡稱 7B、8B 和 14B)。

三、實驗結果與分析

為展示優化效果,我們用用戶提示 “Explain to me what is RISC-V, what are its principles and why it is so cool?”(共 22 個 token)對三款 LLM 執行了預填充(prefill),同時對 token 生成性能取 256 個測試生成 token 的平均值。

Kernel Scaling

圖 2 給出了多個基線內核(llama.cpp 自帶的 GGML 與 OpenBLAS 默認實現)與我們所提出內核的單線程可擴展性對比。

af6e59cc-71c1-11f0-9080-92fbcf53809c.png

與最佳基線相比,我們平均將 GOPS(Giga Operations Per Second,十億次運算每秒)提升 38.3%,在矩陣規模為 4096 時峰值提升達 56.3%。

不同編譯器影響

圖 3 評估了使用 Clang 或 GCC 編譯時 DeepSeek 8B 模型的推理性能,均使用我們提出的內核。

af84f5f6-71c1-11f0-9080-92fbcf53809c.png

Clang 19 持續優于 GCC 13.2,在 token 生成上平均性能提升 34%,在預填充上提升 25%。關鍵原因在于 Clang 對 ISA 擴展的支持以及更先進的編譯優化(例如更激進的內聯和循環展開)。無論使用哪種編譯器,當線程數超過 32 時都會出現性能下降。該行為歸因于默認的 NUMA balancing 策略,它對 LLM 推理這種可預測負載并不理想,導致大量線程與內存頁遷移。

NUMA 策略影響

事實上,在關閉 NUMA balancing 并開啟內存交錯后,如預期所示,我們在 64 線程下取得了 token 生成 4.32 token/s 與預填充 6.54 token/s 的最佳結果,這得益于內存頁遷移的大幅減少。

af9b8500-71c1-11f0-9080-92fbcf53809c.png

性能小結

得益于我們的優化,7B、8B 和 14B 這三款 LLM分別達到了 13.07 / 6.54 / 3.68 token/s 的最大吞吐,相比基線 llama.cpp 最高提升 5.5× / 2.9× / 3×。

  • 與 SG2042 上已報道的最佳結果 [8] 相比,我們在Llama 7B 上的峰值吞吐提升 1.65×。
  • 與類似且更成熟的 x86 平臺——64 核 AMD EPYC 7742——相比,我們將能效提升 1.2×(55 token/s/mW 對 45 token/s/mW)

參考文獻

afb6b1c2-71c1-11f0-9080-92fbcf53809c.png

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • cpu
    cpu
    +關注

    關注

    68

    文章

    11277

    瀏覽量

    224935
  • RISC-V
    +關注

    關注

    48

    文章

    2887

    瀏覽量

    52935
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    重磅合作!Quintauris 聯手 SiFive,加速 RISC-V 嵌入式與 AI 領域落地

    據科技區角報道半導體解決方案提供商 Quintauris 最近宣布和 RISC-V 處理器 IP 領域的頭部廠商 SiFive 達成戰略合作,目標直接瞄準加速 RISC-V 嵌入式、
    發表于 12-18 12:01

    探索RISC-V機器人領域的潛力

    探索RISC-V機器人領域的潛力 測評人:洄溯 測評時間: 2025年11月 測評對象: MUSE Pi Pro開發板(基于進迭時空K1系列高性能RISC-V CPU) 一、
    發表于 12-03 14:40

    【CIE全國RISC-V創新應用大賽】基于 K1 AI CPU 的大模型部署落地

    量化” 策略。我們必須使用 Q2_K (2-bit) 量化格式,將模型體積壓縮到 5.5GB 左右,從而在 8GB 內存給 KV Cache(上下文)留出空間。 以下是按照官方工具鏈針對 14B 模型定制
    發表于 11-27 14:43

    如何自己設計一個基于RISC-V的SoC架構,最后可以FPGA跑起來?

    如何自己設計一個基于RISC-V的SoC架構,最后可以FPGA跑起來
    發表于 11-11 08:03

    RISC-V B擴展介紹及實現

    B擴展簡介 RISCV B擴展指的是RISCV用于位運算加速的一個擴展指令集,目的是使用一條指令實現原本需要2-3條指令才能實現的位操作指令。具體包含內容如下:
    發表于 10-21 13:01

    RISC-V HPC新標桿Sophon SG2044深度評估:支持RVV v1.0適配GCC 15.2,多核性能潛力巨大!

    RISC-V架構的普及浪潮中,嵌入式領域的成功早已眾人皆知,但高性能計算(HPC)始終是其難以突破的“高地”。算能SOPHONSG2044的出現打破了僵局。國際權威技術媒體發布的深度評測《IsRISC-VreadyforHighPerformanceComputing?
    的頭像 發表于 10-16 13:23 ?1452次閱讀
    <b class='flag-5'>RISC-V</b> HPC新標桿<b class='flag-5'>Sophon</b> <b class='flag-5'>SG</b>2044深度評估:支持RVV <b class='flag-5'>v</b>1.0適配GCC 15.2,多核性能潛力巨大!

    RISC-V芯片出貨超百億顆!四大廠商重磅產品來襲,加速邊緣AI終端落地

    RISC-V基金會宣布,2024年基于RISC-V指令集的芯片出貨量超過百億顆,其中30%用于AI加速場景。本次盛會,知合計算、全志科技、博流智能、凌思微等廠商都攜最新RISC-V內核
    的頭像 發表于 07-22 08:58 ?6875次閱讀
    <b class='flag-5'>RISC-V</b>芯片出貨超百億顆!四大廠商重磅產品來襲,<b class='flag-5'>加速</b>邊緣AI終端落地

    大咖論道:以架構創新、生態繁榮,加速RISC-V產業落地

    電子發燒友網黃晶晶報道,7月17日舉行的2025 RISC-V中國峰會主論壇,十多位業界專家就RISC-V產業落地的機遇和挑戰的圓桌話題進行了精彩的觀點碰撞與趨勢分析。 ? ? 探
    的頭像 發表于 07-20 05:49 ?6060次閱讀
    大咖論道:以架構創新、生態繁榮,<b class='flag-5'>加速</b><b class='flag-5'>RISC-V</b>產業落地

    “核心技術突破+關鍵應用支撐”,賽昉加速RISC-V生態突圍

    核心技術護城河1.首款適配RISC-V核的國產一致性NoCIP——StarNoC-700高性能計算分論壇,賽昉科技IP產品線總經理周杰宣布,公司自主研發的大規模一
    的頭像 發表于 07-19 17:03 ?1447次閱讀
    “核心技術突破+關鍵應用支撐”,賽昉<b class='flag-5'>加速</b><b class='flag-5'>RISC-V</b>生態突圍

    英偉達:CUDA 已經開始移植到 RISC-V 架構

    7 月 17 日,第五屆(2025)RISC-V 中國峰會主論壇,英偉達副總裁 Frans Sijstermanns 分享了題為《英偉達計算平臺實現
    發表于 07-17 16:30 ?3954次閱讀

    RISC-V 的平臺思維和生態思維

    Doorn 認為,RISC-V 擴展要擁抱 “平臺思維” 和 “生態思維”。 ? 7 月 17 日舉辦的第五屆(2025)RISC-V 中國峰會主論壇,Leendert van
    發表于 07-17 14:04 ?4180次閱讀

    RISC-V International CEO:RISC-V 應用全面開花,2031 年滲透率將達 25.7%

    7 月 16 日~19 日,第五屆(2025)RISC-V 中國峰會在上海張江科學會堂拉開帷幕。峰會設置 1 場主論壇、8 大垂直領域分論壇、多場研習會及多項同期活動。 7 月 17 日的主論壇
    發表于 07-17 10:28 ?3698次閱讀
    <b class='flag-5'>RISC-V</b> International CEO:<b class='flag-5'>RISC-V</b> 應用全面開花,2031 年滲透率將達 25.7%

    如何在魔搭社區使用TensorRT-LLM加速優化Qwen3系列模型推理部署

    TensorRT-LLM 作為 NVIDIA 專為 LLM 推理部署加速優化的開源庫,可幫助開發者快速利用最新 LLM 完成應用原型驗證與產
    的頭像 發表于 07-04 14:38 ?2182次閱讀

    大象機器人攜手進迭時空推出 RISC-V 全棧開源六軸機械臂產品

    、lightrack)等模型。倉庫將持續更新支持最前沿的模型應用,滿足各種復雜 AI任務。 AI智慧零售套件 通過CPU融合AI的創新設計,“myCobot 280 RISC-V”首次將大模型推理與機械臂控制
    發表于 04-25 17:59

    芯來科技攜手芯芒科技發布RISC-V CPU系統仿真平臺

    專業RISC-V處理器IP及解決方案公司芯來科技與杭州芯芒科技深入合作,共同研發推出芯來全系列RISC-V CPU系統仿真平臺。幫助下游SoC和產品開發團隊基于該仿真平臺快速構建從芯片核心架構、整
    的頭像 發表于 03-19 14:36 ?1720次閱讀