96色色,久久大香蕉精品,久久国产爆乳精品一区二区

關鍵詞：V-SEEK、LLM Inference Optimization、RISC-V、SOPHON SG2042、llama.cpp、NUMA Optimization

V-SEEK: ACCELERATING LLM REASONING ON OPEN-HARDWARE SERVER-CLASS RISC-V PLATFORMS

近年來，大型語言模型（LLM）的指數級增長依賴于基于 GPU 的系統。然而，CPU 正逐漸成為一種靈活且成本更低的替代方案，尤其是在面向推理（inference，即模型已完成訓練、僅做預測的階段）和推理負載（reasoning workloads，指需要多步邏輯推導的預測任務）時。

RISC-V（一種開源、免授權、可自由定制的指令集架構）憑借開放且與廠商無關的 ISA（Instruction Set Architecture，指令集架構）在該領域迅速受到關注。

然而，面向 LLM 負載的 RISC-V 硬件及其配套軟件生態尚未完全成熟和流暢，原因是需要對特定領域進行調優。

本文旨在填補這一空白，聚焦于在 SOPHON SG2042 上優化 LLM 推理；SG2042 是首款商用、具備向量處理能力的多核 RISC-V CPU。

在兩個新近為推理優化的 SOTA（state-of-the-art，業界最佳）開源 LLM——DeepSeek R1 Distill Llama 8B 與 DeepSeek R1 Distill QWEN 14B——上，我們實現了：

token 生成（token generation，逐詞生成）4.32 / 2.29 token/s
提示處理（prompt processing，又稱 prefill，把整段輸入一次性算完）6.54 / 3.68 token/s 的吞吐，相比我們的基線實現最高加速達 2.9× / 3.0×。

本文目錄

本文目錄
一、引言
二、研究方法
- 2.1 高性能 Kernel
- 2.2 編譯器工具鏈
- 2.3 模型映射優化
三、實驗結果與分析
- Kernel Scaling
- 不同編譯器影響
- NUMA 策略影響
- 性能小結
參考文獻

一、引言

超大規模云服務商（hyperscalers，例如 AWS）與 AI 部署公司（例如 OpenAI）通常使用 GPU 集群或專用加速器（如 TPU，Tensor Processing Unit）來加速 LLM 工作負載。然而，多核 CPU 加速 LLM 也已得到近期探索[2]，因為它在硬件成本更低的同時提供了更高的靈活性，尤其適用于本地部署（on-premise）和低延遲邊緣服務器（edge servers）。

現有研究主要針對 x86 和 ARM，而基于靈活且開源的 RISC-V 指令集架構的多核芯片則相對未被充分探索 [1]。

為了填補這一空白，本工作將業界先進的 LLM 推理框架 llama.cpp [7] 適配并優化到首款商用的、通用型多核 RISC-V 平臺——SOPHON SG2042[1]。

在兩個新近開源、專為推理優化的模型（DeepSeek R1 Distill Llama 8B / QWEN 14B）上，我們相比基線 llama.cpp 實現最高實現了 token 生成 3.0×、提示處理 2.8× 的加速（在 4-bit 量化精度下），分別達到 4.32 / 2.29 與 6.54 / 3.68 token/s 的吞吐。

在 vanilla Llama 7B 上，我們實現 token 生成 6.63 token/s、提示處理 13.07 token/s，即相比基線實現加速 4.3× / 5.5×，并較 SG2042 上已報道的最佳結果 [8] 提升 1.65×，同時與成熟的 x86 CPU 推理性能具有競爭力。

二、研究方法

為了探索在 RISC-V 服務器級平臺上優化 LLM 推理的可用選項，我們選定了 MILK-V Pioneer 作為目標平臺，其核心為 64 核 SOPHON SG2042 CPU，并配備 128 GB DRAM 內存。平臺框圖見圖 1-center。

我們識別出可以從三個方向著手解決問題的路徑，均在軟件層面，靈感來自其他架構上的相關工作 [5,6,3]：

2.1 高性能 Kernel

針對關鍵 LLM 層開發經過優化的、若支持則已量化的計算內核（kernels，指一段專門用于矩陣運算的底層代碼），充分利用硬件資源，同時兼顧其內存結構、流水線（pipeline，指令執行順序）和向量化能力。

圖 1-right 給出了我們提出的內核的偽代碼：

首先，將 fp32（32 位浮點）輸入（向量或瘦矩陣）量化為 int8（8 位整數）；
接著，執行兩層嵌套循環以完成 GEMV（General Matrix-Vector multiplication，通用矩陣-向量乘法）操作，其中外層循環按步長 2 遍歷輸入矩陣 A 的行，內層循環按步長 32 遍歷其列。
列循環結束后，進行反量化（de-quantization，把整數還原回浮點數），結合 A 塊和 B 的縮放因子（scale factors）以生成輸出的 fp32 值。

這一新內核既利用了平臺的向量單元，又優化了數據局部性（data locality，數據盡量靠近計算單元，減少訪存延遲）。

2.2 編譯器工具鏈

選擇合適的編譯工具鏈，支持先進的優化 Pass（optimization passes，編譯器內部對代碼進行變換以提升性能的階段）并能利用現有 ISA 擴展。

在我們的場景下，內核使用 Xuantie 分支的 GCC 10.4 編譯，因為只有該版本支持 Sophon SG2042 的硬件向量單元。而對于整個 llama.cpp 框架，我們考慮兩種替代方案：GCC 13.2 和 Clang 19（Xuantie GCC 10.4 與最新版 llama.cpp 不兼容）。

2.3 模型映射優化

優化模型映射（model mapping，即把模型權重和計算任務分配到硬件上的過程），特別是頁面/線程分配，解決這類系統復雜的內存層級結構。具體而言，我們針對非一致內存訪問（NUMA，Non-uniform Memory Access，指多路服務器中 CPU 訪問遠/近內存速度不同的架構）延遲，探索了不同 numactl 選項組合的 4 種策略：

NUMA Balancing 開啟，其余選項關閉；
所有選項關閉；
Balancing 關閉 + Core Binding（核心綁定）開啟；
Balancing 關閉 + Memory Interleaving（內存交錯）開啟。

我們將上述優化應用于 llama.cpp [7] 框架，并在 3 個規模遞增的開源 LLM 上進行測試，均采用 Q4_0 量化（vanilla Llama 7B，DeepSeek R1 Distill Llama 8B，DeepSeek R1 Distill QWEN 14B，分別簡稱 7B、8B 和 14B）。

三、實驗結果與分析

為展示優化效果，我們用用戶提示 “Explain to me what is RISC-V, what are its principles and why it is so cool?”（共 22 個 token）對三款 LLM 執行了預填充（prefill），同時對 token 生成性能取 256 個測試生成 token 的平均值。

Kernel Scaling

圖 2 給出了多個基線內核（llama.cpp 自帶的 GGML 與 OpenBLAS 默認實現）與我們所提出內核的單線程可擴展性對比。

與最佳基線相比，我們平均將 GOPS（Giga Operations Per Second，十億次運算每秒）提升 38.3%，在矩陣規模為 4096 時峰值提升達 56.3%。

不同編譯器影響

圖 3 評估了使用 Clang 或 GCC 編譯時 DeepSeek 8B 模型的推理性能，均使用我們提出的內核。

Clang 19 持續優于 GCC 13.2，在 token 生成上平均性能提升 34%，在預填充上提升 25%。關鍵原因在于 Clang 對 ISA 擴展的支持以及更先進的編譯優化（例如更激進的內聯和循環展開）。無論使用哪種編譯器，當線程數超過 32 時都會出現性能下降。該行為歸因于默認的 NUMA balancing 策略，它對 LLM 推理這種可預測負載并不理想，導致大量線程與內存頁遷移。