神經處理單元(NPU)是一種專為人工智能(AI)神經網絡和深度學習任務設計的專用處理器,隨著技術從卷積神經網絡(CNN)演進至Transformer模型,再到如今的生成式人工智能(GenAI)模型,NPU也需要隨之演進。GenAI(尤其是大語言模型LLM)的參數量與日俱增,對帶寬的需求更是永無止境,正促使嵌入式AI硬件中所用的數據格式發生轉變,包括向低精度和浮點格式發展的趨勢,例如新興的OCP微縮放(MX)數據類型。
卷積神經網絡及后續演進
早在2012年,卷積神經網絡(CNN)便已超越數字信號處理解決方案,成為圖像特征分析、目標檢測等視覺處理任務的默認標準。CNN算法的訓練與推理最初采用32位浮點(FP32)數據類型,但沒過多久,推理引擎就找到了優化CNN引擎功耗與面積的方法,對于面向邊緣設備的應用而言尤為重要。在精度損失極小的前提下,8位整數(INT8)成為高吞吐量應用場景下CNN算法的標準格式。當時占據主導地位的AI框架TensorFlow為INT8提供了堅實可靠的支持,不過使用INT8數據類型需要進行訓練后量化與校準。
2017年,Transformer神經網絡問世(Google發表了《Attention Is All You Need》論文)。由于引入了注意力機制,相較于進行圖像分類的CNN,Transformer對INT8量化更為敏感。16位浮點(FP16)和腦浮點(BF16)由此成為Transformer常用的替代數據類型。
Transformer開啟了當前的GenAI模型時代,但GenAI模型的參數規模比CNN和許多視覺Transformer高出幾個數量級。比如,典型的CNN算法可能需要2500萬個參數,而ChatGPT則需要1750億個參數。參數量的大幅增加導致NPU的計算需求與內存帶寬需求之間出現失衡。正如圖1所示,面向AI神經網絡工作負載的GPU性能增長速度,遠快于互連帶寬能力的提升速度。

▲圖1:AI性能(TOPS)的增長速度,超過了互連帶寬(GB/s)的增長速度。
GPU通常用于AI訓練和服務器工作負載,而NPU則是AI推理的首選AI處理器;在推理場景中,低功耗和小面積是核心訴求。隨著NPU開始處理GenAI工作負載,其計算能力與接口帶寬之間的不匹配問題愈發棘手。用于邊緣設備的NPU通常配備LPDDR5內存接口,與服務器應用中常用的HBM接口相比,這種接口的帶寬存在明顯局限。
NPU可通過多種方式降低帶寬需求:
NPU內置硬件與軟件壓縮機制,以此有效削減帶寬消耗。
GenAI模型正逐步演進。例如,DeepSeek和Llama 4均采用了一種名為“專家混合”(MOE)的技術。這類模型的參數規模依然龐大,但MOE技術能讓任意時刻加載的參數集更為精簡,從而提升帶寬效率。
降低GenAI模型參數的精度是減少帶寬的常用策略。大多數NPU原本針對INT8數據和系數設計,但若參數能采用更低精度的格式(如INT4或FP4),數據便可實現壓縮存儲,帶寬由此翻倍提升。更小的數據類型還能同時減少內存占用和數據加載延遲。
針對窄精度數據類型的新標準應運而生
2023年,OCP微縮放格式(MX)規范發布,其中引入了三種浮點格式和一種整數格式(MXFP8、NXFP6、MXFP4、MXINT8),MXFP8格式源自OCP 8位浮點規范(OFP8),詳見圖2。
在圖2中,四種符合MX規范的數據類型均采用8位指數并在由32個數字組成的塊中共享,既能減少內存占用,又能提升硬件性能與效率,進而降低開銷和運營成本。MX數據類型的另一優勢在于,在離線編譯過程中,FP32或FP16的權重與激活值可“直接轉換”(壓縮/量化)為MX浮點格式。

▲圖2:OCP MX規范v1.0中的微縮放(MX)數據類型。
GenAI模型之所以需要更小的數據類型,源于NPU架構的需求變化。由于窄位寬數據格式有助于降低GenAI模型的計算與存儲成本,NPU必須支持這些新的格式。
圖3展示了新思科技面向具備AI能力的SoC所提供的處理器IP產品。NPX6 NPU IP提供高效、可擴展的AI推理引擎;VPX DSP IP是一款超長指令字(VLIW)/單指令多數據(SIMD)處理器系列,適用于廣泛多樣的信號處理應用,除了能對神經網絡模型進行預處理和后處理外,還可處理自定義神經網絡層。

▲圖3:NPX6 NPU IP和VPX DSP IP為神經網絡處理、前瞻性適配及預處理/后處理提供集成解決方案。
新思科技的NPX IP和VPX IP系列現已新增AI數據壓縮選項,與浮點單元(FPU)選項結合后,可為任何ARC NPX神經處理單元IP處理器或VPX數字信號處理器IP處理器增加對INT4、BF16、OCP-FP8及OCP-MX數據壓縮的支持。新增的AI數據壓縮選項完全符合OCP規范,包括《OCP 8位浮點規范(OFP8)》(1.0版,2023年6月20日批準)與《OCP微縮放格式(MX)規范》(1.0版,2023年9月)。
AI數據壓縮選項可在DMA中快速執行數據格式轉換:從系統內存移入內部存儲器時對數據解壓縮,從內部存儲器移至系統內存時對數據壓縮。以NPX6為例,MXFP6格式會轉換為FP16格式以用于內部處理。內部計算采用FP16并不會限制整體性能,因為在NPX6 NPU IP上運行的LLM不受計算能力制約,瓶頸在于帶寬。下方圖4展示了增強型NPX6 NPU IP和VPX DSP IP所支持的數據類型,其中多項數據類型在DMA中得到支持。表格中還列出了每種數據類型所對應的內部數據路徑。

▲圖4:增強型新思科技ARC NPX6 NPU IP和新思科技ARC VPX DSP IP系列所支持的數據類型。
由于VPX與NPX支持相同的數據類型,采用這些新格式在處理器之間傳輸參數或激活值時,操作簡便易行。將這些數據類型集成到DMA中,有助于減少帶寬占用和內存開銷。在DMA中支持多種數據類型的另一優勢在于,處理器IP能夠直接與轉換器連接。例如,10位模數轉換器可連接至NPX或VPX,硬件會自動將其映射為內部數據類型,省去了軟件轉換的步驟。
結語
GenAI模型在不斷演進的過程中,所遵循的發展軌跡很可能與CNN模型類似。在達到令人滿意的精度與效率水平之前,模型的參數規模會持續激增;而后,研究重心將轉向優化環節,使模型更適配邊緣設備應用。目前,增強型新思科技ARC NPX6 NPU IP和新思科技ARC VPX DSP IP已正式推出,可供關注AI(包括GenAI)能力的SoC開發者選用。
-
神經網絡
+關注
關注
42文章
4838瀏覽量
107740 -
AI
+關注
關注
91文章
39747瀏覽量
301338 -
新思科技
+關注
關注
5文章
956瀏覽量
52891
原文標題:4bit破解邊緣AI部署難題!新思科技賦能“大模型”跑進“小設備”
文章出處:【微信號:Synopsys_CN,微信公眾號:新思科技】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
邊緣AI應用越來越普遍,AI模型在邊緣端如何部署?
英特爾發布全新邊緣計算平臺,解決AI邊緣落地難題
邊緣AI實現的核心環節:硬件選擇和模型部署
Deepseek海思SD3403邊緣計算AI產品系統
EdgeBoard FZ5 邊緣AI計算盒及計算卡
嵌入式邊緣AI應用開發指南
新思科技發布業界首款全棧式AI驅動型EDA解決方案Synopsys.ai
如何通過Astraea一鍵化部署邊緣AI服務?
新思科技宣布與SiMa.ai開展合作
邊緣計算前景很美,安全難題如何破解?
新思科技如何破解邊緣AI部署難題
評論