国产呦精品一区二区三区网站,91久久国产一区二区色欲,国产精品成人亚州一区二区

神經處理單元（NPU）是一種專為人工智能（AI）神經網絡和深度學習任務設計的專用處理器，隨著技術從卷積神經網絡（CNN）演進至Transformer模型，再到如今的生成式人工智能（GenAI）模型，NPU也需要隨之演進。GenAI（尤其是大語言模型LLM）的參數量與日俱增，對帶寬的需求更是永無止境，正促使嵌入式AI硬件中所用的數據格式發生轉變，包括向低精度和浮點格式發展的趨勢，例如新興的OCP微縮放（MX）數據類型。

卷積神經網絡及后續演進

早在2012年，卷積神經網絡（CNN）便已超越數字信號處理解決方案，成為圖像特征分析、目標檢測等視覺處理任務的默認標準。CNN算法的訓練與推理最初采用32位浮點（FP32）數據類型，但沒過多久，推理引擎就找到了優化CNN引擎功耗與面積的方法，對于面向邊緣設備的應用而言尤為重要。在精度損失極小的前提下，8位整數（INT8）成為高吞吐量應用場景下CNN算法的標準格式。當時占據主導地位的AI框架TensorFlow為INT8提供了堅實可靠的支持，不過使用INT8數據類型需要進行訓練后量化與校準。

2017年，Transformer神經網絡問世（Google發表了《Attention Is All You Need》論文）。由于引入了注意力機制，相較于進行圖像分類的CNN，Transformer對INT8量化更為敏感。16位浮點（FP16）和腦浮點（BF16）由此成為Transformer常用的替代數據類型。

Transformer開啟了當前的GenAI模型時代，但GenAI模型的參數規模比CNN和許多視覺Transformer高出幾個數量級。比如，典型的CNN算法可能需要2500萬個參數，而ChatGPT則需要1750億個參數。參數量的大幅增加導致NPU的計算需求與內存帶寬需求之間出現失衡。正如圖1所示，面向AI神經網絡工作負載的GPU性能增長速度，遠快于互連帶寬能力的提升速度。

▲圖1：AI性能（TOPS）的增長速度，超過了互連帶寬（GB/s）的增長速度。

GPU通常用于AI訓練和服務器工作負載，而NPU則是AI推理的首選AI處理器；在推理場景中，低功耗和小面積是核心訴求。隨著NPU開始處理GenAI工作負載，其計算能力與接口帶寬之間的不匹配問題愈發棘手。用于邊緣設備的NPU通常配備LPDDR5內存接口，與服務器應用中常用的HBM接口相比，這種接口的帶寬存在明顯局限。

NPU可通過多種方式降低帶寬需求：

NPU內置硬件與軟件壓縮機制，以此有效削減帶寬消耗。

GenAI模型正逐步演進。例如，DeepSeek和Llama 4均采用了一種名為“專家混合”（MOE）的技術。這類模型的參數規模依然龐大，但MOE技術能讓任意時刻加載的參數集更為精簡，從而提升帶寬效率。

降低GenAI模型參數的精度是減少帶寬的常用策略。大多數NPU原本針對INT8數據和系數設計，但若參數能采用更低精度的格式（如INT4或FP4），數據便可實現壓縮存儲，帶寬由此翻倍提升。更小的數據類型還能同時減少內存占用和數據加載延遲。

針對窄精度數據類型的新標準應運而生

2023年，OCP微縮放格式（MX）規范發布，其中引入了三種浮點格式和一種整數格式（MXFP8、NXFP6、MXFP4、MXINT8），MXFP8格式源自OCP 8位浮點規范（OFP8），詳見圖2。

在圖2中，四種符合MX規范的數據類型均采用8位指數并在由32個數字組成的塊中共享，既能減少內存占用，又能提升硬件性能與效率，進而降低開銷和運營成本。MX數據類型的另一優勢在于，在離線編譯過程中，FP32或FP16的權重與激活值可“直接轉換”（壓縮/量化）為MX浮點格式。

▲圖2：OCP MX規范v1.0中的微縮放（MX）數據類型。

GenAI模型之所以需要更小的數據類型，源于NPU架構的需求變化。由于窄位寬數據格式有助于降低GenAI模型的計算與存儲成本，NPU必須支持這些新的格式。

圖3展示了新思科技面向具備AI能力的SoC所提供的處理器IP產品。NPX6 NPU IP提供高效、可擴展的AI推理引擎；VPX DSP IP是一款超長指令字（VLIW）/單指令多數據（SIMD）處理器系列，適用于廣泛多樣的信號處理應用，除了能對神經網絡模型進行預處理和后處理外，還可處理自定義神經網絡層。

▲圖3：NPX6 NPU IP和VPX DSP IP為神經網絡處理、前瞻性適配及預處理/后處理提供集成解決方案。

新思科技的NPX IP和VPX IP系列現已新增AI數據壓縮選項，與浮點單元（FPU）選項結合后，可為任何ARC NPX神經處理單元IP處理器或VPX數字信號處理器IP處理器增加對INT4、BF16、OCP-FP8及OCP-MX數據壓縮的支持。新增的AI數據壓縮選項完全符合OCP規范，包括《OCP 8位浮點規范（OFP8）》（1.0版，2023年6月20日批準）與《OCP微縮放格式（MX）規范》（1.0版，2023年9月）。

AI數據壓縮選項可在DMA中快速執行數據格式轉換：從系統內存移入內部存儲器時對數據解壓縮，從內部存儲器移至系統內存時對數據壓縮。以NPX6為例，MXFP6格式會轉換為FP16格式以用于內部處理。內部計算采用FP16并不會限制整體性能，因為在NPX6 NPU IP上運行的LLM不受計算能力制約，瓶頸在于帶寬。下方圖4展示了增強型NPX6 NPU IP和VPX DSP IP所支持的數據類型，其中多項數據類型在DMA中得到支持。表格中還列出了每種數據類型所對應的內部數據路徑。

▲圖4：增強型新思科技ARC NPX6 NPU IP和新思科技ARC VPX DSP IP系列所支持的數據類型。

由于VPX與NPX支持相同的數據類型，采用這些新格式在處理器之間傳輸參數或激活值時，操作簡便易行。將這些數據類型集成到DMA中，有助于減少帶寬占用和內存開銷。在DMA中支持多種數據類型的另一優勢在于，處理器IP能夠直接與轉換器連接。例如，10位模數轉換器可連接至NPX或VPX，硬件會自動將其映射為內部數據類型，省去了軟件轉換的步驟。

結語

GenAI模型在不斷演進的過程中，所遵循的發展軌跡很可能與CNN模型類似。在達到令人滿意的精度與效率水平之前，模型的參數規模會持續激增；而后，研究重心將轉向優化環節，使模型更適配邊緣設備應用。目前，增強型新思科技ARC NPX6 NPU IP和新思科技ARC VPX DSP IP已正式推出，可供關注AI（包括GenAI）能力的SoC開發者選用。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

神經網絡

神經網絡

+關注

關注
42

文章
4839

瀏覽量
108049
AI

AI

+關注

關注
91

文章
40616

瀏覽量
302286
新思科技

新思科技

+關注

關注
5

文章
972

瀏覽量
52976

原文標題：4bit破解邊緣AI部署難題！新思科技賦能“大模型”跑進“小設備”

文章出處：【微信號：Synopsys_CN，微信公眾號：新思科技】歡迎添加關注！文章轉載請注明出處。

伦伦影院久久影视,天天操天天干天天射,ririsao久久精品一区 ,一本大道香蕉大久在红桃,999久久久免费精品国产色夜,色悠悠久久综合88,亚洲国产精品久久无套麻豆,亚洲香蕉毛片久久网站,一本一道久久综合狠狠老

搜索歷史

新思科技如何破解邊緣AI部署難題

評論