国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

新思科技如何破解邊緣AI部署難題

新思科技 ? 來源:新思科技 ? 2025-08-21 16:40 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

神經處理單元(NPU)是一種專為人工智能AI神經網絡深度學習任務設計的專用處理器,隨著技術從卷積神經網絡(CNN)演進至Transformer模型,再到如今的生成式人工智能(GenAI)模型,NPU也需要隨之演進。GenAI(尤其是大語言模型LLM)的參數量與日俱增,對帶寬的需求更是永無止境,正促使嵌入式AI硬件中所用的數據格式發生轉變,包括向低精度和浮點格式發展的趨勢,例如新興的OCP微縮放(MX)數據類型。

卷積神經網絡及后續演進

早在2012年,卷積神經網絡(CNN)便已超越數字信號處理解決方案,成為圖像特征分析、目標檢測等視覺處理任務的默認標準。CNN算法的訓練與推理最初采用32位浮點(FP32)數據類型,但沒過多久,推理引擎就找到了優化CNN引擎功耗與面積的方法,對于面向邊緣設備的應用而言尤為重要。在精度損失極小的前提下,8位整數(INT8)成為高吞吐量應用場景下CNN算法的標準格式。當時占據主導地位的AI框架TensorFlow為INT8提供了堅實可靠的支持,不過使用INT8數據類型需要進行訓練后量化與校準。

2017年,Transformer神經網絡問世(Google發表了《Attention Is All You Need》論文)。由于引入了注意力機制,相較于進行圖像分類的CNN,Transformer對INT8量化更為敏感。16位浮點(FP16)和腦浮點(BF16)由此成為Transformer常用的替代數據類型。

Transformer開啟了當前的GenAI模型時代,但GenAI模型的參數規模比CNN和許多視覺Transformer高出幾個數量級。比如,典型的CNN算法可能需要2500萬個參數,而ChatGPT則需要1750億個參數。參數量的大幅增加導致NPU的計算需求與內存帶寬需求之間出現失衡。正如圖1所示,面向AI神經網絡工作負載的GPU性能增長速度,遠快于互連帶寬能力的提升速度。

cb27aee0-7dae-11f0-a18e-92fbcf53809c.png

▲圖1:AI性能(TOPS)的增長速度,超過了互連帶寬(GB/s)的增長速度。

GPU通常用于AI訓練和服務器工作負載,而NPU則是AI推理的首選AI處理器;在推理場景中,低功耗和小面積是核心訴求。隨著NPU開始處理GenAI工作負載,其計算能力與接口帶寬之間的不匹配問題愈發棘手。用于邊緣設備的NPU通常配備LPDDR5內存接口,與服務器應用中常用的HBM接口相比,這種接口的帶寬存在明顯局限。

NPU可通過多種方式降低帶寬需求:

NPU內置硬件與軟件壓縮機制,以此有效削減帶寬消耗。

GenAI模型正逐步演進。例如,DeepSeek和Llama 4均采用了一種名為“專家混合”(MOE)的技術。這類模型的參數規模依然龐大,但MOE技術能讓任意時刻加載的參數集更為精簡,從而提升帶寬效率。

降低GenAI模型參數的精度是減少帶寬的常用策略。大多數NPU原本針對INT8數據和系數設計,但若參數能采用更低精度的格式(如INT4或FP4),數據便可實現壓縮存儲,帶寬由此翻倍提升。更小的數據類型還能同時減少內存占用和數據加載延遲。

針對窄精度數據類型的新標準應運而生

2023年,OCP微縮放格式(MX)規范發布,其中引入了三種浮點格式和一種整數格式(MXFP8、NXFP6、MXFP4、MXINT8),MXFP8格式源自OCP 8位浮點規范(OFP8),詳見圖2。

在圖2中,四種符合MX規范的數據類型均采用8位指數并在由32個數字組成的塊中共享,既能減少內存占用,又能提升硬件性能與效率,進而降低開銷和運營成本。MX數據類型的另一優勢在于,在離線編譯過程中,FP32或FP16的權重與激活值可“直接轉換”(壓縮/量化)為MX浮點格式。

cb4a2678-7dae-11f0-a18e-92fbcf53809c.png

▲圖2:OCP MX規范v1.0中的微縮放(MX)數據類型。

GenAI模型之所以需要更小的數據類型,源于NPU架構的需求變化。由于窄位寬數據格式有助于降低GenAI模型的計算與存儲成本,NPU必須支持這些新的格式。

圖3展示了新思科技面向具備AI能力的SoC所提供的處理器IP產品。NPX6 NPU IP提供高效、可擴展的AI推理引擎;VPX DSP IP是一款超長指令字(VLIW)/單指令多數據(SIMD)處理器系列,適用于廣泛多樣的信號處理應用,除了能對神經網絡模型進行預處理和后處理外,還可處理自定義神經網絡層。

cb5ad5cc-7dae-11f0-a18e-92fbcf53809c.png

▲圖3:NPX6 NPU IP和VPX DSP IP為神經網絡處理、前瞻性適配及預處理/后處理提供集成解決方案。

新思科技的NPX IP和VPX IP系列現已新增AI數據壓縮選項,與浮點單元(FPU)選項結合后,可為任何ARC NPX神經處理單元IP處理器或VPX數字信號處理器IP處理器增加對INT4、BF16、OCP-FP8及OCP-MX數據壓縮的支持。新增的AI數據壓縮選項完全符合OCP規范,包括《OCP 8位浮點規范(OFP8)》(1.0版,2023年6月20日批準)與《OCP微縮放格式(MX)規范》(1.0版,2023年9月)。

AI數據壓縮選項可在DMA中快速執行數據格式轉換:從系統內存移入內部存儲器時對數據解壓縮,從內部存儲器移至系統內存時對數據壓縮。以NPX6為例,MXFP6格式會轉換為FP16格式以用于內部處理。內部計算采用FP16并不會限制整體性能,因為在NPX6 NPU IP上運行的LLM不受計算能力制約,瓶頸在于帶寬。下方圖4展示了增強型NPX6 NPU IP和VPX DSP IP所支持的數據類型,其中多項數據類型在DMA中得到支持。表格中還列出了每種數據類型所對應的內部數據路徑。

cb709e70-7dae-11f0-a18e-92fbcf53809c.png

▲圖4:增強型新思科技ARC NPX6 NPU IP和新思科技ARC VPX DSP IP系列所支持的數據類型。

由于VPX與NPX支持相同的數據類型,采用這些新格式在處理器之間傳輸參數或激活值時,操作簡便易行。將這些數據類型集成到DMA中,有助于減少帶寬占用和內存開銷。在DMA中支持多種數據類型的另一優勢在于,處理器IP能夠直接與轉換器連接。例如,10位模數轉換器可連接至NPX或VPX,硬件會自動將其映射為內部數據類型,省去了軟件轉換的步驟。

結語

GenAI模型在不斷演進的過程中,所遵循的發展軌跡很可能與CNN模型類似。在達到令人滿意的精度與效率水平之前,模型的參數規模會持續激增;而后,研究重心將轉向優化環節,使模型更適配邊緣設備應用。目前,增強型新思科技ARC NPX6 NPU IP和新思科技ARC VPX DSP IP已正式推出,可供關注AI(包括GenAI)能力的SoC開發者選用。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 神經網絡
    +關注

    關注

    42

    文章

    4838

    瀏覽量

    107740
  • AI
    AI
    +關注

    關注

    91

    文章

    39747

    瀏覽量

    301338
  • 新思科技
    +關注

    關注

    5

    文章

    956

    瀏覽量

    52891

原文標題:4bit破解邊緣AI部署難題!新思科技賦能“大模型”跑進“小設備”

文章出處:【微信號:Synopsys_CN,微信公眾號:新思科技】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    邊緣AI應用越來越普遍,AI模型在邊緣端如何部署

    電子發燒友網報道(文/李彎彎)在人工智能時代,越來越多的AI應用需要從云端擴展到邊緣端,比如智能耳機、智能攝像機、智能手環、物流機器人等,在邊緣部署
    的頭像 發表于 07-04 00:11 ?4432次閱讀
    <b class='flag-5'>邊緣</b><b class='flag-5'>AI</b>應用越來越普遍,<b class='flag-5'>AI</b>模型在<b class='flag-5'>邊緣</b>端如何<b class='flag-5'>部署</b>?

    英特爾發布全新邊緣計算平臺,解決AI邊緣落地難題

    電子發燒友網報道(文/李彎彎)AI越來越多地在邊緣部署。Gartner最新預測數據顯示,到2025年,50%以上的企業管理數據將在數據中心或云之外創建和處理。隨著AI為自動化帶來更多
    的頭像 發表于 03-12 09:06 ?5519次閱讀
    英特爾發布全新<b class='flag-5'>邊緣</b>計算平臺,解決<b class='flag-5'>AI</b><b class='flag-5'>邊緣</b>落地<b class='flag-5'>難題</b>

    邊緣AI實現的核心環節:硬件選擇和模型部署

    電子發燒友網綜合報道 邊緣AI的實現原理是將人工智能算法和模型部署到靠近數據源的邊緣設備上,使這些設備能夠在本地進行數據處理、分析和決策,而無需將數據傳輸到遠程的云端服務器。
    發表于 05-26 07:09 ?1466次閱讀

    Deepseek海思SD3403邊緣計算AI產品系統

    海思SD3403邊緣計算AI框架,提供了一套開放式AI訓練產品工具包,解決客戶低成本AI系統,針對差異化AI 應用場景,自己采集樣本數據,進
    發表于 04-28 11:05

    STM32F769是否可以部署邊緣AI

    STM32F769是否可以部署邊緣AI
    發表于 06-17 06:44

    EdgeBoard FZ5 邊緣AI計算盒及計算卡

    ` 隨著應用場景的多樣化,利用人工智能技術在邊緣部署一系列創新應用解決方案,對企業傳統的業務形態進行升級,加速業務增長,增強競爭優勢,起著至關重要的作用。 在市場需求和產業趨勢的推動下,米爾
    發表于 08-31 14:12

    網絡邊緣實施AI的原因

    AI推向邊緣的影響通過在邊緣運行ML模型可以使哪些具體的AI項目更容易運行?
    發表于 02-23 06:21

    嵌入式邊緣AI應用開發指南

    部署到TI硬件上。然而,將深度學習模型部署到硬件加速器上只是難題的冰山一角。為幫助您快速構建高效的邊緣AI應用,TI采用了GStreamer
    發表于 11-03 06:53

    思科技發布業界首款全棧式AI驅動型EDA解決方案Synopsys.ai

    )、IBM、聯發科(MediaTek)和瑞薩電子(Renesas)均對新思科技的AI驅動型EDA設計策略表示支持,并已利用Synopsys.ai解決方案取得顯著成果:瑞薩電子在減少功能覆蓋盲區方面實現
    發表于 04-03 16:03

    如何通過Astraea一鍵化部署邊緣AI服務?

    前言 為什么說邊緣計算帶來了數據、計算的根本變化? 邊緣AI邊緣計算最重要的應用之一,它的挑戰是什么? 一個用于邊緣計算場景的新型
    的頭像 發表于 11-03 11:26 ?3476次閱讀

    思科技宣布與SiMa.ai開展合作

    思科技(Synopsys)近日宣布與SiMa.ai開展合作,將其機器學習推理技術大規模引入嵌入式邊緣設備。此次合作,SiMa.ai將采用新思科
    的頭像 發表于 11-27 14:41 ?2450次閱讀

    邊緣計算前景很美,安全難題如何破解

    在大規模商用以及快速發展的AI芯片技術雙重加持下,邊緣計算在未來十年將迎來爆炸性增長。根據Grand View Research的數據,2019年邊緣計算所帶來的市場價值約為25億美元。到2027年
    發表于 01-27 09:40 ?7次下載
    <b class='flag-5'>邊緣</b>計算前景很美,安全<b class='flag-5'>難題</b>如何<b class='flag-5'>破解</b>?

    AI邊緣計算是什么意思?邊緣ai是什么?AI邊緣計算應用

    AI邊緣計算是什么意思?邊緣ai是什么?AI邊緣計算應用? 隨著人工智能技術的不斷發展,
    的頭像 發表于 08-24 15:18 ?3719次閱讀

    中興通訊AiCube:破解AI模型部署難題

    ,成為制約技術價值釋放的新痛點。 異構算力適配困難、算力資源利用率低以及數據安全風險高等問題,讓許多企業在AI技術的實際應用中遇到了瓶頸。這些問題不僅增加了部署的難度,還可能導致資源的浪費和潛在的安全威脅。 為了破解這一
    的頭像 發表于 02-13 09:11 ?1036次閱讀

    邊緣AI實現的核心環節:硬件選擇和模型部署

    邊緣AI的實現原理是將人工智能算法和模型部署到靠近數據源的邊緣設備上,使這些設備能夠在本地進行數據處理、分析和決策,而無需將數據傳輸到遠程的云端服務器。
    的頭像 發表于 06-19 12:19 ?1375次閱讀
    <b class='flag-5'>邊緣</b><b class='flag-5'>AI</b>實現的核心環節:硬件選擇和模型<b class='flag-5'>部署</b>