国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

如何利用NPU與模型壓縮技術優化邊緣AI

MATLAB ? 來源:MATLAB ? 2025-11-07 15:26 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

| 本文作者:

Johanna Pingel,MathWorks 產品市場經理

Jack Ferrari,MathWorks 產品經理

Reed Axman,MathWorks 高級合作伙伴經理

隨著人工智能模型從設計階段走向實際部署,工程師面臨著雙重挑戰:在計算能力和內存受限的嵌入式設備上實現實時性能。神經處理單元(NPU)作為強大的硬件解決方案,擅長處理 AI 模型密集的計算需求。然而,AI 模型體積龐大,部署在 NPU上常常面臨困難,這凸顯了模型壓縮技術的重要性。要實現高效的實時邊緣 AI,需要深入探討NPU 與模型壓縮技術(如量化與投影)如何協同工作。

NPU 如何在嵌入式設備上實現實時性能

在嵌入式設備上部署AI模型的關鍵挑戰之一是最小化推理時間——即模型生成預測所需的時間,以確保系統具備實時響應能力。例如,在實時電機控制應用中,推理時間通常需要低于10 毫秒,以維持系統穩定性與響應性,并防止機械應力或部件損壞。工程師必須在速度、內存、功耗與預測質量之間取得平衡。

NPU 專為 AI 推理與神經網絡計算而設計,非常適合處理能力有限且對能效要求極高的嵌入式系統。與通用處理器(CPU)或高性能但耗能較大的圖形處理器(GPU)不同,NPU 針對神經網絡中常見的矩陣運算進行了優化。雖然 GPU 也能執行AI推理任務,但 NPU 在成本與能耗方面更具優勢。

從成本角度看,NPU是比微控制器(MCU)、GPU 或 FPGA 更具經濟性的AI處理方案。盡管集成 NPU 的芯片初期成本可能高于傳統微控制器,但其卓越的能效與 AI 處理能力使其在整體價值上更具吸引力。NPU專為加速神經網絡推理而設計,在功耗遠低于 CPU 的同時提供更高的性能。這種效率不僅降低了運行成本,還延長了嵌入式設備的電池壽命,從而在長期使用中更具成本效益。此外,NPU 可實現實時AI處理,無需依賴更昂貴、耗能更高的 GPU 或 FPGA,進一步增強了其經濟吸引力。

NPU 是一種經濟、高能效的解決方案,專為嵌入式系統中的高效 AI 推理與神經網絡計算而設計。

盡管 NPU 在 AI 推理方面效率極高,但在嵌入式系統中,其內存與功耗仍然有限。因此,模型壓縮成為關鍵手段,以減小模型體積與復雜度,使 NPU 在不超出系統限制的前提下實現實時性能。

利用投影與量化壓縮 AI 模型

模型壓縮技術通過減小模型體積與復雜度,提升推理速度并降低功耗,從而幫助大型AI模型部署到邊緣設備。然而,過度壓縮可能會影響預測精度,因此工程師需謹慎評估在滿足硬件限制的前提下可接受的精度損失范圍。

投影與量化是兩種互補的壓縮技術,可聯合使用以優化 AI 模型在 NPU 上的部署。投影通過移除冗余的可學習參數來減小模型結構,而量化則將剩余參數轉換為低精度(通常為整數)數據類型,從而進一步壓縮模型。兩者結合可同時壓縮模型結構與數據類型,在保持精度的同時提升效率。

推薦的做法是先使用投影對模型進行結構壓縮,降低其復雜度與體積,再應用量化以進一步減少內存占用與計算成本。

投影

神經網絡投影是一種結構壓縮技術,可通過將層的權重矩陣投影到低維子空間來減少模型中的可學習參數。在MATLAB Deep Learning Toolbox中,該方法基于主成分分析(PCA),識別神經激活中變化最大的方向,并通過更小、更高效的表示來近似高維權重矩陣,從而移除冗余參數。這種方式在保留模型準確性與表達能力的同時,顯著降低了內存與計算需求。

量化

量化是一種數據類型壓縮技術,通過將模型中的可學習參數(權重與偏置)從高精度浮點數轉換為低精度定點整數類型,來減少模型的內存占用與計算復雜度。這種方法可顯著提升模型的推理速度,尤其適用于NPU部署。雖然量化會帶來一定的數值精度損失,但通過使用代表實際運行情況的輸入數據對模型進行校準,通??梢栽诳山邮艿姆秶鷥缺3譁蚀_性,滿足實時應用需求。

應用案例:在 STMicroelectronics 微控制器上部署量化模型

STMicroelectronics 開發了一套基于 MATLAB 與 Simulink 的工作流程,用于將深度學習模型部署到 STM32 微控制器。工程師首先設計并訓練模型,隨后進行超參數調優與知識蒸餾以降低模型復雜度。接著,他們應用投影技術移除冗余參數以實現結構壓縮,并使用量化將權重與激活值轉換為8位整數,從而減少內存使用并提升推理速度。這種雙階段壓縮方法使得深度學習模型能夠在資源受限的 NPU 與 MCU 上部署,同時保持實時性能。

199c22a0-ba30-11f0-8c8f-92fbcf53809c.png

對一個包含LSTM層的循環神經網絡在建模電池荷電狀態時,投影并調優前后的準確率、模型大小與推理速度進行對比。

在 NPU上部署 AI 模型的最佳實踐

投影與量化等模型壓縮技術可顯著提升 AI 模型在 NPU 上的性能與可部署性。然而,由于壓縮可能影響模型精度,因此必須通過仿真與硬件在環(HIL)驗證進行迭代測試,以確保模型滿足功能與資源要求。盡早且頻繁地測試有助于工程師在問題擴大前及時發現并解決,從而降低后期返工風險,確保嵌入式系統部署順利進行。

統一的開發生態系統也能解決 AI 模型部署中面臨的諸多挑戰,簡化集成流程,加快開發進度,并在整個過程中支持全面測試。在當今軟件環境日益碎片化的背景下,這一點尤為重要。工程師常常需要將不同代碼庫集成到仿真流程或更大的系統環境中。由于各平臺與標準開發環境分離,集成與驗證的復雜性進一步增加。引入 NPU 后,工具鏈的復雜性也隨之上升,因此更需要統一的生態系統來應對這些挑戰。

面向邊緣設計:在功耗、精度與性能之間尋求平衡

嵌入式 AI 的未來以性能為核心,專為邊緣環境而構建,并由驅動復雜工程系統的 AI 模型提供動力。工程師的成功依賴于對模型壓縮權衡的深入理解、在硬件上盡早進行測試,以及構建具備適應性的系統。通過將智能的 NPU 與 AI 模型設計相結合,并輔以戰略性的壓縮技術,工程師能夠將嵌入式設備轉變為強大的實時決策引擎。

| 本文作者

Johanna Pingel, MathWorks

Johanna Pingel 是 MathWorks 的產品市場經理。她專注于機器學習和深度學習應用,致力于讓人工智能變得實用、有趣且易于實現。她于 2013 年加入公司,專長于使用 MATLAB 進行圖像處理和計算機視覺應用。

Jack Ferrari, MathWorks

Jack Ferrari 是 MathWorks 的產品經理,致力于幫助 MATLAB 和 Simulink 用戶將 AI 模型壓縮并部署到邊緣設備和嵌入式系統中。他擁有與多個行業客戶合作的經驗,包括汽車、航空航天和醫療器械行業。Jack 擁有波士頓大學機械工程學士學位。

Reed Axman, MathWork

Reed Axman 是 MathWorks 的高級合作伙伴經理,負責為 STMicroelectronics、Texas Instruments 和 Qualcomm 等公司提供以硬件為中心的 AI 工作流程支持。他與 MathWorks 的合作伙伴及內部團隊協作,幫助客戶將嵌入式 AI 能力集成到其產品中。他擁有亞利桑那州立大學機器人與人工智能碩士學位,研究方向為用于醫療應用的軟體機器人。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 嵌入式
    +關注

    關注

    5189

    文章

    20192

    瀏覽量

    329563
  • AI
    AI
    +關注

    關注

    90

    文章

    38414

    瀏覽量

    297706
  • 模型
    +關注

    關注

    1

    文章

    3658

    瀏覽量

    51804
  • NPU
    NPU
    +關注

    關注

    2

    文章

    361

    瀏覽量

    20868

原文標題:更智能、更小巧、更快速:工程師如何通過 NPU 與模型壓縮優化邊緣 AI

文章出處:【微信號:MATLAB,微信公眾號:MATLAB】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    模型壓縮技術,加速AI模型在終端側的應用

    電子發燒友網報道(文/李彎彎)當前,全球眾多科技企業都在積極研究AI模型,然而因為參數規模太大,要想實現AI模型在邊/端側部署,需要用到模型
    的頭像 發表于 04-24 01:26 ?3602次閱讀

    NanoEdge AI技術原理、應用場景及優勢

    能耗并提高數據安全性。本文將對 NanoEdge AI技術原理、應用場景以及優勢進行綜述。 1、技術原理 NanoEdge AI 的核心技術
    發表于 03-12 08:09

    AI賦能邊緣網關:開啟智能時代的新藍海

    ,準確率達到99.9%。 這一技術革新正在創造巨大的商業價值。在智慧城市領域,AI邊緣網關可以實現交通流量實時分析、違章行為智能識別;在工業互聯網中,能夠實現設備預測性維護、生產工藝優化
    發表于 02-15 11:41

    無法在NPU上推理OpenVINO?優化的 TinyLlama 模型怎么解決?

    NPU 上推斷 OpenVINO?優化的 TinyLlama 模型。 遇到的錯誤: get_shape was called on a descriptor::Tensor with dynamic shape
    發表于 07-11 06:58

    如何精準驅動菜品識別模型--基于米爾瑞芯微RK3576邊緣計算盒

    ,RKNN-Toolkit2是釋放MYD-LR3576-B內部6 TOPS NPU潛力的鑰匙。 它大大降低了開發者將AI模型部署到瑞芯微邊緣計算平臺的
    發表于 10-31 21:19

    【HarmonyOS HiSpark AI Camera】邊緣計算安全監控系統

    打火機)就報警的模型,實現邊緣測的相關檢測和報警的業務邏輯。中期,完成傳感器數據和視頻推流到云端,實現遠程監控。后期,各個環節的豐富和優化,比如多傳感器、設備接入等,組成一套較完善系統。
    發表于 09-25 10:11

    網絡邊緣實施AI的原因

    AI推向邊緣的影響通過在邊緣運行ML模型可以使哪些具體的AI項目更容易運行?
    發表于 02-23 06:21

    音頻處理SoC在500 μW以下運行AI

    。” “我們的團隊一直致力于在邊緣上充分利用可用的處理能力和內存來實現低功耗AI和ML,包括開發我們自己的正在申請專利的重量壓縮方案,同時還要強調易于部署?!毙碌腘PUDSP集團的新的
    發表于 03-03 10:49

    基于RKNN程序開發和模型轉換的NPU簡要說明

    /16bit 運算,運算性能高達 3.0TOPS。相較于 GPU 作為 AI 運算單元的大型芯片方案,功耗不到 GPU 所需要的 1%??芍苯蛹虞d Caffe / Mxnet / TensorFlow 模型
    發表于 05-31 11:10

    嵌入式邊緣AI應用開發指南

    、PyTorch和MXNet框架中常用的開源深度學習模型。這些模型在公共數據集上經過預訓練和優化,可以在TI適用于邊緣AI的處理器上高效運行
    發表于 11-03 06:53

    ST MCU邊緣AI開發者云 - STM32Cube.AI

    STM32微控制器生成優化的C代碼,無需事先安裝軟件。數據科學家和開發人員受益于STM32Cube.AI久經考驗的神經網絡優化性能,以開發邊緣AI
    發表于 02-02 09:52

    邊緣AI模型壓縮技術

    在某個時間點,人們認為大型和復雜的模型表現更好,但現在它幾乎是一個神話。隨著邊緣AI的發展,越來越多的技術將大型復雜模型轉換為可以在
    的頭像 發表于 10-19 14:22 ?1995次閱讀
    <b class='flag-5'>邊緣</b><b class='flag-5'>AI</b>的<b class='flag-5'>模型</b><b class='flag-5'>壓縮</b><b class='flag-5'>技術</b>

    邊緣AI模型壓縮技術

    模型壓縮是在計算能力和內存較低的邊緣設備上部署SOTA(最先進的)深度學習模型的過程,而不會影響模型在準確性、精度、召回率等方面的性能。
    的頭像 發表于 05-05 09:54 ?1709次閱讀
    <b class='flag-5'>邊緣</b><b class='flag-5'>AI</b>的<b class='flag-5'>模型</b><b class='flag-5'>壓縮</b><b class='flag-5'>技術</b>

    國科微:將持續優化邊緣AI戰略布局

    國科微近日在接受調研時透露,公司正積極推進搭載自研NPU架構的芯片研發,主要聚焦在邊緣側應用。公司表示,將持續優化邊緣AI戰略布局,加快
    的頭像 發表于 02-23 11:23 ?1419次閱讀

    NPU技術如何提升AI性能

    設計的處理器,與傳統的CPU和GPU相比,它在執行深度學習任務時具有更高的效率和更低的能耗。NPU通過專門優化的硬件結構和指令集,能夠更快地處理神經網絡中的大量并行計算任務。 1. 優化硬件架構
    的頭像 發表于 11-15 09:11 ?2449次閱讀