電子發(fā)燒友網(wǎng)報道(文/李彎彎)邊緣AI芯片低功耗設計是其在移動設備、物聯(lián)網(wǎng)終端等資源受限場景中落地的關鍵。在物聯(lián)網(wǎng)、可穿戴設備、智能家居等對功耗敏感的應用場景中,低功耗設計直接決定了設備的續(xù)航能力、部署成本及用戶體驗。
為什么邊緣AI芯片需要低功耗設計?
從應用場景層面來看,首先是設備供電受限,如智能手表、無線傳感器、可穿戴設備等依賴電池供電,低功耗設計直接決定續(xù)航時間。在太陽能、射頻能量收集等自供電系統(tǒng)中,芯片功耗需低于能量收集速率,否則設備無法持續(xù)運行。
其二是部署環(huán)境苛刻,在工業(yè)監(jiān)測、農業(yè)物聯(lián)網(wǎng)等場景中,設備可能部署在難以更換電池或無法接線的區(qū)域。例如,橋梁結構監(jiān)測傳感器需連續(xù)工作數(shù)年,功耗需低于1mW。功耗過高會導致芯片發(fā)熱,影響穩(wěn)定性與壽命。例如,在汽車電子中,芯片需滿足AEC-Q100標準,低功耗設計可減少熱應力導致的失效風險。
從技術發(fā)展層面來看,首先,能效比(TOPS/W)是核心指標,邊緣AI芯片需在有限功耗下提供高算力。例如,特斯拉FSD芯片以72W功耗實現(xiàn)144TOPS算力,能效比達2TOPS/W,滿足自動駕駛實時性需求。低功耗設計可突破“功耗墻”限制。例如,傳統(tǒng)GPU在移動端因功耗過高(>20W)難以應用,而專用邊緣AI芯片可將功耗壓縮至數(shù)百mW級。
其次,散熱與封裝成本約束,高功耗芯片需配備散熱片或風扇,增加體積與成本。例如,桌面GPU功耗可達300W,需主動散熱;而邊緣設備芯片功耗需控制在5W以內,可采用被動散熱。低功耗設計可簡化封裝要求。例如,采用Chiplet技術的邊緣AI芯片通過2.5D封裝降低互連功耗,同時減少對散熱材料的需求。
邊緣AI芯片低功耗設計方法
從硬件架構優(yōu)化角度來看,如專用加速器NPU、DPU等,設計針對AI運算(如矩陣乘加)的專用電路,提升能效比。例如,Google TPU通過脈動陣列減少通用計算單元的冗余操作。如異構計算架構,結合CPU(控制)、GPU(并行計算)、NPU(AI推理)等模塊,按任務類型動態(tài)分配計算負載。輕量級任務由CPU處理,復雜模型交由NPU,避免資源浪費。
還有一些創(chuàng)新架構設計方向,如存算一體化,減少數(shù)據(jù)搬運,在存儲單元附近直接完成計算,降低I/O功耗。技術路徑實現(xiàn)方面有存內計算、近內存計算。再如事件驅動架構,采用脈沖神經網(wǎng)絡(SNN)或事件相機傳感器,僅在數(shù)據(jù)變化時觸發(fā)計算,減少靜態(tài)功耗。
從算法與模型優(yōu)化角度來看,如模型壓縮技術,剪枝,移除冗余神經元或權重(稀疏化),降低計算量;量化,將32位浮點模型轉為8位整數(shù),減少乘法器和內存訪問能耗;知識蒸餾,用大模型訓練輕量級學生模型,保持精度同時降低計算需求。
??
如輕量級網(wǎng)絡設計,使用MobileNet(深度可分離卷積)、EfficientNet(復合縮放)等結構,平衡精度與計算量。再如動態(tài)推理,在推理過程中設置檢查點,若低層已足夠準確,則提前終止計算。近似計算,允許非關鍵計算結果存在誤差,簡化運算(如低精度浮點、舍入策略)。
從動態(tài)電源管理角度,DVFS(動態(tài)電壓頻率調節(jié)),根據(jù)負載實時調整電壓和頻率,例如在空閑時進入低功耗模式(如C6睡眠狀態(tài))。多電源域劃分,將芯片劃分為多個電源域,按需開啟或關閉(如攝像頭模塊僅在檢測到運動時供電)。自適應功耗策略,結合負載預測(如LSTM預測任務周期),動態(tài)調整電源狀態(tài)。
還有軟件與系統(tǒng)協(xié)同方面,編譯器優(yōu)化,通過指令級并行(ILP)優(yōu)化、內存訪問合并,減少計算周期和能耗。操作系統(tǒng)調度,任務級功耗管理,優(yōu)先調度低功耗核心處理簡單任務,高負載時喚醒高性能核心。應用層策略,喚醒詞檢測(如Alexa的Always-On模式),僅運行輕量級模型,待檢測到關鍵詞后喚醒主模型。
小結:邊緣AI芯片低功耗設計是其在真實場景中落地的必要條件,直接決定了設備的可用性、經濟性和可持續(xù)性。通過硬件架構、算法優(yōu)化、制程工藝等多維度協(xié)同,邊緣AI芯片得以在毫瓦級甚至微瓦級功耗下運行,滿足電池供電、實時響應、低成本部署等核心需求。
-
邊緣AI
+關注
關注
0文章
239瀏覽量
6131
發(fā)布評論請先 登錄
如何確保CAT.1模組的高性能與低功耗?
OrangePi RV2 深度技術評測:RISC-V AI融合架構的先行者
如何在邊緣AI應用場景中實現(xiàn)高性能、低功耗推理(上)
高通X85的本地48 TOPS邊緣AI加上云端大模型,到底能干啥?
瑞芯微SOC智能視覺AI處理器
工業(yè)視覺網(wǎng)關:RK3576賦能多路檢測與邊緣AI
酷芯ARS45:12nm制程+10TOPS/w能效比解鎖AI眼鏡新可能
Nordic收購 Neuton.AI 關于產品技術的分析
RK3576 vs RK3588:為何越來越多的開發(fā)者轉向RK3576?
輕松上手邊緣AI:MemryX MX3+結合Orange Pi 5 Plus的C/C++實戰(zhàn)指南
能效比達2TOPS/W!解密邊緣AI芯片低功耗設計之法
評論