国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

CEVA的NeuPro-M AI處理器有助于提高能效

CEVA ? 來源:CEVA ? 作者:CEVA ? 2022-08-31 17:00 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

AI 技術(shù)愈來愈受歡迎,在汽車、視覺處理和電信等領(lǐng)域的應(yīng)用也越來越多。目前,AI 正在通過實現(xiàn)眾多新功能來取代許多傳統(tǒng)算法,例如為智能手機攝像頭提供去噪和圖像穩(wěn)定功能。

在眾多實施 AI 的產(chǎn)品都將數(shù)據(jù)發(fā)送到云數(shù)據(jù)中心的同時,也凸顯出一些主要缺點:延遲增加、隱私風(fēng)險以及需要互聯(lián)網(wǎng)連接。

設(shè)計人員希望創(chuàng)建一些 AI 系統(tǒng),使其在通常采用電池供電的邊緣設(shè)備上運行,但這也帶來了新的挑戰(zhàn),既實現(xiàn)需求的性能和功能與功耗之間的平衡,尤其是在持續(xù)快速且越來越多的需要更多計算能力的情況下。

AI 處理挑戰(zhàn)

雖然眾多不同邊緣設(shè)備的要求都各不相同,但它們基本上都是為了最大程度地提高性能,降低功耗,并盡量減少所需的物理空間。設(shè)計工程師如何作出合適的權(quán)衡才能應(yīng)對這些挑戰(zhàn)?

現(xiàn)有 AI 處理器的性能往往受到帶寬限制,并且在將數(shù)據(jù)移入和移出外部內(nèi)存時也會遇到瓶頸,導(dǎo)致系統(tǒng)利用率低,這也就意味著性能/功率數(shù)值(以 TOPS/Watt 為單位)受到限制。

另一個重要問題是如何提前計劃滿足未來需求。由于 AI 處理器芯片的部署周期通常較長,因此 AI 解決方案必須能夠適應(yīng)未來的新要求,包括支持尚未定義的新神經(jīng)網(wǎng)絡(luò)。這意味著所有解決方案都必須足夠靈活、可擴展,才能隨著性能需求的增加而提升。

AI 系統(tǒng)還必須安全,并且必須符合最高的質(zhì)量和安全標(biāo)準(zhǔn),尤其是對于汽車應(yīng)用和其他人工智能系統(tǒng)可能涉及生命攸關(guān)的決策的應(yīng)用。例如,如果一位行人走到自動駕駛汽車前面,留給司機的反應(yīng)時間是非常短的。

為了幫助克服這些挑戰(zhàn),就需要一個全面的軟件工具鏈,簡化客戶實施,減少開發(fā)時間。

AI 處理器逐步提升

讓我們以視覺機器學(xué)習(xí)為例,看看 AI 解決方案提供商如何應(yīng)對這些挑戰(zhàn)。

ce05a752-2848-11ed-ba43-dac502259ad0.png

圖 1:NeuPro-M AI 處理器框圖,顯示內(nèi)存架構(gòu)

首先,如果我們考慮帶寬限制性能和內(nèi)存訪問權(quán)限問題,可以通過動態(tài)配置的兩級內(nèi)存體系架構(gòu)來加以解決(參見圖 1)。這樣可以最大限度地降低與外部 SDRAM 進行數(shù)據(jù)傳輸產(chǎn)生的功耗。通過以分層方式使用本地內(nèi)存資源,實現(xiàn) 90% 以上的利用率,防止協(xié)處理器和加速器出現(xiàn)“數(shù)據(jù)匱乏”情形,同時還可使每個引擎獨立處理。

優(yōu)化 AI 處理的另一種方法是通過使處理器架構(gòu)支持混合精度的神經(jīng)引擎。這種方法可以處理 2 到 16 位的數(shù)據(jù),減少系統(tǒng)帶寬消耗,除此之外,還能按每個用例靈活運行混合精度網(wǎng)絡(luò)。此外,當(dāng)數(shù)據(jù)從外部內(nèi)存寫入或讀取時,數(shù)據(jù)壓縮之類的帶寬減少機制還能實時壓縮數(shù)據(jù)和權(quán)重。這種方法減少了所需的內(nèi)存帶寬,進一步提高了性能,顯著降低了總功耗。

ce3a3210-2848-11ed-ba43-dac502259ad0.png

圖2:四引擎內(nèi)核細分

這是 CEVA 的 NeuPro-M AI 處理器采用的方法,是一種用于 AI/ML 推理工作負載的獨立異構(gòu)處理器架構(gòu)。以此解決方案為例,圖 2 顯示了如何在四 AI 引擎之間分割機器視覺應(yīng)用,在本案例中是對前方道路進行車道檢測。圖像數(shù)據(jù)從外部內(nèi)存或外部接口加載,然后分成四個拼圖,每個拼圖由不同的引擎處理。換句話說,每個引擎可以各自承擔(dān)一個子圖或不同的任務(wù),例如物體檢測和車道識別,以便優(yōu)化特定應(yīng)用的性能。

每個引擎都有自己的片上 L1 內(nèi)存,以便最大程度地減少瓶頸或延遲。這也意味著,一旦配置好,AI 處理器就幾乎可以完全獨立地運行了,并且在大多數(shù)情況下,可以運行“從頭到尾”的“融合”操作流水線,完全無需訪問內(nèi)部內(nèi)存且?guī)缀鹾苌僭L問外部內(nèi)存。如此一來,AI 處理器將變得更加靈活,并有助于提高能效。

我們在本文開始時討論的要求還包括提供面向未來的靈活解決方案。完全可編程的矢量處理單元 (VPU) 可以在同一引擎 L1 數(shù)據(jù)上與協(xié)處理器并行工作,確保新的神經(jīng)網(wǎng)絡(luò)拓撲以軟件方式提供支持

機器視覺優(yōu)化

有許多優(yōu)化可以提升特定 AI 應(yīng)用的性能。在視覺處理過程中,Winograd 轉(zhuǎn)換就屬于這種優(yōu)化之一。這是執(zhí)行卷積(例如傅里葉變換)的另一種高效方法,只需使用以前所需的 MAC(乘累加運算)數(shù)量的一半。

對于 3x3 卷積層而言,Winograd 轉(zhuǎn)換可以將性能提高一倍,同時保持與原始卷積方法相同的精度。

另一個基本的優(yōu)化是使用稀疏化,即能夠忽略數(shù)據(jù)或權(quán)重中的零。通過避免乘以零,性能得到了改善,同時保持了準(zhǔn)確性。雖然某些處理器需要結(jié)構(gòu)化數(shù)據(jù)才能享受稀疏化帶來的好處,但使用完全支持非結(jié)構(gòu)化稀疏化的處理器可以獲得更好的結(jié)果。

通常,AI 系統(tǒng)需要將某些優(yōu)化功能或網(wǎng)絡(luò)固有操作(如 Winograd 轉(zhuǎn)換、稀疏機制、自關(guān)注操作和縮放)交給專門的引擎。這意味著需要先卸載數(shù)據(jù),然后在處理后再重新加載數(shù)據(jù),這樣一來就會增加延遲并降低性能。對比之下,更好的選擇就是將加速器直接連接到引擎本地共享 L1 內(nèi)存,或者在大多數(shù)情況下,進行融合操作,即從一個協(xié)處理器到另一個協(xié)處理器的即時端到端處理,而不需要在執(zhí)行過程中訪問任何內(nèi)存。

這些優(yōu)化有多重要?圖 3 顯示,與 CEVA 的上一代 AI 處理器相比,單引擎 NPM11 內(nèi)核在典型的 ResNet50 實施中實現(xiàn)了性能提升。您可以看到,基本的、原生的操作實現(xiàn)了近五倍的性能提升。

添加 Winograd 轉(zhuǎn)換,然后添加稀疏引擎可以進一步提高性能,最高可達上一代處理器的 9.3 倍。最后,對一些網(wǎng)絡(luò)層使用混合精度(8x8 和低分辨率 4x4)權(quán)重和激活,在可以忽略不計的精度損失的情況下,進一步提高了性能--實現(xiàn)了比上一代處理器近15倍的性能提升,比原生處理快 2.9 倍。

ce7dd100-2848-11ed-ba43-dac502259ad0.png

圖 3:NPM11(單引擎內(nèi)核)性能改進

結(jié)論

我們已經(jīng)看到了新內(nèi)存架構(gòu)和本地“負載平衡”控制實現(xiàn)(流水線處理對比連續(xù)處理相同數(shù)據(jù)),最大限度地減少外部訪問的情形,并充分利用了硬件,可以在不需要更多功耗的情況下提高性能,以及 Winograd 轉(zhuǎn)換和稀疏性等優(yōu)化進一步提升性能的方法。

總而言之,現(xiàn)代 AI 處理器可以提供完全可編程的硬件/軟件開發(fā)環(huán)境,具有要求苛刻的邊緣 AI 應(yīng)用所需的性能、能效和靈活性,這使設(shè)計工程師能夠從其系統(tǒng)內(nèi)的有效AI實現(xiàn)中受益,而不會增加超出其便攜式邊緣設(shè)備預(yù)算的功耗。

審核編輯:彭靜
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • dsp
    dsp
    +關(guān)注

    關(guān)注

    561

    文章

    8244

    瀏覽量

    366687
  • 藍牙
    +關(guān)注

    關(guān)注

    119

    文章

    6313

    瀏覽量

    178742
  • 帶寬
    +關(guān)注

    關(guān)注

    3

    文章

    1040

    瀏覽量

    43375
  • CEVA
    +關(guān)注

    關(guān)注

    1

    文章

    197

    瀏覽量

    77198
  • AI處理器
    +關(guān)注

    關(guān)注

    0

    文章

    94

    瀏覽量

    10026

原文標(biāo)題:CEVA的NeuPro-M AI 處理器如何迎接邊緣 AI 挑戰(zhàn)

文章出處:【微信號:CEVA-IP,微信公眾號:CEVA】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    Cortex-M0 處理器介紹

    Cortex-M0 處理器簡介ARM公司的Cortex-M0應(yīng)用于各種微控制(MCU)中,并可讓研發(fā)工程師以8位的價位創(chuàng)造32位的的效能,并將傳統(tǒng)的8位和16位的
    發(fā)表于 01-16 08:04

    Ceva 添加 Sensory 的 TrulyHandsfree 語音激活功能, 增強 NeuPro-Nano NPU 生態(tài)系統(tǒng)

    NeuPro-Nano現(xiàn)可使用Sensory 業(yè)界領(lǐng)先的嵌入式語音喚醒詞技術(shù) 可在下一代邊緣 AI SoC 中實現(xiàn)始終在線的超低功耗應(yīng)用 隨著市場對超低功耗設(shè)備中人工智能驅(qū)動、語音優(yōu)先的用戶
    的頭像 發(fā)表于 01-09 11:22 ?485次閱讀
    <b class='flag-5'>Ceva</b> 添加 Sensory 的 TrulyHandsfree 語音激活功能, 增強 <b class='flag-5'>NeuPro</b>-Nano NPU 生態(tài)系統(tǒng)

    Ceva在恩智浦的軟件定義車輛處理器上實現(xiàn) 實時人工智能加速

    恩智浦 * S32Z2 和 S32E2 實時處理器集成 Ceva**的* * AI DSP* ,為軟件定義車輛提供預(yù)測分析、能量管理和智能控制功能 隨著車輛向軟件定義平臺演進,對實時處理
    的頭像 發(fā)表于 01-09 11:14 ?532次閱讀
    <b class='flag-5'>Ceva</b>在恩智浦的軟件定義車輛<b class='flag-5'>處理器</b>上實現(xiàn) 實時人工智能加速

    瑞芯微SOC智能視覺AI處理器

    需要連接多種外設(shè)的產(chǎn)品。顯示: 支持雙屏異顯,最高4K@60fps輸出。 RK1126B: 一款集成自研NPU的智能視覺AI處理器,專注于視頻輸入端的AI分析與處理。CPU: 雙核A5
    發(fā)表于 12-19 13:44

    AMD推出 EPYC 嵌入式 2005 系列處理器 滿足長期部署需求

    AMD 推出 AMD EPYC(霄龍)嵌入式 2005 系列處理器正是為了滿足這些不斷演進的需求。該系列處理器以小巧的 BGA(球柵陣列)封裝,為需要全天候( 24/7 )運行的網(wǎng)絡(luò)、存儲和工業(yè)基礎(chǔ)設(shè)施系統(tǒng)提供高性能、高能
    的頭像 發(fā)表于 12-17 09:53 ?7.3w次閱讀
    AMD推出 EPYC 嵌入式 2005 系列<b class='flag-5'>處理器</b> 滿足長期部署需求

    基于E203 NICE協(xié)處理器擴展指令

    擴展到某些特定領(lǐng)域可以非常明顯地提高能比。NICE協(xié)處理器(Nuclei Instruction Co-unitExtension,蜂鳥內(nèi)核指令協(xié)處理器擴展機制)是一個獨立于蜂鳥E2
    發(fā)表于 10-21 14:35

    基于E203 NICE協(xié)處理器擴展指令2.0

    非常明顯地提高能比。NICE協(xié)處理器(Nuclei Instruction Co-unit Extension,蜂鳥內(nèi)核指令協(xié)處理器擴展機制)是一個獨立于蜂鳥E203內(nèi)核的一塊運算單
    發(fā)表于 10-21 10:39

    Cortex-M0+處理器的HardFault錯誤介紹

    在ARM處理器中,如果一個程序產(chǎn)生了錯誤并且被處理器檢測到,就會產(chǎn)生錯誤異常。Cortex-M0+處理器只有一種異常用以處理錯誤:HardF
    的頭像 發(fā)表于 10-14 10:50 ?3390次閱讀
    Cortex-<b class='flag-5'>M</b>0+<b class='flag-5'>處理器</b>的HardFault錯誤介紹

    安謀科技發(fā)布“星辰”STAR-MC3,提升MCU AI處理能力

    Helium?技術(shù),顯著提升CPU在AI計算方面的性能,同時兼具優(yōu)異的面比與能比,實現(xiàn)高性能與低功耗設(shè)計,面向AIoT智能物聯(lián)網(wǎng)領(lǐng)域,為主控芯片及協(xié)處理器提供核芯架構(gòu),助力客戶高
    的頭像 發(fā)表于 09-29 08:53 ?1.1w次閱讀
    安謀科技發(fā)布“星辰”STAR-MC3,提升MCU <b class='flag-5'>AI</b><b class='flag-5'>處理</b>能力

    瑞薩電子RZ/V系列微處理器助力邊緣AI開發(fā)

    邊緣AI越來越多地應(yīng)用于諸如工業(yè)攝像頭和公共設(shè)施攝像頭等嵌入式設(shè)備中,并要求嵌入式產(chǎn)品小型化且具有低功耗。瑞薩電子RZ/V系列微處理器(MPU)內(nèi)置AI加速,即動態(tài)可重構(gòu)
    的頭像 發(fā)表于 09-23 10:31 ?896次閱讀
    瑞薩電子RZ/V系列微<b class='flag-5'>處理器</b>助力邊緣<b class='flag-5'>AI</b>開發(fā)

    TLM1211F-121LE大功率貼片功率電感現(xiàn)貨庫存

    (4 引腳,非標(biāo)準(zhǔn)引腳排列)屏蔽結(jié)構(gòu):無屏蔽(Unshielded)產(chǎn)品特性一體成型設(shè)計:采用一體成型工藝,具有高能量儲存和低直流電阻(DCR)特性,有助于提高電路效率。大電流處理能力
    發(fā)表于 08-11 09:20

    AMD嵌入式處理器為您的應(yīng)用添能助力

    AMD 面向嵌入式應(yīng)用打造高性能、高能處理器,全方位滿足網(wǎng)絡(luò)、存儲、汽車、工業(yè)、零售、醫(yī)療、測試與測量等領(lǐng)域的各種需求。無論您的應(yīng)用是涉及 AI 加速、機器視覺、安全數(shù)據(jù)
    的頭像 發(fā)表于 07-07 14:09 ?1900次閱讀

    優(yōu)化電機控制以提高能

    ,VFD中從絕緣柵雙極型晶體管(IGBT)到碳化硅(SiC)技術(shù)的升級,也帶來了更高能和更快開關(guān)速度。 變頻驅(qū)動(VFD)及其技術(shù)影響 變頻驅(qū)動(VFD)通過實現(xiàn)對電機轉(zhuǎn)速和轉(zhuǎn)矩
    發(fā)表于 06-11 09:57

    光子 AI 處理器的核心原理及突破性進展

    電子發(fā)燒友網(wǎng)(文 / 李彎彎)光子 AI 處理器,作為一種借助光子執(zhí)行信息處理與人工智能(AI)計算的新型硬件設(shè)備,正逐漸嶄露頭角。與傳統(tǒng)基于晶體管的電子
    的頭像 發(fā)表于 04-19 00:40 ?4180次閱讀

    如何基于Kahn處理網(wǎng)絡(luò)定義AI引擎圖形編程模型

    本白皮書探討了如何基于 Kahn 處理網(wǎng)絡(luò)( KPN )定義 AI 引擎圖形編程模型。KPN 模型有助于實現(xiàn)數(shù)據(jù)流并行化,進而提高系統(tǒng)的整體性能。
    的頭像 發(fā)表于 04-17 11:31 ?874次閱讀
    如何基于Kahn<b class='flag-5'>處理</b>網(wǎng)絡(luò)定義<b class='flag-5'>AI</b>引擎圖形編程模型