国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

用于有效使用TinyML的隨機計算架構

星星科技指導員 ? 來源:嵌入式計算設計 ? 作者:Abhishek Jadhav ? 2022-07-11 09:20 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

神經網絡是一種流行的機器學習模型,但它們需要更高的能耗和更復雜的硬件設計。隨機計算是平衡硬件效率和計算性能之間權衡的一種有效方式。然而,由于算術單元的低數據精度和不準確性,隨機計算見證了 ML 工作負載的低準確性。

為了解決與傳統隨機計算方法相關的問題,并通過更高的精度和更低的功耗來提高性能,正在進行的研究提出了一種改進的基于塊的隨機計算架構。通過在輸入層中引入塊,可以通過利用高數據并行性來減少延遲。更重要的是確定全局優化方法所需要的塊數。

現有的方法包括增加比特流的長度以提高數據精度,甚至使用指數比特來獲得準確的結果。然而,這引入了較長的計算延遲,這對于 TinyML 應用程序來說是不合理的。因此,為了應對這種不斷上升的計算延遲,比特流被分成塊然后并行執行。結合塊內算術單元和輸出修正 (OUR) 方案可緩解塊間不準確問題,從而提供高計算效率。

基于塊的隨機計算架構

研究提供了一種新穎的架構,其中輸入被劃分為塊并使用優化的塊內算術單元并行執行乘法和加法。此外,在 TinyML 應用程序的延遲-功耗權衡方面,所提出的模型是一個出色的架構。

架構劃分如下:

塊劃分

如上圖所示,輸入比特流被劃分為“k”個值塊。所提出的想法是,為比特流選擇大量塊并不能保證是最佳的,但可以用于接近近似值。如果在選擇塊數時出現錯誤,這可能會自相矛盾地導致大錯誤。在確定來自輸入比特流的正和負部分的兩個平均值的概率方面存在復雜的計算。

塊內計算

緩解了傳統加法器面臨的OR加法器相關問題和分離加法器溢出問題。新修改的架構設計在輸入之間帶有 XNOR+AND 門,以消除雙極計算的相關性。

每個輸入位都在并行計數器 (PC) 中獲取,對于正負部分 (Ap, An) 分別進行處理。有兩個專用累加器用于處理有符號位。取輸入位后,累加器之間發生減法,如正負部分所示。目標是獲得所有輸入的累積 1 的數量。進一步地,比較取時間輸出(Sop,Son)中的一位,在多個“n”個循環之后,計算符號位,并根據符號位Ap和An,選擇Sop和Son的輸出結果。

這種新的基于累加器的符號幅度格式加法器利用 unNSADD 加法器來比較輸出和輸入中的實際累加 1 以確定輸出位。這種方法消除了相關性和快速溢出問題的影響。

塊間??輸出修正方案

盡管塊內加法器解決了相關性和溢出問題,但塊劃分引入了新的塊間不準確錯誤。乘法器不會發生這種情況,因為輸入是 XNORed 和 ANDed。但是對于加法器,輸出中 1 的數量可能會偏離所產生的不準確性。輸出修訂方案在并行塊內計算階段之后添加或刪除 1s,而不會引入任何額外的延遲來解決這些塊間不準確錯誤。

新穎的基于塊的隨機計算架構旨在提高隨機計算運算電路的精度,同時降低計算延遲和能源效率。根據研究結果,該方法比現有方法的準確度提高了 10% 以上,并節省了 6 倍以上的功率。

審核編輯:郭婷

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 神經網絡
    +關注

    關注

    42

    文章

    4838

    瀏覽量

    107839
  • 機器學習
    +關注

    關注

    66

    文章

    8554

    瀏覽量

    136982
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    如何在LTspice仿真中實現偽隨機數和真隨機數的生成

    本文討論如何在LTspice仿真中利用flat()、gauss()和mc()函數來實現偽隨機數和真隨機數的生成,并介紹如何使用設置面板的Hacks部分中的 Use the clock
    的頭像 發表于 01-09 14:08 ?4697次閱讀
    如何在LTspice仿真中實現偽<b class='flag-5'>隨機</b>數和真<b class='flag-5'>隨機</b>數的生成

    雙口SRAM靜態隨機存儲器存儲原理

    在各類存儲設備中,SRAM(靜態隨機存儲器)因其高速、低功耗和高可靠性,被廣泛應用于高性能計算、通信和嵌入式系統中。其中,雙口SRAM靜態隨機存儲器憑借其獨特的雙端口設計,在高帶寬和多
    的頭像 發表于 11-25 14:28 ?571次閱讀

    架構計算機系統能力核心課程教學研討會圓滿舉行

    2025年11月8日,由教育部計算機類專業系統能力課程群虛擬教研室指導、北京航空航天大學計算機學院主辦的龍架構計算機系統能力核心課程教學研討會在京舉行。
    的頭像 發表于 11-14 13:52 ?652次閱讀

    用于RISCV的F指令集實現的浮點計算單元(FPU)設計方案

    實現功能 為了完成F拓展,我們計劃在ALU內添加一個專用于計算單精度浮點數的FPU單元。 2.1 實現riscv的F指令集拓展 即需要實現26條F指令: 以下部分指令返回地址是給整數寄存器,紅色
    發表于 10-24 07:43

    隨機數和偽隨機數的區別

    隨機數在當前程序運行環境中是一種常用參數,目前主要分為兩種,偽隨機數和真隨機數,本期我們就來講一下二者的區別。
    的頭像 發表于 08-27 17:46 ?2651次閱讀

    【PZ-ZU15EG-KFB】——ZYNQ UltraScale + 異構架構下的智能邊緣計算標桿

    及747K邏輯單元FPGA,形成"通用計算+實時控制+定制加速"架構。產品具備8GB DDR4/64GB eMMC存儲、8×16.3Gb/s高速接口,支持-40~85℃寬溫工作,適用于機器視覺、工業控制、醫療
    的頭像 發表于 07-22 09:47 ?1095次閱讀
    【PZ-ZU15EG-KFB】——ZYNQ UltraScale + 異構<b class='flag-5'>架構</b>下的智能邊緣<b class='flag-5'>計算</b>標桿

    知合計算:RISC-V架構創新,阿基米德系列劍指高性能計算

    在2025 RISC-V中國峰會上,知合計算處理器設計總監劉暢就高性能RISC-V處理器架構探索與實踐進行了精彩分享。 在以X86和ARM為代表的處理器架構之下,RISC-V在高性能計算
    的頭像 發表于 07-18 14:17 ?2752次閱讀
    知合<b class='flag-5'>計算</b>:RISC-V<b class='flag-5'>架構</b>創新,阿基米德系列劍指高性能<b class='flag-5'>計算</b>

    異構計算解決方案(兼容不同硬件架構

    異構計算解決方案通過整合不同類型處理器(如CPU、GPU、NPU、FPGA等),實現硬件資源的高效協同與兼容,滿足多樣化計算需求。其核心技術與實踐方案如下: 一、硬件架構設計 異構處理器組合? 主從
    的頭像 發表于 06-23 07:40 ?870次閱讀

    如何釋放異構計算的潛能?Imagination與Baya Systems的系統架構實踐啟示

    報告作者:PallaviSharma,Imaginaiton產品管理總監Dr.EricNorige,BayaSystems首席軟件架構師關注Imagination公眾號,消息框發送【異構計算】,即可
    的頭像 發表于 06-13 08:33 ?1155次閱讀
    如何釋放異構<b class='flag-5'>計算</b>的潛能?Imagination與Baya Systems的系統<b class='flag-5'>架構</b>實踐啟示

    GPU架構深度解析

    GPU架構深度解析從圖形處理到通用計算的進化之路圖形處理單元(GPU),作為現代計算機中不可或缺的一部分,已經從最初的圖形渲染專用處理器,發展成為強大的并行計算引擎,廣泛應
    的頭像 發表于 05-30 10:36 ?1873次閱讀
    GPU<b class='flag-5'>架構</b>深度解析

    能效提升3倍!異構計算架構讓AI跑得更快更省電

    電子發燒友網報道(文/李彎彎)異構計算架構通過集成多種不同類型的處理單元(如CPU、GPU、NPU、FPGA、DSP等),針對不同計算任務的特點進行分工協作,從而在性能、能效和靈活性之間實現最優平衡
    的頭像 發表于 05-25 01:55 ?4024次閱讀

    Arm架構何以成為現代計算的基礎

    2025 年 4 月,Arm 架構迎來了問世 40 周年。這個始于英國劍橋一隅、懷揣雄心壯志的項目,如今已成為全球廣泛采用的計算架構。從傳感器、智能手機、筆記本電腦,到汽車、數據中心等諸多領域,有數十億設備如今運行在 Arm
    的頭像 發表于 05-20 10:02 ?1206次閱讀

    讓智能遍布人形機器人全身,這家國產MCU企業探索MCU+AI(TinyML

    大模型主要用于處理語義理解、復雜場景感知和長期任務規劃等高層智能任務,能讓人形機器人在標準化場景中表現出色。但在對實時性要求極高的個性化場景里,AI 大模型卻無法滿足實時控制需求。因此,?MCU+AI(TinyML) 成為一種有效
    的頭像 發表于 04-14 00:44 ?2621次閱讀
    讓智能遍布人形機器人全身,這家國產MCU企業探索MCU+AI(<b class='flag-5'>TinyML</b>)

    STM32U5?(超低功耗MCU,支持TinyML)全面解析

    STM32U5是意法半導體(ST)推出的一款面向低功耗、高安全性與AIoT應用的微控制器(MCU),其設計深度整合了超低功耗架構TinyML(輕量化機器學習)支持能力。以下從技術特性、TinyML
    的頭像 發表于 04-08 17:38 ?3922次閱讀
    STM32U5?(超低功耗MCU,支持<b class='flag-5'>TinyML</b>)全面解析

    基于玻色量子相干光量子計算機的混合量子經典計算架構

    近日,北京玻色量子科技有限公司(以下簡稱“玻色量子”)與北京師范大學、中國移動研究院組成的聯合研究團隊提出一種基于相干光量子計算機的混合量子-經典計算架構,結合量子計算范式和經典
    的頭像 發表于 03-10 15:43 ?1217次閱讀
    基于玻色量子相干光量子<b class='flag-5'>計算</b>機的混合量子經典<b class='flag-5'>計算</b><b class='flag-5'>架構</b>