国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

用基于SRAM的測試芯片實現(xiàn)加速AI推理

石玉蘭 ? 來源:小點(diǎn)zze ? 作者:小點(diǎn)zze ? 2022-07-21 15:50 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

瑞薩電子開發(fā)了一種新的內(nèi)存處理器 (PIM) 技術(shù),用于在低功耗邊緣設(shè)備中加速 AI 推理。用于基于 SRAM 技術(shù)的測試芯片實現(xiàn)了 8.8 TOPS/W 的運(yùn)行卷積神經(jīng)網(wǎng)絡(luò) (CNN) 工作負(fù)載,這是最常用于圖像識別的算法類型。

瑞薩電子現(xiàn)有一代 AI 推理加速器基于其動態(tài)可重構(gòu)處理器 (DRP) 架構(gòu),達(dá)到 1 TOPS/W 量級,足以在終端節(jié)點(diǎn)實現(xiàn)實時圖像識別。該公司表示,新的 PIM 技術(shù)在 TOPS/W 方面幾乎提高了一個數(shù)量級,并且可能成為在端點(diǎn)實施增量學(xué)習(xí)的基礎(chǔ)。

內(nèi)存處理器是一種越來越流行的人工智能推理工作負(fù)載技術(shù),其中涉及將大量輸入數(shù)據(jù)與權(quán)重因子相乘。在 PIM 設(shè)備中,當(dāng)讀取數(shù)據(jù)時,在存儲器本身中執(zhí)行乘法累加 (MAC) 操作。

在瑞薩電子設(shè)備中,存儲權(quán)重的存儲單元可以通過控制單元的輸出開關(guān)與輸入數(shù)據(jù)相乘,從而控制輸出電流。測量位線中的電流然后有效地將所有輸出加在一起。以這種方式在內(nèi)存中執(zhí)行 MAC 操作,通過避免不必要的數(shù)據(jù)傳輸,消除了內(nèi)存和處理器之間的瓶頸。

三元SRAM

在接受 EETimes 的獨(dú)家采訪時,瑞薩電子高級首席工程師 Koichi Nose 解釋了用于提高精度和降低功耗的新技術(shù)。

“傳統(tǒng)的內(nèi)存處理器技術(shù)無法為大規(guī)模計算提供足夠的精度,”Nose 說,并強(qiáng)調(diào)了傳統(tǒng)上需要解決的變通辦法,以規(guī)避由工藝變化引起的低可靠性。“二進(jìn)制數(shù)據(jù)也不足以表達(dá)一些復(fù)雜的神經(jīng)網(wǎng)絡(luò)……它會導(dǎo)致準(zhǔn)確性下降。”

新的 PIM 技術(shù)是三元的,這意味著每個單元都具有三種狀態(tài):-1、0 或 1。Nose 解釋說,這允許表示比二進(jìn)制單元更復(fù)雜的數(shù)據(jù)。

如果三進(jìn)制存儲單元保持+1或-1,則電流可以流入位線,但如果存儲單元存儲0,則沒有電流流動,這有助于保持低功耗。

“此外,重量數(shù)據(jù)可以很容易地擴(kuò)展到任意位數(shù),”Nose 說。“神經(jīng)網(wǎng)絡(luò)中的權(quán)重數(shù)據(jù)是多位信息,一個零或一個大的正負(fù)值。在二進(jìn)制單元中表達(dá)多位符號信息很困難。所提出的存儲器電路可以通過利用三元單元和簡單的數(shù)字計算塊的組合來輕松表達(dá)任意符號位操作......因為這可以支持每個用戶所需的不同計算精度,用戶可以優(yōu)化精度和精度之間的平衡能量消耗。”

能量消耗

Nose 表示,傳統(tǒng)的 PIM 拓?fù)涫褂?ADC 將位線電流轉(zhuǎn)換為輸出數(shù)據(jù)值,但盡管 ADC 很有效,但它們耗電大且占用寶貴的芯片面積。

瑞薩電子的 PIM 技術(shù)使用標(biāo)準(zhǔn) SRAM 宏中的 1 位讀出放大器作為比較器,與可靈活控制電流的復(fù)制單元(相當(dāng)于存儲單元的當(dāng)前生成部分)結(jié)合使用。將復(fù)制單元電流與三元單元電流進(jìn)行比較有效地檢測三元單元的電流輸出。

零檢測器還有助于降低功耗。如果 MAC 運(yùn)算結(jié)果等于 0,則停止比較器的操作以節(jié)省能量。

“在 [典型] 神經(jīng)網(wǎng)絡(luò)電路中,幾乎所有節(jié)點(diǎn)都分配為零;只有少量的神經(jīng)元被激活,大約 1%。所以幾乎所有的計算結(jié)果都?xì)w零,”Nose 說。“激活零檢測器電路會關(guān)閉比較器并有助于降低功耗。通過將比較器 AD 轉(zhuǎn)換器技術(shù)和零檢測器技術(shù)相結(jié)合,可以將功耗降低一個數(shù)量級。”

工藝變化

在 SRAM 陣列中,制造工藝的變化經(jīng)常導(dǎo)致故障。由于這些工藝變化,當(dāng)將數(shù)據(jù)寫入具有顯著不同電氣特性的單個單元時,就會出現(xiàn)錯誤。

“為了避免這個問題,我們使用了神經(jīng)網(wǎng)絡(luò)的相同特征——幾乎所有節(jié)點(diǎn)都分配為零,”他說。“我們可以通過改組數(shù)據(jù)來避免計算錯誤,以便將零存儲在 [不利] 受影響的單元格中。”

在三進(jìn)制存儲單元中,如果存儲零,則位線中沒有電流流動,因此求和結(jié)果不依賴于單元電流。

如何識別受到不利影響的細(xì)胞?

“我們正在開發(fā)其他一些錯誤單元檢測方法,但在這個芯片中,我們使用了一種簡單的方法,”他說。“我們測量神經(jīng)網(wǎng)絡(luò)的輸出并檢查結(jié)果是否正確,以識別[不存儲]正確輸出值的錯誤單元。”

測試芯片

Renesas 的 3×3 mm 測試芯片基于 12nm 工藝技術(shù)構(gòu)建,由四個集群組成,每個集群可以同時運(yùn)行不同的 AI 工藝。在每個集群中,神經(jīng)網(wǎng)絡(luò)權(quán)重數(shù)據(jù)存儲在 PIM 塊中,MAC 運(yùn)算結(jié)果存儲在標(biāo)準(zhǔn) SRAM 塊中。

測試芯片包含 4 Mb 的 PIM 計算內(nèi)存和 1.5 MB 的 SRAM,足以在不使用外部存儲器的情況下評估緊湊型 CNN。該芯片實現(xiàn)了8.8 TOPS/W的功率效率。

原型 AI 模塊中的測試芯片的簡單演示還結(jié)合了小型電池、微控制器、相機(jī)和其他外圍設(shè)備,表明只需 5 mW 即可實現(xiàn)用于實時人員檢測的推理。

審核編輯 黃昊宇
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 芯片
    +關(guān)注

    關(guān)注

    463

    文章

    54010

    瀏覽量

    466129
  • sram
    +關(guān)注

    關(guān)注

    6

    文章

    820

    瀏覽量

    117470
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    39793

    瀏覽量

    301438
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    AI推理芯片需求爆發(fā),OpenAI欲尋求新合作伙伴

    電子發(fā)燒友網(wǎng)綜合報道,在人工智能迅猛發(fā)展的當(dāng)下,AI推理芯片需求正呈爆發(fā)式增長。 ? AI推理,即支撐如ChatGPT這類
    的頭像 發(fā)表于 02-03 17:15 ?1999次閱讀

    使用NORDIC AI的好處

    ; 自定義 Neuton 模型博客] Axon NPU :集成在 nRF54LM20B 等高端 SoC 中的專用 AI 加速器,對 TensorFlow Lite 模型可實現(xiàn)最高約 15×
    發(fā)表于 01-31 23:16

    算力密度翻倍!江原D20加速卡發(fā)布,一卡雙芯重構(gòu)AI推理標(biāo)桿

    的關(guān)鍵技術(shù)瓶頸。 ? 在此背景下,江原科技推出采用自研AI芯片AI加速卡江原D10,并在今年5月實現(xiàn)量產(chǎn)交付。在大算力
    的頭像 發(fā)表于 11-14 08:21 ?1w次閱讀
    算力密度翻倍!江原D20<b class='flag-5'>加速</b>卡發(fā)布,一卡雙芯重構(gòu)<b class='flag-5'>AI</b><b class='flag-5'>推理</b>標(biāo)桿

    如何利用Verilog HDL在FPGA上實現(xiàn)SRAM的讀寫測試

    本篇將詳細(xì)介紹如何利用Verilog HDL在FPGA上實現(xiàn)SRAM的讀寫測試SRAM是一種非易失性存儲器,具有高速讀取和寫入的特點(diǎn)。在FPGA中
    的頭像 發(fā)表于 10-22 17:21 ?4345次閱讀
    如何利用Verilog HDL在FPGA上<b class='flag-5'>實現(xiàn)</b><b class='flag-5'>SRAM</b>的讀寫<b class='flag-5'>測試</b>

    新思科技測試IO方案加速HPC和AI芯片量產(chǎn)

    實現(xiàn)更高性能目標(biāo),AI與HPC芯片設(shè)計正加速向芯粒架構(gòu)演進(jìn)。但是傳統(tǒng)單片機(jī)SOC已經(jīng)很難在尺寸上繼續(xù)擴(kuò)張,異構(gòu)集成已成為推動半導(dǎo)體創(chuàng)新的核心動力。然而,它也增加了
    的頭像 發(fā)表于 10-15 11:33 ?756次閱讀
    新思科技<b class='flag-5'>測試</b>IO方案<b class='flag-5'>加速</b>HPC和<b class='flag-5'>AI</b><b class='flag-5'>芯片</b>量產(chǎn)

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI芯片到AGI芯片

    、分布式群體智能 1)物聯(lián)網(wǎng)AGI系統(tǒng) 優(yōu)勢: 組成部分: 2)分布式AI訓(xùn)練 7、發(fā)展重點(diǎn):基于強(qiáng)化學(xué)習(xí)的后訓(xùn)練與推理 8、超越大模型:神經(jīng)符號計算 三、AGI芯片實現(xiàn) 1、技術(shù)需
    發(fā)表于 09-18 15:31

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+第二章 實現(xiàn)深度學(xué)習(xí)AI芯片的創(chuàng)新方法與架構(gòu)

    、Transformer 模型的后繼者 二、創(chuàng)新方法實現(xiàn)深度學(xué)習(xí)AI芯片 1、基于開源RISC-V的AI
    發(fā)表于 09-12 17:30

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI芯片的需求和挑戰(zhàn)

    ②Transformer引擎③NVLink Switch系統(tǒng)④機(jī)密計算⑤HBM FPGA: 架構(gòu)的主要特點(diǎn):可重構(gòu)邏輯和路由,可以快速實現(xiàn)各種不同形式的神經(jīng)網(wǎng)絡(luò)加速。 ASIC: 介紹了幾種ASIC AI
    發(fā)表于 09-12 16:07

    華為亮相2025金融AI推理應(yīng)用落地與發(fā)展論壇

    創(chuàng)新技術(shù)——UCM推理記憶數(shù)據(jù)管理器,旨在推動AI推理體驗升級,提升推理性價比,加速AI商業(yè)正循
    的頭像 發(fā)表于 08-15 09:45 ?1226次閱讀

    AI推理芯片賽道猛將,200億市值AI芯片企業(yè)赴港IPO

    設(shè)計及商業(yè)化。公司推出了面向企業(yè)級、消費(fèi)級、行業(yè)級三大類應(yīng)用場景的行業(yè)領(lǐng)先的NPU驅(qū)動AI推理芯片相關(guān)產(chǎn)品及服務(wù),成功打造了從AI推理基礎(chǔ)設(shè)
    的頭像 發(fā)表于 08-04 09:22 ?4671次閱讀
    <b class='flag-5'>AI</b><b class='flag-5'>推理</b><b class='flag-5'>芯片</b>賽道猛將,200億市值<b class='flag-5'>AI</b><b class='flag-5'>芯片</b>企業(yè)赴港IPO

    信而泰×DeepSeek:AI推理引擎驅(qū)動網(wǎng)絡(luò)智能診斷邁向 “自愈”時代

    模態(tài)的技術(shù)特性,DeepSeek正加速推動AI在金融、政務(wù)、科研及網(wǎng)絡(luò)智能化等關(guān)鍵領(lǐng)域的深度應(yīng)用。 信而泰:AI推理引擎賦能網(wǎng)絡(luò)智能診斷新范式信而泰深度整合DeepSeek-R1大模型
    發(fā)表于 07-16 15:29

    谷歌新一代 TPU 芯片 Ironwood:助力大規(guī)模思考與推理AI 模型新引擎?

    電子發(fā)燒友網(wǎng)報道(文 / 李彎彎)日前,谷歌在 Cloud Next 大會上,隆重推出了最新一代 TPU AI 加速芯片 ——Ironwood。據(jù)悉,該芯片預(yù)計于今年晚些時候面向 Go
    的頭像 發(fā)表于 04-12 00:57 ?3725次閱讀

    英偉達(dá)GTC2025亮點(diǎn):Oracle與NVIDIA合作助力企業(yè)加速代理式AI推理

    Oracle 數(shù)據(jù)庫與 NVIDIA AI 相集成,使企業(yè)能夠更輕松、快捷地采用代理式 AI Oracle 和 NVIDIA 宣布,NVIDIA 加速計算和推理軟件與 Oracle 的
    的頭像 發(fā)表于 03-21 12:01 ?1439次閱讀
    英偉達(dá)GTC2025亮點(diǎn):Oracle與NVIDIA合作助力企業(yè)<b class='flag-5'>加速</b>代理式<b class='flag-5'>AI</b><b class='flag-5'>推理</b>

    英偉達(dá)GTC25亮點(diǎn):NVIDIA Dynamo開源庫加速并擴(kuò)展AI推理模型

    DeepSeek-R1 上的吞吐量提高了 30 倍 NVIDIA 發(fā)布了開源推理軟件 NVIDIA Dynamo,旨在以高效率、低成本加速并擴(kuò)展 AI 工廠中的 AI
    的頭像 發(fā)表于 03-20 15:03 ?1236次閱讀

    Oracle 與 NVIDIA 合作助力企業(yè)加速代理式 AI 推理

    ——Oracle 和 NVIDIA 今日宣布,NVIDIA 加速計算和推理軟件與 Oracle 的 AI 基礎(chǔ)設(shè)施以及生成式 AI 服務(wù)首次實現(xiàn)
    發(fā)表于 03-19 15:24 ?577次閱讀
    Oracle 與 NVIDIA 合作助力企業(yè)<b class='flag-5'>加速</b>代理式 <b class='flag-5'>AI</b> <b class='flag-5'>推理</b>