精品999久久久一级毛片,国产女呦精品一区二区三区,日韩精品乱码久久久蜜桃

瑞薩電子開發(fā)了一種新的內(nèi)存處理器 (PIM) 技術(shù)，用于在低功耗邊緣設(shè)備中加速 AI 推理。用于基于 SRAM 技術(shù)的測試芯片實現(xiàn)了 8.8 TOPS/W 的運(yùn)行卷積神經(jīng)網(wǎng)絡(luò) (CNN) 工作負(fù)載，這是最常用于圖像識別的算法類型。

瑞薩電子現(xiàn)有一代 AI 推理加速器基于其動態(tài)可重構(gòu)處理器 (DRP) 架構(gòu)，達(dá)到 1 TOPS/W 量級，足以在終端節(jié)點(diǎn)實現(xiàn)實時圖像識別。該公司表示，新的 PIM 技術(shù)在 TOPS/W 方面幾乎提高了一個數(shù)量級，并且可能成為在端點(diǎn)實施增量學(xué)習(xí)的基礎(chǔ)。

內(nèi)存處理器是一種越來越流行的人工智能推理工作負(fù)載技術(shù)，其中涉及將大量輸入數(shù)據(jù)與權(quán)重因子相乘。在 PIM 設(shè)備中，當(dāng)讀取數(shù)據(jù)時，在存儲器本身中執(zhí)行乘法累加 (MAC) 操作。

在瑞薩電子設(shè)備中，存儲權(quán)重的存儲單元可以通過控制單元的輸出開關(guān)與輸入數(shù)據(jù)相乘，從而控制輸出電流。測量位線中的電流然后有效地將所有輸出加在一起。以這種方式在內(nèi)存中執(zhí)行 MAC 操作，通過避免不必要的數(shù)據(jù)傳輸，消除了內(nèi)存和處理器之間的瓶頸。

三元SRAM

在接受 EETimes 的獨(dú)家采訪時，瑞薩電子高級首席工程師 Koichi Nose 解釋了用于提高精度和降低功耗的新技術(shù)。

“傳統(tǒng)的內(nèi)存處理器技術(shù)無法為大規(guī)模計算提供足夠的精度，”Nose 說，并強(qiáng)調(diào)了傳統(tǒng)上需要解決的變通辦法，以規(guī)避由工藝變化引起的低可靠性。“二進(jìn)制數(shù)據(jù)也不足以表達(dá)一些復(fù)雜的神經(jīng)網(wǎng)絡(luò)……它會導(dǎo)致準(zhǔn)確性下降。”

新的 PIM 技術(shù)是三元的，這意味著每個單元都具有三種狀態(tài)：-1、0 或 1。Nose 解釋說，這允許表示比二進(jìn)制單元更復(fù)雜的數(shù)據(jù)。

如果三進(jìn)制存儲單元保持+1或-1，則電流可以流入位線，但如果存儲單元存儲0，則沒有電流流動，這有助于保持低功耗。

“此外，重量數(shù)據(jù)可以很容易地擴(kuò)展到任意位數(shù)，”Nose 說。“神經(jīng)網(wǎng)絡(luò)中的權(quán)重數(shù)據(jù)是多位信息，一個零或一個大的正負(fù)值。在二進(jìn)制單元中表達(dá)多位符號信息很困難。所提出的存儲器電路可以通過利用三元單元和簡單的數(shù)字計算塊的組合來輕松表達(dá)任意符號位操作......因為這可以支持每個用戶所需的不同計算精度，用戶可以優(yōu)化精度和精度之間的平衡能量消耗。”

能量消耗

Nose 表示，傳統(tǒng)的 PIM 拓?fù)涫褂?ADC 將位線電流轉(zhuǎn)換為輸出數(shù)據(jù)值，但盡管 ADC 很有效，但它們耗電大且占用寶貴的芯片面積。

瑞薩電子的 PIM 技術(shù)使用標(biāo)準(zhǔn) SRAM 宏中的 1 位讀出放大器作為比較器，與可靈活控制電流的復(fù)制單元（相當(dāng)于存儲單元的當(dāng)前生成部分）結(jié)合使用。將復(fù)制單元電流與三元單元電流進(jìn)行比較有效地檢測三元單元的電流輸出。

零檢測器還有助于降低功耗。如果 MAC 運(yùn)算結(jié)果等于 0，則停止比較器的操作以節(jié)省能量。

“在 [典型] 神經(jīng)網(wǎng)絡(luò)電路中，幾乎所有節(jié)點(diǎn)都分配為零；只有少量的神經(jīng)元被激活，大約 1%。所以幾乎所有的計算結(jié)果都?xì)w零，”Nose 說。“激活零檢測器電路會關(guān)閉比較器并有助于降低功耗。通過將比較器 AD 轉(zhuǎn)換器技術(shù)和零檢測器技術(shù)相結(jié)合，可以將功耗降低一個數(shù)量級。”

工藝變化

在 SRAM 陣列中，制造工藝的變化經(jīng)常導(dǎo)致故障。由于這些工藝變化，當(dāng)將數(shù)據(jù)寫入具有顯著不同電氣特性的單個單元時，就會出現(xiàn)錯誤。

“為了避免這個問題，我們使用了神經(jīng)網(wǎng)絡(luò)的相同特征——幾乎所有節(jié)點(diǎn)都分配為零，”他說。“我們可以通過改組數(shù)據(jù)來避免計算錯誤，以便將零存儲在 [不利] 受影響的單元格中。”

在三進(jìn)制存儲單元中，如果存儲零，則位線中沒有電流流動，因此求和結(jié)果不依賴于單元電流。

如何識別受到不利影響的細(xì)胞？

“我們正在開發(fā)其他一些錯誤單元檢測方法，但在這個芯片中，我們使用了一種簡單的方法，”他說。“我們測量神經(jīng)網(wǎng)絡(luò)的輸出并檢查結(jié)果是否正確，以識別[不存儲]正確輸出值的錯誤單元。”

測試芯片

Renesas 的 3×3 mm 測試芯片基于 12nm 工藝技術(shù)構(gòu)建，由四個集群組成，每個集群可以同時運(yùn)行不同的 AI 工藝。在每個集群中，神經(jīng)網(wǎng)絡(luò)權(quán)重數(shù)據(jù)存儲在 PIM 塊中，MAC 運(yùn)算結(jié)果存儲在標(biāo)準(zhǔn) SRAM 塊中。

測試芯片包含 4 Mb 的 PIM 計算內(nèi)存和 1.5 MB 的 SRAM，足以在不使用外部存儲器的情況下評估緊湊型 CNN。該芯片實現(xiàn)了8.8 TOPS/W的功率效率。

原型 AI 模塊中的測試芯片的簡單演示還結(jié)合了小型電池、微控制器、相機(jī)和其他外圍設(shè)備，表明只需 5 mW 即可實現(xiàn)用于實時人員檢測的推理。

審核編輯黃昊宇

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

芯片

芯片

+關(guān)注

關(guān)注
463

文章
54010

瀏覽量
466129
sram

sram

+關(guān)注

關(guān)注
6

文章
820

瀏覽量
117470
AI

AI

+關(guān)注

關(guān)注
91

文章
39793

瀏覽量
301438

搜索歷史

用基于SRAM的測試芯片實現(xiàn)加速AI推理

評論