人工智能算法無法以目前的速度保持增長。像深度神經(jīng)網(wǎng)絡這樣的算法——它受到大腦的松散啟發(fā),多層人工神經(jīng)元通過稱為權重的數(shù)值相互連接——每年都在變大。但如今,硬件改進已無法跟上運行這些海量算法所需的大量內(nèi)存和處理能力。很快,人工智能算法的規(guī)模可能會碰壁。
即使我們可以不斷擴大硬件以滿足人工智能的需求,也存在另一個問題:在傳統(tǒng)計算機上運行它們會浪費大量能源。運行大型人工智能算法產(chǎn)生的高碳排放已經(jīng)對環(huán)境有害,而且隨著算法變得越來越龐大,情況只會變得更糟。
一種稱為神經(jīng)形態(tài)計算的解決方案從生物大腦中汲取靈感來創(chuàng)建節(jié)能設計。不幸的是,雖然這些芯片在節(jié)能方面可以超過數(shù)字計算機,但它們?nèi)狈\行大型深度神經(jīng)網(wǎng)絡所需的計算能力。這讓人工智能研究人員很容易忽視它們。
這在 8 月終于改變了,當時Weier Wan , H.-S. Philip Wong、Gert Cauwenberghs和他們的同事展示了一種名為 NeuRRAM 的新型神經(jīng)形態(tài)芯片,其中包括 300 萬個存儲單元和數(shù)千個內(nèi)置于其硬件中的神經(jīng)元以運行算法。它使用一種相對較新的內(nèi)存類型,稱為電阻式 RAM 或 RRAM。與以前的 RRAM 芯片不同,NeuRRAM 被編程為以模擬方式運行,以節(jié)省更多的能源和空間。雖然數(shù)字存儲器是二進制的——存儲 1 或 0——但 NeuRRAM 芯片中的模擬存儲單元可以在一個完全連續(xù)的范圍內(nèi)存儲多個值。這使得芯片可以在相同數(shù)量的芯片空間中存儲來自大量 AI 算法的更多信息。
因此,新芯片可以在圖像和語音識別等復雜的人工智能任務上與數(shù)字計算機一樣執(zhí)行,作者聲稱它的能效提高了 1000 倍,為微型芯片運行越來越復雜的算法開辟了可能性在以前不適合人工智能的小型設備中,如智能手表和手機。
未參與這項工作的研究人員對結果印象深刻。“這篇論文非常獨特,”香港大學長期 RRAM 研究員王中瑞說。“它在不同的層面做出了貢獻——在設備層面、電路架構層面和算法層面。”
創(chuàng)造新的記憶
在數(shù)字計算機中,運行 AI 算法時浪費的大量能源是由一個簡單且普遍存在的設計缺陷造成的,該缺陷使每一次計算都效率低下。通常,計算機的內(nèi)存——它保存計算過程中處理的數(shù)據(jù)和數(shù)值——放置在遠離進行計算的處理器的主板上。
對于通過處理器傳輸?shù)男畔ⅲ斑@有點像你在通勤上花了八個小時,但你做了兩個小時的工作,”曾在斯坦福大學工作的計算機科學家萬說,他最近搬到了人工智能初創(chuàng)公司 Aizip。
將內(nèi)存和計算放在同一個地方的新型一體化芯片來解決這個問題似乎很簡單。它也更接近于我們的大腦可能如何處理信息,因為許多神經(jīng)科學家認為計算發(fā)生在神經(jīng)元群體中,而記憶是在神經(jīng)元之間的突觸加強或削弱它們的連接時形成的。但事實證明,制造這樣的設備很困難,因為目前的內(nèi)存形式與處理器中的技術不兼容。
幾十年前,計算機科學家開發(fā)了這些材料來制造新的芯片,這些芯片在存儲內(nèi)存的地方執(zhí)行計算——一種被稱為內(nèi)存計算的技術。但由于傳統(tǒng)的數(shù)字計算機表現(xiàn)如此出色,這些想法被忽視了幾十年。
“這項工作,就像大多數(shù)科學工作一樣,被遺忘了,”斯坦福大學教授 Wong 說。
事實上,第一個這樣的設備至少可以追溯到 1964 年,當時斯坦福大學的電氣工程師發(fā)現(xiàn)他們可以操縱某些稱為金屬氧化物的材料來打開和關閉其導電能力。這很重要,因為材料在兩種狀態(tài)之間切換的能力為傳統(tǒng)內(nèi)存存儲提供了支柱。通常,在數(shù)字存儲器中,高電壓狀態(tài)對應于 1,低電壓狀態(tài)對應于 0。
為了讓 RRAM 設備切換狀態(tài),您需要在連接到金屬氧化物兩端的金屬電極上施加電壓。通常,金屬氧化物是絕緣體,這意味著它們不導電。但有了足夠的電壓,電流就會積聚起來,最終穿過材料的薄弱環(huán)節(jié),形成通往另一側電極的路徑。一旦電流突破,它就可以沿著該路徑自由流動。
Wong 將這個過程比作閃電:當云中積聚了足夠多的電荷時,它會迅速找到一條低電阻路徑并發(fā)生雷擊。但與路徑消失的閃電不同,穿過金屬氧化物的路徑仍然存在,這意味著它可以無限期地保持導電。并且可以通過向材料施加另一個電壓來擦除導電路徑。因此研究人員可以在兩種狀態(tài)之間切換 RRAM,并使用它們來存儲數(shù)字存儲器。
世紀中葉的研究人員沒有認識到節(jié)能計算的潛力,他們也不需要使用他們正在使用的更小的算法。直到 2000 年代初,隨著新金屬氧化物的發(fā)現(xiàn),研究人員才意識到這種可能性。
當時在 IBM 工作的 Wong 回憶說,一位從事 RRAM 工作的獲獎同事承認,他并不完全了解所涉及的物理原理。“如果他不理解,”Wong 回憶道,“也許我不應該嘗試去理解它。”
但在 2004 年,三星電子的研究人員宣布他們已經(jīng)成功地將 RRAM 內(nèi)存集成在傳統(tǒng)計算芯片之上,這表明內(nèi)存計算芯片最終可能成為可能。王決定至少嘗試一下。
用于人工智能的內(nèi)存計算芯片
十多年來,像 Wong 這樣的研究人員一直致力于將 RRAM 技術構建到能夠可靠地處理高性能計算任務的地步。大約在 2015 年左右,計算機科學家開始認識到這些節(jié)能設備對于大型 AI 算法的巨大潛力,并開始起飛。那一年,加州大學圣巴巴拉分校的科學家表明,RRAM 設備可以做的不僅僅是以一種新的方式存儲內(nèi)存。他們可以自己執(zhí)行基本的計算任務——包括在神經(jīng)網(wǎng)絡的人工神經(jīng)元中發(fā)生的絕大多數(shù)計算,這些都是簡單的矩陣乘法任務。
在 NeuRRAM 芯片中,硅神經(jīng)元內(nèi)置于硬件中,RRAM 存儲單元存儲權重——代表神經(jīng)元之間連接強度的值。由于 NeuRRAM 存儲單元是模擬的,它們存儲的權重代表了設備在低電阻狀態(tài)和高電阻狀態(tài)之間切換時出現(xiàn)的所有電阻狀態(tài)。這實現(xiàn)了比數(shù)字 RRAM 存儲器更高的能效,因為該芯片可以并行運行許多矩陣計算,而不是像數(shù)字處理版本那樣一個接一個地同步運行。
但由于模擬處理仍落后于數(shù)字處理數(shù)十年,仍有許多問題需要解決。一是模擬 RRAM 芯片必須異常精確,因為物理芯片上的缺陷會引入可變性和噪聲。(對于只有兩種狀態(tài)的傳統(tǒng)芯片,這些缺陷幾乎沒有那么重要。)這使得模擬 RRAM 設備運行 AI 算法變得更加困難,因為識別圖像的準確性會受到影響,如果RRAM 器件的導電狀態(tài)并非每次都完全相同。
“當我們查看照明路徑時,每次都不同,”Wong 說。“因此,RRAM 表現(xiàn)出一定程度的隨機性——每次對它們進行編程都會略有不同。” Wong 和他的同事證明,如果對算法進行訓練以適應芯片上遇到的噪音,RRAM 設備可以存儲連續(xù)的 AI 權重,并且仍然與數(shù)字計算機一樣準確,這一進步使他們能夠生產(chǎn) NeuRRAM 芯片。
他們必須解決的另一個主要問題涉及支持各種神經(jīng)網(wǎng)絡所需的靈活性。過去,芯片設計人員必須將微型 RRAM 器件排列在較大的硅神經(jīng)元旁邊的一個區(qū)域中。RRAM 設備和神經(jīng)元是硬連線的,沒有可編程性,因此只能在一個方向上執(zhí)行計算。為了支持具有雙向計算的神經(jīng)網(wǎng)絡,需要額外的電線和電路,從而增加了能量和空間需求。
因此,Wong 的團隊設計了一種新的芯片架構,其中 RRAM 存儲設備和硅神經(jīng)元混合在一起。這種對設計的微小改動減少了總面積并節(jié)省了能源。
瑞士蘇黎世聯(lián)邦理工學院的神經(jīng)形態(tài)學研究員梅利卡·佩萬德說:“我認為 [這種安排] 真的很漂亮。” “我絕對認為這是一項開創(chuàng)性的工作。”
幾年來,Wong 的團隊與合作者一起在 NeuRRAM 芯片上設計、制造、測試、校準和運行 AI 算法。他們確實考慮使用其他新興類型的內(nèi)存,這些內(nèi)存也可用于內(nèi)存計算芯片,但 RRAM 具有優(yōu)勢,因為它在模擬編程方面具有優(yōu)勢,并且相對容易與傳統(tǒng)計算材料集成。
他們最近的結果代表了第一個可以運行如此龐大而復雜的 AI 算法的 RRAM 芯片——這一壯舉以前只能在理論模擬中實現(xiàn)。德雷塞爾大學的計算機科學家Anup Das說:“當涉及到真正的硅時,這種能力就缺失了。” “這項工作是第一次演示。”
“數(shù)字人工智能系統(tǒng)靈活而精確,但效率要低幾個數(shù)量級,”Cauwenberghs 說。現(xiàn)在,Cauwenberghs 說,他們靈活、精確和節(jié)能的模擬 RRAM 芯片“首次彌合了差距”。
擴大規(guī)模
該團隊的設計使 NeuRRAM 芯片很小——只有指甲大小——同時壓縮了 300 萬個可用作模擬處理器的 RRAM 存儲設備。雖然它至少可以像數(shù)字計算機一樣運行神經(jīng)網(wǎng)絡,但該芯片也(并且是第一次)可以運行在不同方向上執(zhí)行計算的算法。他們的芯片可以按照 RRAM 芯片的標準向 RRAM 陣列的行輸入電壓并從列讀取輸出,但它也可以從列到行反向執(zhí)行,因此它可以用于運行的神經(jīng)網(wǎng)絡數(shù)據(jù)流向不同的方向。
與 RRAM 技術本身一樣,這早已成為可能,但沒有人想過這樣做。“為什么我們以前沒有考慮過這個?” 佩萬德問道。“事后看來,我不知道。”
“這實際上開辟了許多其他機會,”達斯說。作為例子,他提到了一個簡單的系統(tǒng)能夠運行多維物理模擬或自動駕駛汽車所需的大量算法。
然而尺寸是個問題。最大的神經(jīng)網(wǎng)絡現(xiàn)在包含數(shù)十億個權重,而不是新芯片中包含的數(shù)百萬個權重。Wong 計劃通過堆疊多個 NeuRRAM 芯片來擴大規(guī)模。
在未來的設備中保持較低的能源成本或進一步縮小它們同樣重要。實現(xiàn)這一目標的一種方法是更緊密地復制大腦,以采用真實神經(jīng)元之間使用的通信信號:電脈沖。這是當細胞內(nèi)外的電壓差達到臨界閾值時,從一個神經(jīng)元向另一個神經(jīng)元發(fā)出的信號。
“那里面臨著巨大的挑戰(zhàn),”倫敦大學學院的納米技術研究員托尼·肯揚說。“但我們可能仍想朝那個方向發(fā)展,因為……如果您使用非常稀疏的尖峰,您可能會獲得更高的能源效率。” 然而,Kenyon 指出,要在當前的 NeuRRAM 芯片上運行峰值算法可能需要完全不同的架構。
目前,該團隊在 NeuRRAM 芯片上運行大型 AI 算法時實現(xiàn)的能源效率創(chuàng)造了新的希望,即內(nèi)存技術可能代表 AI 計算的未來。也許有一天,我們甚至能夠匹配人類大腦的 860 億個神經(jīng)元和連接它們的數(shù)萬億個突觸,而不會耗盡能量。
審核編輯 :李倩
-
神經(jīng)網(wǎng)絡
+關注
關注
42文章
4838瀏覽量
107801 -
人工智能
+關注
關注
1817文章
50098瀏覽量
265423 -
AI芯片
+關注
關注
17文章
2128瀏覽量
36783
原文標題:一種新型模擬AI芯片,能效提升了1000倍
文章出處:【微信號:芯長征科技,微信公眾號:芯長征科技】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
類腦計算突破:Neurofem算法讓AI芯片秒變數(shù)學天才,能效提升5倍
北大團隊最新研究:AI芯片算力提升數(shù)倍,能效提升超90倍
亞馬遜發(fā)布新一代AI芯片Trainium3,性能提升4倍
一種新型模擬AI芯片,能效提升了1000倍
評論