存算一體技術(shù)作為當下內(nèi)存廠商和不少AI芯片公司都在全力鉆研的方向,已經(jīng)有了不少成果展示,下一代智能存儲的產(chǎn)品均已呼之欲出了。但新技術(shù)的新生期就是這樣,不斷有新的初創(chuàng)企業(yè)冒頭,不斷有新的架構(gòu)和路線面世,而今年的HotChips34上,就有這么兩個存算一體技術(shù)的分享,在現(xiàn)有的存算一體生態(tài)上做出了創(chuàng)新,再度為這條賽道上的激烈競爭添油加醋。
1PB/s帶寬的千核RISC-V AI推理加速器
存算一體技術(shù)需要解決的,往往都是AI運算上的問題,比如訓(xùn)練和推理等等,所以不少做存算一體公司與AI芯片公司并無二致。而AI推理的出現(xiàn)為芯片設(shè)計者提出了三大關(guān)鍵挑戰(zhàn),一是不斷提升的算力和功耗要求,不說是存算一體芯片了,GPU、FPGA、ASIC等AI加速器都在往這個方向卷;二是神經(jīng)網(wǎng)絡(luò)的格局一直在變化,現(xiàn)有的芯片可能缺乏跟上節(jié)奏的擴展性和靈活性;第三則是推理精度的缺失,在某些業(yè)務(wù)中精度的缺失可能只是意味著虧損,但在ADAS這樣的應(yīng)用中,就很有可能危及人身安全。
加拿大本土AI初創(chuàng)公司Untether AI就打算從計算的角度來解決AI推理問題,早在2020年他們就推出了runAI200這款加速器芯片,不過該芯片基于臺積電16nm工藝,集成了200MB的SRAM,算力最高也只有500 TOPS(INT8),顯然不能滿足高性能的AI推理需求,但他們的思路卻從一開始就和其他存算一體公司不同。
我們常見的存算一體技術(shù)無疑就是近存計算和存內(nèi)計算這兩種,前者基于馮諾依曼架構(gòu),主要還是完成加快數(shù)據(jù)轉(zhuǎn)移的過程,后者通過模擬技術(shù)來完成乘法累加運算,再利用數(shù)字處理器來完成其他運算。
Untether AI卻提出了存間計算(At-MemoryComputation),將雙向的計算邏輯單元放在SRAM之間。如此一來不僅能提供大規(guī)模并行卻又簡短的直接連接,也能提供獨立優(yōu)化過的內(nèi)存,提升效率和帶寬,根據(jù)Untether AI所說,存間計算恰好能夠解決AI加速的痛點。
1PB/s帶寬的千核RISC-V AI推理加速器
存算一體技術(shù)需要解決的,往往都是AI運算上的問題,比如訓(xùn)練和推理等等,所以不少做存算一體公司與AI芯片公司并無二致。而AI推理的出現(xiàn)為芯片設(shè)計者提出了三大關(guān)鍵挑戰(zhàn),一是不斷提升的算力和功耗要求,不說是存算一體芯片了,GPU、FPGA、ASIC等AI加速器都在往這個方向卷;二是神經(jīng)網(wǎng)絡(luò)的格局一直在變化,現(xiàn)有的芯片可能缺乏跟上節(jié)奏的擴展性和靈活性;第三則是推理精度的缺失,在某些業(yè)務(wù)中精度的缺失可能只是意味著虧損,但在ADAS這樣的應(yīng)用中,就很有可能危及人身安全。
加拿大本土AI初創(chuàng)公司Untether AI就打算從計算的角度來解決AI推理問題,早在2020年他們就推出了runAI200這款加速器芯片,不過該芯片基于臺積電16nm工藝,集成了200MB的SRAM,算力最高也只有500 TOPS(INT8),顯然不能滿足高性能的AI推理需求,但他們的思路卻從一開始就和其他存算一體公司不同。
我們常見的存算一體技術(shù)無疑就是近存計算和存內(nèi)計算這兩種,前者基于馮諾依曼架構(gòu),主要還是完成加快數(shù)據(jù)轉(zhuǎn)移的過程,后者通過模擬技術(shù)來完成乘法累加運算,再利用數(shù)字處理器來完成其他運算。
Untether AI卻提出了存間計算(At-MemoryComputation),將雙向的計算邏輯單元放在SRAM之間。如此一來不僅能提供大規(guī)模并行卻又簡短的直接連接,也能提供獨立優(yōu)化過的內(nèi)存,提升效率和帶寬,根據(jù)Untether AI所說,存間計算恰好能夠解決AI加速的痛點。

Boqueria與競品的對比/ Untether AI
為此,Untether AI推出了Boqueria,一個算力高達2PFLOPS、能效比高達30TFLOPS/W的存間計算AI推理加速器芯片。Boqueria基于臺積電7nm打造,頻率高達1.35GHz,集成了729個存儲體、238MB的片上SRAM和1458個RISC-V核心,SRAM內(nèi)存帶寬可以達到1PB/s。
每個存儲體中包含2個RISC-V核心,各管理4個行控制器。行控制器之間獨立運行,每個行控制器控制64個SIMD處理單元,用于完成矩陣向量乘法運算。這些處理單元支持INT4、INT8、FP8和BF16這四種常見數(shù)據(jù)格式,而且依Untether AI看來,F(xiàn)P8是精度、吞吐量和能效平衡上最好的一個,更不用說Untether AI在處理單元上加入了零檢測,進一步拉高了能效比。

Boqueria架構(gòu)不同規(guī)模下的功耗與算力對比/ Untether AI
Boqueria上的RISC-V核心由Untether AI自己客制化的,本身基于RV32EMC指令集的同時,還加入了20多條專用于存間計算和推理加速的指令。Boqueria的另一大優(yōu)勢,就是它極具擴展性的架構(gòu)。最小的結(jié)構(gòu)可以做到1W以下,也可以將其做成Chiplet集成在其他SoC中,或者是再大一點的M.2卡、PCIe5.0卡等。要想追求最高的性能,可以做成集成6個Boqueria芯片的PCIe5.0卡,SRAM容量可達1.4GB,LPDDR5 DRAM容量可達192GB,F(xiàn)P8算力可達12PFLOPS,更不用說除了芯片到芯片之間的通信外,Boqueria也支持PCIe卡之間的通信。
神經(jīng)形態(tài)存內(nèi)計算處理器
韓國科學(xué)技術(shù)院的研究團隊在本屆HotChips上展示了一種新型的存算一體處理器,結(jié)合了時下兩大新技術(shù),神經(jīng)形態(tài)和存內(nèi)計算。傳統(tǒng)的存內(nèi)計算處理器由于在矩陣乘法上的優(yōu)勢,可以為深度學(xué)習(xí)解決最大的計算問題。可這個計算結(jié)果的準確性很大程度取決于處理器上DAC和ADC的精度。
可DAC和ADC的精度越高,模擬計算的結(jié)果也就越精確,也使得處理器的硬件開銷變高,無論是功耗還是面積都是如此,甚至有可能抵消存內(nèi)計算原本的硬件優(yōu)勢。在整個處理器的功耗中,高精度的ADC甚至可能會占據(jù)一半以上的功耗,甚至超過驅(qū)動器和控制器的總和。
不僅如此,在真實應(yīng)用中由于低稀疏度,其能效比也遠不如紙面數(shù)據(jù)那么理想,比如面對CIFAR-10或ImageNet等數(shù)據(jù)集時,其能效比甚至可能會縮水到十分之一,徹底毀掉了存內(nèi)計算處理器在算力和能耗上的雙重優(yōu)勢。
于是韓國科學(xué)技術(shù)院團隊考慮用二進制脈沖信號的事件驅(qū)動運算來生成輸入稀疏,并將卷積神經(jīng)網(wǎng)絡(luò)轉(zhuǎn)換成脈沖神經(jīng)網(wǎng)絡(luò),從而剔除ADC/DAC,并引入了四大特性。比如用最高有效位WordSkipping和早停法來減少位線活動,從而降低各種模式下的功耗,并用混合模式的神經(jīng)元放電和電壓折疊技術(shù),將該處理器的動態(tài)電壓范圍提高至3倍。

傳統(tǒng)存內(nèi)計算架構(gòu)與神經(jīng)形態(tài)存內(nèi)計算架構(gòu)對比/ 韓國科學(xué)技術(shù)院
如此一來,他們打造出了一個高能效的神經(jīng)形態(tài)存內(nèi)計算架構(gòu),存內(nèi)計算減少內(nèi)存訪問和多字線驅(qū)動的優(yōu)勢依然保留,但脈沖神經(jīng)網(wǎng)絡(luò)的加入,卻消除了高精度ADC的需求。他們根據(jù)這一架構(gòu)打造出了一個基于28nm工藝的存內(nèi)計算芯片,總存儲大小只有32KB,頻率也只有200MHz,卻可以在100到200mW的系統(tǒng)功耗下,實現(xiàn)最高310.4 TOPS/W的高能效比。考慮到這一研究本身也是由三星贊助,這一思路未來很有可能被用于三星的MRAM存內(nèi)計算芯片中去,屆時才會考慮使用更優(yōu)的工藝來實現(xiàn)更高的性能,并做到更大的容量。
聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。
舉報投訴
-
內(nèi)存
+關(guān)注
關(guān)注
9文章
3205瀏覽量
76293 -
AI
+關(guān)注
關(guān)注
91文章
39489瀏覽量
300677 -
存算一體
+關(guān)注
關(guān)注
1文章
121瀏覽量
5089
發(fā)布評論請先 登錄
相關(guān)推薦
熱點推薦
AI存算一體,這家ReRAM新型存儲受關(guān)注
及相關(guān)芯片產(chǎn)品的研發(fā),涵蓋AI存算一體(Computing in Memory, CIM)IP及大模型加速方案、高性
知存科技王紹迪:AI可穿戴需求爆發(fā),存算一體成主流AI芯片架構(gòu)
集中在AI驅(qū)動的細分場景需求釋放,知存科技聚焦的存算一體芯片具備高技術(shù)壁壘,同時在AI發(fā)展需求下具備天然的架構(gòu)優(yōu)勢和發(fā)展前景。
載譽而歸 | 蘋芯科技斬獲AABI火炬技術(shù)轉(zhuǎn)移獎,存算一體技術(shù)探索跨境創(chuàng)新合作
(PimchipTechnology)憑借在存算一體芯片領(lǐng)域的技術(shù)突破與跨境技術(shù)轉(zhuǎn)化成果,成功斬獲2025年AABI火炬技術(shù)轉(zhuǎn)移獎。這一榮譽不僅是對蘋芯團隊技術(shù)實力的高度認可,也將進
存算一體AI芯片公司九天睿芯完成超億元B輪融資
全球領(lǐng)先的存算一體AI芯片公司九天睿芯(英文:Reexen Technology)近日宣布,公司已完成B輪融資,規(guī)模超億元人民幣。
后摩爾定律時代,3D-CIM+RISC-V打造國產(chǎn)存算一體新范式
,算力、能效與帶寬瓶頸成為行業(yè)前行的關(guān)鍵阻礙,而美西方的技術(shù)禁運更讓中國芯片產(chǎn)業(yè)面臨嚴峻挑戰(zhàn)。 ? 在這一大背景下,存算一體成為國產(chǎn)
發(fā)表于 09-17 09:31
?5730次閱讀
知存科技榮獲2025半導(dǎo)體市場創(chuàng)新表現(xiàn)獎
8月26日,第22屆深圳國際電子展(elexcon2025)現(xiàn)場正式揭曉聚焦行業(yè)技術(shù)突破與價值創(chuàng)造的“2025半導(dǎo)體市場創(chuàng)新表現(xiàn)獎” ,知存科技憑借WTM系列存算一體芯片的核心技術(shù)創(chuàng)新
在TR組件優(yōu)化與存算一體架構(gòu)中構(gòu)建技術(shù)話語權(quán)
電磁兼容性、熱管理在內(nèi)的12項專業(yè)能力評估。\"這種評估體系,正是行業(yè)對技術(shù)人才的分級認證標準。
1.2 異構(gòu)計算架構(gòu)下的能力矩陣
存算一體架構(gòu)的普及正在重構(gòu)工程師的知識體系:
近內(nèi)存計算
發(fā)表于 08-26 10:40
存算一體技術(shù)加持!后摩智能 160TOPS 端邊大模型AI芯片正式發(fā)布
,同步推出力擎?系列M.2卡、力謀?系列加速卡及計算盒子等硬件組合,形成覆蓋移動終端與邊緣場景的完整產(chǎn)品矩陣。這一系列動作標志著后摩智能在存算一體
緩解高性能存算一體芯片IR-drop問題的軟硬件協(xié)同設(shè)計
在高性能計算與AI芯片領(lǐng)域,基于SRAM的存算一體(Processing-In-Memory, PIM)架構(gòu)因兼具計算密度、能效和精度優(yōu)勢成為主流方案。隨著存
國際首創(chuàng)新突破!中國團隊以存算一體排序架構(gòu)攻克智能硬件加速難題
2025 年 6 月 25 日,北京大學(xué)團隊在智能計算硬件方面取得領(lǐng)先突破,國際上首次實現(xiàn)了基于存算一體技術(shù)的高效排序硬件架構(gòu) (A fast and reconfigurable
蘋芯科技 N300 存算一體 NPU,開啟端側(cè) AI 新征程
隨著端側(cè)人工智能技術(shù)的爆發(fā)式增長,智能設(shè)備對本地算力與能效的需求日益提高。而傳統(tǒng)馮·諾依曼架構(gòu)在數(shù)據(jù)處理效率上存在瓶頸,“內(nèi)存墻”問題成為制約端側(cè)AI性能突破的關(guān)鍵掣肘。在這一背景下,存算
濟南市中區(qū)存算一體化智算中心上線DeepSeek
濟南市中未來產(chǎn)業(yè)發(fā)展有限公司(簡稱“市中產(chǎn)發(fā)”)聯(lián)合華為、北京昇騰和清昴智能基于市中區(qū)存算一體化智算中心(國家大學(xué)科技園節(jié)點)昇騰算力部署D
梯度科技推出DeepSeek智算一體機
近日,梯度科技搭載DeepSeek大模型的智算一體機正式發(fā)布。該產(chǎn)品基于“國產(chǎn)服務(wù)器+國產(chǎn)GPU+自主算法”核心架構(gòu),搭載梯度科技人工智能應(yīng)用開發(fā)平臺,形成了軟硬一體解決方案。
澎峰科技發(fā)布DeepSeek智算一體機
人工智能普惠化迎來里程碑式突破!澎峰科技發(fā)布業(yè)內(nèi)“首款”萬元級別DeepSeek智算一體機,本地運行671B滿血模型。
2PFLOPS,存算一體迎來新的卷王
評論