IBM正在研制一種可兼顧高精度學(xué)習(xí)和低精度推理的深度學(xué)習(xí)芯片。
深度學(xué)習(xí)領(lǐng)域仍在不斷發(fā)展,特別地,專家們認(rèn)識到如果芯片能夠使用低精度的計算方式得出近似答案,神經(jīng)網(wǎng)絡(luò)就可以用很少的資源完成大量的計算。這在移動設(shè)備和其他功率受限的設(shè)備中尤其有用。但對某些任務(wù),尤其是訓(xùn)練神經(jīng)網(wǎng)絡(luò)去完成某些事情的任務(wù)來說,精確性仍然是必需的。IBM最近在IEEE VLSI研討會上展示了其最新的解決方案(目前仍然是原型):一款在上述兩方面都有良好表現(xiàn)的芯片。
訓(xùn)練神經(jīng)網(wǎng)絡(luò)與使用該網(wǎng)絡(luò)執(zhí)行其功能(稱為推理)的需求之間存在脫節(jié),這對那些從事于設(shè)計芯片以加速AI功能的人來說是一個巨大的挑戰(zhàn)。IBM的新型AI加速器芯片能夠滿足該公司提出的所謂范圍精度(scaled precision)要求。也就是說,它可以在32位、16位,甚至1位或2位模式下進(jìn)行訓(xùn)練和推理。
IBM約克鎮(zhèn)高地(Yorktown Heights)研究中心的杰出技術(shù)人員、該項工作的領(lǐng)導(dǎo)者Kailash Gopalakrishnan解釋說:“在訓(xùn)練中,你能夠使用的最好精度是16位,而在推理中可以應(yīng)用的最好精度是2位。這個芯片可能涵蓋了目前已知的最佳訓(xùn)練和最好推理。”
該芯片能夠獲得上述表現(xiàn)的原因來自于兩項創(chuàng)新,而這兩項創(chuàng)新的目標(biāo)都是實現(xiàn)相同的結(jié)果——保持所有處理器組件能夠得到數(shù)據(jù)和工作。
Gopalakrishnan說:“在深度學(xué)習(xí)方面,傳統(tǒng)芯片架構(gòu)面臨的挑戰(zhàn)之一是利用率一般非常低。”也就是說,即使芯片可能具有非常高的峰值性能,通常只有20%到30%的資源能夠被用于解決問題。IBM始終將所有任務(wù)的目標(biāo)定為90%。
利用率低通常是因為存在于芯片周圍的數(shù)據(jù)流瓶頸。為了突破這些信息障礙,Gopalakrishnan的團(tuán)隊開發(fā)了一個“定制”的數(shù)據(jù)流系統(tǒng)。該數(shù)據(jù)流系統(tǒng)是一種網(wǎng)絡(luò)方案,可以加速數(shù)據(jù)從一個處理引擎到下一個處理引擎的傳輸過程。它還針對要處理的是學(xué)習(xí)任務(wù)還是推理任務(wù)以及不同的精度進(jìn)行了優(yōu)化。
第二項創(chuàng)新是使用專門設(shè)計的“便箋本”形式的片上存儲器,而不是CPU或GPU上的傳統(tǒng)高速緩沖存儲器。構(gòu)建高速緩存是為了遵守某些對一般計算有意義的規(guī)則,但會導(dǎo)致深度學(xué)習(xí)的延遲。例如,在某些情況下,緩存會將一大塊數(shù)據(jù)推送到計算機的主存儲器(強制推送),但如果神經(jīng)網(wǎng)絡(luò)的推理或?qū)W習(xí)過程需要用到該數(shù)據(jù),則系統(tǒng)將不得不保持等待狀態(tài),直到可以從主存儲器中檢索到該數(shù)據(jù)。
便箋本遵循不同的規(guī)則。構(gòu)建它的目標(biāo)是為了保持?jǐn)?shù)據(jù)流經(jīng)芯片的處理引擎,并確保數(shù)據(jù)在恰當(dāng)?shù)臅r間處于正確的位置。為了獲得90%的利用率,IBM必須使設(shè)計出的便箋本具有巨大的讀/寫帶寬(每秒192千兆字節(jié))。
由此產(chǎn)生的芯片可以執(zhí)行當(dāng)前所有的三種主要深度學(xué)習(xí)AI:卷積神經(jīng)網(wǎng)絡(luò)(CNN)、多層感知器(MLP)和長-短期記憶(LSTM)。Gopalakrishnan解釋說,這些技術(shù)共同主導(dǎo)了語言、視覺和自然語言處理。在16位精度(尤其是針對訓(xùn)練)情況下,IBM的新芯片能夠在每秒鐘內(nèi)執(zhí)行1.5萬億次浮點運算;在2位精度下(推理的最佳設(shè)置)則躍升到每秒12萬億次運算。
Gopalakrishnan指出,由于芯片是采用先進(jìn)的硅CMOS工藝(GlobalFoundries的14納米工藝)制造的,每秒鐘內(nèi)發(fā)生的所有這些操作都被限制在一個相當(dāng)小的區(qū)域內(nèi)。為了推理出一個CNN網(wǎng)絡(luò),該芯片可以在每平方毫米內(nèi)每秒執(zhí)行平均1.33萬億次操作。這個數(shù)字很重要,“因為在很多應(yīng)用中,你的成本受到尺寸的限制,”他說。
新的架構(gòu)也證明了IBM研究人員幾年來一直在探索的東西:如果以高得多的精度訓(xùn)練神經(jīng)網(wǎng)絡(luò),真正低精度的推理就無法正常進(jìn)行。Gopalakrishnan說:“當(dāng)?shù)陀?位時,訓(xùn)練與推理將開始直接相互影響。一個在16位模式下訓(xùn)練但以1位模式部署的神經(jīng)網(wǎng)絡(luò)系統(tǒng)將出現(xiàn)無法接受的重大錯誤。因此,以與最終部署方式類似的精度訓(xùn)練網(wǎng)絡(luò)將帶來最好的結(jié)果。”
尚無任何消息披露這項技術(shù)什么時候可能以Watson或其他形式進(jìn)行商業(yè)化,但Gopalakrishnan的領(lǐng)導(dǎo)、IBM半導(dǎo)體研究所的副總裁Mukesh Khare表示希望它能夠發(fā)展和改進(jìn)。他說:“這只是冰山一角,我們正在進(jìn)行更多創(chuàng)新。”
-
IBM
+關(guān)注
關(guān)注
3文章
1868瀏覽量
77019 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5599瀏覽量
124417
原文標(biāo)題:IBM正在研制通用型深度學(xué)習(xí)芯片
文章出處:【微信號:AI_News,微信公眾號:人工智能快報】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
高精度電源監(jiān)控芯片LTC2962/LTC2963/LTC2964的特性與應(yīng)用
高精度功率與能量監(jiān)測芯片LTC2947:設(shè)計與應(yīng)用指南
AMC1303x:小尺寸、高精度、強化隔離的 Delta - Sigma 調(diào)制器深度解析
保障CCUS安全與效率:2026年高精度體檢測儀品牌深度解析
TLE92464EDHP:高精度四通道低側(cè)電磁閥驅(qū)動IC的深度解析
深度剖析ADS1242和ADS1243:高精度ADC的卓越之選
深度解析 | 低抖動高精度EtherCAT多軸控制的實現(xiàn)與實踐案例
如何深度學(xué)習(xí)機器視覺的應(yīng)用場景
原廠 FZH13 高精度的單通道LED恒流驅(qū)動芯片
睿擎EtherCAT多軸控制技術(shù):如何實現(xiàn)低抖動高精度運動控制 | 深度解析
FS6513 款高精度,高輸入電壓,低靜態(tài)電流數(shù)據(jù)手冊
微米級精度,毫米級響應(yīng)——高精度位移傳感新標(biāo)桿
云翎智能單北斗可定制RTK高精度記錄儀如何賦能鐵路巡檢安全
高精度交流充電樁負(fù)載方案
如何對電壓進(jìn)行高精度測試
IBM研制可兼顧高精度學(xué)習(xí)和低精度推理的深度學(xué)習(xí)芯片
評論