蓬勃發(fā)展的機器學(xué)習(xí)和人工智能新興用例有望通過加速信息處理和提高決策準確性為行業(yè)創(chuàng)造重大價值。但機器學(xué)習(xí)模型是計算密集型、需要高頻和實時 AI 分析場景,這導(dǎo)致企業(yè)依賴于使用每秒萬億次操作 (TOPS) 指標的性能指導(dǎo)。TOPS 捕捉到“加速器在一秒鐘內(nèi)可以提供多少數(shù)學(xué)運算?” 比較和確定給定推理任務(wù)的最佳加速器。
雖然 TOPS 是一個“容易”計算的指標,但它通常無法為實際工作負載提供可靠的性能指標。受限于加速器中乘法器和加法器的數(shù)量,該指標無法考慮處理神經(jīng)網(wǎng)絡(luò)模型的計算硬件結(jié)構(gòu)。隨著數(shù)據(jù)網(wǎng)絡(luò)模型更快地處理數(shù)據(jù),企業(yè)如何通過更快、更可靠的決策進行擴展,尤其是在邊緣?
在這篇文章中,我們將回顧 TOPS、它在測量延遲方面的挑戰(zhàn)以及它與現(xiàn)實世界的性能計算有何不同,并提供一種通過基準測試來計算性能的替代方法,它提供了一種更可靠的方法來解釋計算硬件結(jié)構(gòu)。
TOPS 作為績效衡量標準的現(xiàn)實
TOPS 是一個簡化指標:它告訴您 AI 加速器在一秒鐘內(nèi)可以處理多少計算操作,并且利用率為 100%。本質(zhì)上,它著眼于加速器可以在很短的時間內(nèi)解決多少數(shù)學(xué)運算問題。
例如,如果一個 AI 加速器提供 5 TOPS,另一個提供 15 TOPS,則推斷后者比前者快三倍。但是,就像 CPU 速度的兆赫茲和千兆赫茲一樣,TOPS 也失去了確定整體計算機性能的相關(guān)性。隨著人們對 AI 應(yīng)用的興趣日益濃厚,最新的 AI 加速器可以比簡單的算術(shù)更快地處理數(shù)據(jù),并且更復(fù)雜。
然而,TOPS 很少準確地捕捉到 AI 處理器在整個硬件設(shè)備中的重要性。如今,相機、邊緣服務(wù)器和計算機中的 AI 處理器通常是決定計算能力和能源效率的關(guān)鍵組件之一。事實上,TOPS 未能考慮到現(xiàn)實世界的工作量。通常,由于諸如空閑計算機單元等待來自內(nèi)存的數(shù)據(jù)、加速器不同部分之間的同步開銷和控制開銷等因素,實際性能可能會顯著低于 TOPS 值。根據(jù)加速器的架構(gòu)和工作負載特性,
更高的 TOPS 不等于更高的性能
雖然較高的 TOPS 值可以表示具有更多計算元素的更大 AI 加速器,但現(xiàn)實情況可能恰恰相反。更高的 TOPS 通常會導(dǎo)致更大的加速器具有更多的計算元素和內(nèi)存塊,以將數(shù)據(jù)饋送到這些計算單元,這會導(dǎo)致更高的成本和功耗。另一方面,高效的加速器使用較少數(shù)量的計算資源提供更高的性能,因此 TOPS 評級較低。最終,理想的 AI 加速器是使用低 TOPS 提供高性能的加速器。
TOPS 不包括所有計算類型
TOPS 指標考慮了加速器的乘法器和加法器,這通常會導(dǎo)致性能指標不準確,因為加速器可以擁有除此之外的其他計算資源。例如,Kinara 的架構(gòu)采用歸約樹而不是加法器陣列,從而顯著降低能耗。由于在此計算中未捕獲歸約樹的計算能力,TOPS 指標將不夠準確。ResNet50、MobileNet V1 和 YOLO_v3 等標準神經(jīng)網(wǎng)絡(luò)在比較不同的加速器時非常有用,因為它們也可以用作“猜測”給定加速器是否能夠滿足開發(fā)人員自身工作負載需求的代理。
推理延遲是評估 AI 加速器性能的指標
對于在 Edge AI 上進行投資的企業(yè),通過基準測試計算性能提供了一種可靠的方法來計算計算硬件結(jié)構(gòu)與 TOPS。由于大多數(shù)實際應(yīng)用程序需要極快的推理時間,因此衡量性能的最佳方法是運行特定的工作負載,通常是 ResNet-50、EfficientDet、Transformer 或自定義模型,以了解加速器的效率。使用不同類型、大小、拓撲和輸入分辨率的網(wǎng)絡(luò)進行實時處理,可以得出推理延遲度量。該指標計算加速器完成一個特定 AI 模型的干擾的執(zhí)行時間。
隨著 AI 工作負載及其支持計算架構(gòu)的發(fā)展,通過準確的性能測量確保其可預(yù)測性具有重大影響,可以引導(dǎo)開發(fā)人員做出更優(yōu)化的決策。通過使用推理延遲計算,它有助于處理和預(yù)測現(xiàn)代 AI 工作負載中的數(shù)據(jù)流,即使這些工作負載碎片化并且新架構(gòu)的發(fā)展導(dǎo)致更多的不可預(yù)測性。最終,基準測試應(yīng)用程序提供了一種可信且更可靠的 TOPS 替代方案,而 AI 加速器支持更有效的評估。
審核編輯 黃昊宇
-
加速器
+關(guān)注
關(guān)注
2文章
839瀏覽量
40105 -
AI
+關(guān)注
關(guān)注
91文章
39793瀏覽量
301408
發(fā)布評論請先 登錄
新品 | LLM-8850 Kit,高性能AI加速卡套件 DinMeter v1.1,1/32DIN標準嵌入式開發(fā)板
瑞芯微SOC智能視覺AI處理器
重磅合作!Quintauris 聯(lián)手 SiFive,加速 RISC-V 在嵌入式與 AI 領(lǐng)域落地
工業(yè)級-專業(yè)液晶圖形顯示加速器RA8889ML3N簡介+顯示方案選型參考表
亞馬遜云科技第三期創(chuàng)業(yè)加速器圓滿收官 助力初創(chuàng)釋放Agentic AI潛力 加速全球化進程
英特爾Gaudi 2E AI加速器為DeepSeek-V3.1提供加速支持
Arm神經(jīng)技術(shù)是業(yè)界首創(chuàng)在 Arm GPU 上增添專用神經(jīng)加速器的技術(shù),移動設(shè)備上實現(xiàn)PC級別的AI圖形性能
粒子加速器?——?科技前沿的核心裝置
芯原可擴展的高性能GPGPU-AI計算IP賦能汽車與邊緣服務(wù)器AI解決方案
開售RK3576 高性能人工智能主板
樹莓派 AI HAT+ !到手了!我來教你安裝!
Banana Pi 發(fā)布 BPI-AI2N & BPI-AI2N Carrier,助力 AI 計算與嵌入式開發(fā)
嵌入式AI加速器DRP-AI 詳細介紹
AI MPU# 瑞薩RZ/V2H 四核視覺 ,采用 DRP-AI3 加速器和高性能實時處理器
TOPS 與現(xiàn)實世界的性能:AI 加速器的基準性能
評論