報(bào)告作者:
Pallavi Sharma, Imaginaiton產(chǎn)品管理總監(jiān)
Dr.Eric Norige, Baya Systems 首席軟件架構(gòu)師

你是否正在設(shè)計(jì)多核或CPU/GPU混合系統(tǒng),卻依然未能達(dá)成性能目標(biāo)?你并不孤單。如今,系統(tǒng)架構(gòu)師們不斷追求構(gòu)建更強(qiáng)大的SoC,過于專注于計(jì)算能力的“堆砌”:更多核、更快引擎、更強(qiáng)AI加速。然而現(xiàn)實(shí)是:如果數(shù)據(jù)無法及時(shí)送達(dá),再強(qiáng)的算力也無從發(fā)揮。
在2025年Andes RISC-V大會上,Imagination Technologies與Baya Systems聯(lián)手深入剖析了這一挑戰(zhàn),結(jié)果令人震驚。兩家公司利用Baya的CacheStudio工具,對CPU、GPU及混合計(jì)算系統(tǒng)中的緩存行為進(jìn)行了建模分析。
目的就是要揭示:盡管硬件資源充足,現(xiàn)實(shí)中的異構(gòu)計(jì)算性能為何仍頻頻“失速”。
那么,讓我們一起來看看他們的發(fā)現(xiàn),以及這些見解如何幫助你打造更好、更快、更高效的系統(tǒng)。
隱藏的瓶頸:不是算力不足,而是數(shù)據(jù)流動受限
現(xiàn)代SoC的性能瓶頸早已不再是純粹的計(jì)算能力。相反,系統(tǒng)越來越受到數(shù)據(jù)在各處理單元與存儲層級之間傳輸效率的限制。
即使將CPU、GPU及各種加速器集成到同一芯片上,也并不自動等同于性能提升。事實(shí)上,若架構(gòu)缺乏精細(xì)協(xié)同,這種集成反而可能帶來資源競爭、延遲增加以及緩存效率下降等問題。
本次研究將緩存行為作為一種潛在的診斷工具,旨在揭示系統(tǒng)中的關(guān)鍵性能限制點(diǎn),同時(shí)更深入地理解異構(gòu)計(jì)算單元在緩存大小配置、一致性管理及內(nèi)存訪問模式方面所面臨的權(quán)衡取舍。
盡管這些發(fā)現(xiàn)提供了諸多有價(jià)值的洞見,但應(yīng)結(jié)合本研究的具體范圍與假設(shè)前提進(jìn)行解讀。以下是部分關(guān)鍵發(fā)現(xiàn):
純CPU負(fù)載:優(yōu)先考慮時(shí)間局部性與分層緩存策略
一級緩存(L1):性能提升隨著緩存容量的增加呈線性趨勢。將L1從16 KB提升至64 KB,命中率從約94.5%提升至約97.8%。這驗(yàn)證了CPU主導(dǎo)型任務(wù)具備顯著的時(shí)間局部性——即最近訪問的數(shù)據(jù)很可能會在短時(shí)間內(nèi)再次被訪問。
二級緩存(L2):命中率與L1容量呈負(fù)相關(guān)關(guān)系。隨著L1緩存吸收更多訪問請求,L2的利用率下降,從16 KB L1配置下的約50–56%降至64 KB L1下的約14–28%。這表明L2應(yīng)側(cè)重于一致性管理與回退路徑延遲優(yōu)化,而非盲目擴(kuò)展容量。
三級緩存(L3):命中率維持在相對中等的水平(20–35%),其主要作用在于多核之間的一致性維護(hù)以及降低對DRAM的訪問壓力。
實(shí)際啟示:對于以CPU為主的工作負(fù)載,最佳性能依賴于為每個核心配置合適容量的私有L1緩存,同時(shí)針對延遲與一致性需求精細(xì)調(diào)優(yōu)L2。L3緩存主要在多核或共享內(nèi)存環(huán)境中發(fā)揮作用,特別是在DRAM壓力或一致性流量較高時(shí)更為關(guān)鍵。
純GPU負(fù)載:單靠加大緩存容量無法彌補(bǔ)訪問模式的不規(guī)則性
一級緩存(L1):相較于CPU,GPU工作負(fù)載的L1命中率更低——隨著緩存從16 KB擴(kuò)展到64 KB,命中率僅從約54%提升至約73%。這一收益受限,主要?dú)w因于高并行計(jì)算中常見的發(fā)散式和分散式內(nèi)存訪問模式。
二級緩存(L2):隨著L1緩存增大,L2性能顯著下降。在16 KB L1配置下,L2命中率可達(dá)約55%;但當(dāng)L1提升至64 KB時(shí),命中率驟降至6–7%。這表明,過度放大上層緩存可能會破壞下層緩存的重用機(jī)會。
三級緩存(L3):在所有配置下,L3利用率始終偏低,最高命中率僅約為2.2%。這可能反映出GPU的流式數(shù)據(jù)訪問模式以及線程間局部性較差的特點(diǎn)。
實(shí)際啟示:GPU的內(nèi)存層級性能高度依賴于軟件層的訪問優(yōu)化,例如本地存儲使用、數(shù)據(jù)分塊(tiling)及顯式同步,而不能僅依賴傳統(tǒng)的緩存層次結(jié)構(gòu)。硬件改進(jìn)必須與面向負(fù)載的編程模型相結(jié)合,才能充分發(fā)揮性能。
混合負(fù)載:緩存層級的協(xié)同至關(guān)重要
一級緩存(L1):CPU和GPU線程的命中率均有提升,隨著L1從16 KB擴(kuò)展至64 KB,命中率從約94%提升至約97%。
二級緩存(L2):行為對配置變化極為敏感。例如,在配置為256 KB L2和16 KB L1時(shí),L2命中率達(dá)到61.7%;但當(dāng)配置變?yōu)?4 KB L1和64 KB L2時(shí),命中率下降至23.2%。這表明在設(shè)計(jì)時(shí)必須同時(shí)考慮各級緩存的替換模式(eviction patterns)。
三級緩存(L3):在L1和L2容量不足的情況下,L3展現(xiàn)出顯著優(yōu)勢。配置為1024 KB的L3時(shí),對于較小L1/L2配置,命中率最高可達(dá)57%。
DRAM訪問流量:隨著緩存層級協(xié)調(diào)優(yōu)化,內(nèi)存訪問量顯著下降,從最小緩存配置下的約38.5萬次訪問減少至優(yōu)化配置下的約32.8萬次。
實(shí)際啟示:在異構(gòu)計(jì)算環(huán)境中,緩存設(shè)計(jì)不能孤立于某一處理引擎。必須精心架構(gòu)各層緩存與計(jì)算單元之間的交互機(jī)制。經(jīng)常被低估的L3,在降低DRAM壓力和提升系統(tǒng)整體響應(yīng)能力方面發(fā)揮著關(guān)鍵作用。
設(shè)計(jì)的重點(diǎn)應(yīng)是數(shù)據(jù)流,而非僅僅追求FLOPS(浮點(diǎn)運(yùn)算性能)
本研究再次強(qiáng)調(diào)系統(tǒng)架構(gòu)設(shè)計(jì)中的核心原則:在異構(gòu)計(jì)算環(huán)境中,性能擴(kuò)展的決定因素并非計(jì)算引擎的數(shù)量,而是這些引擎與共享內(nèi)存及互連架構(gòu)的協(xié)同方式。
CacheStudio并非終點(diǎn)工具,而是一個分析代理,可用于揭示系統(tǒng)中不易察覺的性能下降,并在設(shè)計(jì)初期為更優(yōu)架構(gòu)決策提供指導(dǎo)依據(jù)。
以協(xié)同為核心進(jìn)行架構(gòu)設(shè)計(jì),而非各自為戰(zhàn)
針對CPU、GPU及混合負(fù)載,本研究得出以下關(guān)鍵結(jié)論:
純CPU負(fù)載需配備針對性配置的私有L1緩存及延遲優(yōu)化的L2緩存。
純GPU負(fù)載需要架構(gòu)層面支持發(fā)散式內(nèi)存訪問,并輔以軟件層面的訪問優(yōu)化。
混合負(fù)載在依賴L3一致性緩沖和多級緩存平衡配置方面獲益最大。
系統(tǒng)級性能剖析對于預(yù)判內(nèi)存壓力、指導(dǎo)緩存層級設(shè)計(jì)至關(guān)重要。
結(jié)論明確:聰明的架構(gòu)優(yōu)于一味堆砌算力。
通過聚焦數(shù)據(jù)流動與內(nèi)存協(xié)調(diào),工程師才能真正釋放異構(gòu)計(jì)算系統(tǒng)的全部潛力。
-
系統(tǒng)架構(gòu)
+關(guān)注
關(guān)注
1文章
73瀏覽量
24217 -
imagination
+關(guān)注
關(guān)注
1文章
620瀏覽量
63358
發(fā)布評論請先 登錄
XC7Z020-2CLG484I 雙核異構(gòu)架構(gòu) 全能型 SoC
米爾RK3506核心板SDK重磅升級,解鎖三核A7實(shí)時(shí)控制新架構(gòu)
在Imagination GPU上優(yōu)化計(jì)算任務(wù)的十大技巧
【TEC100TAI-KIT】青翼凌云科技基于JFMQL100TAI的全國產(chǎn)化智能異構(gòu)計(jì)算平臺
WAIC 直擊|Arm 鄒挺:突破基礎(chǔ)設(shè)施、數(shù)據(jù)安全與人才三重挑戰(zhàn),釋放 AI 發(fā)展新潛能
【PZ-ZU15EG-KFB】——ZYNQ UltraScale + 異構(gòu)架構(gòu)下的智能邊緣計(jì)算標(biāo)桿
智能安防邊緣計(jì)算的技術(shù)解析
異構(gòu)計(jì)算解決方案(兼容不同硬件架構(gòu))
能效提升3倍!異構(gòu)計(jì)算架構(gòu)讓AI跑得更快更省電
國產(chǎn)芯片多架構(gòu)開發(fā)實(shí)踐:從工業(yè)控制到邊緣AI的硬件設(shè)計(jì)經(jīng)驗(yàn)
Imagination與澎峰科技攜手推動GPU+AI解決方案,共拓計(jì)算生態(tài)
Imagination與澎峰科技攜手推動GPU+AI解決方案,共拓計(jì)算生態(tài)
全志科技多核異構(gòu)SoC助力行業(yè)智能化創(chuàng)新
如何釋放異構(gòu)計(jì)算的潛能?Imagination與Baya Systems的系統(tǒng)架構(gòu)實(shí)踐啟示
評論