伦伦影院久久影视,天天操天天干天天射,ririsao久久精品一区 ,一本大道香蕉大久在红桃,999久久久免费精品国产色夜,色悠悠久久综合88,亚洲国产精品久久无套麻豆,亚洲香蕉毛片久久网站,一本一道久久综合狠狠老

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

如何釋放異構計算的潛能?Imagination與Baya Systems的系統架構實踐啟示

穎脈Imgtec ? 2025-06-13 08:33 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

報告作者:

Pallavi Sharma, Imaginaiton產品管理總監

Dr.Eric Norige, Baya Systems 首席軟件架構師

091a70ee-47ee-11f0-986f-92fbcf53809c.png

你是否正在設計多核或CPU/GPU混合系統,卻依然未能達成性能目標?你并不孤單。如今,系統架構師們不斷追求構建更強大的SoC,過于專注于計算能力的“堆砌”:更多核、更快引擎、更強AI加速。然而現實是:如果數據無法及時送達,再強的算力也無從發揮。

在2025年Andes RISC-V大會上,Imagination Technologies與Baya Systems聯手深入剖析了這一挑戰,結果令人震驚。兩家公司利用Baya的CacheStudio工具,對CPU、GPU及混合計算系統中的緩存行為進行了建模分析。

目的就是要揭示:盡管硬件資源充足,現實中的異構計算性能為何仍頻頻“失速”。
那么,讓我們一起來看看他們的發現,以及這些見解如何幫助你打造更好、更快、更高效的系統。


隱藏的瓶頸:不是算力不足,而是數據流動受限

現代SoC的性能瓶頸早已不再是純粹的計算能力。相反,系統越來越受到數據在各處理單元與存儲層級之間傳輸效率的限制。

即使將CPU、GPU及各種加速器集成到同一芯片上,也并不自動等同于性能提升。事實上,若架構缺乏精細協同,這種集成反而可能帶來資源競爭、延遲增加以及緩存效率下降等問題。

本次研究將緩存行為作為一種潛在的診斷工具,旨在揭示系統中的關鍵性能限制點,同時更深入地理解異構計算單元在緩存大小配置、一致性管理及內存訪問模式方面所面臨的權衡取舍。

盡管這些發現提供了諸多有價值的洞見,但應結合本研究的具體范圍與假設前提進行解讀。以下是部分關鍵發現:


純CPU負載:優先考慮時間局部性與分層緩存策略


一級緩存(L1):性能提升隨著緩存容量的增加呈線性趨勢。將L1從16 KB提升至64 KB,命中率從約94.5%提升至約97.8%。這驗證了CPU主導型任務具備顯著的時間局部性——即最近訪問的數據很可能會在短時間內再次被訪問。

二級緩存(L2):命中率與L1容量呈負相關關系。隨著L1緩存吸收更多訪問請求,L2的利用率下降,從16 KB L1配置下的約50–56%降至64 KB L1下的約14–28%。這表明L2應側重于一致性管理與回退路徑延遲優化,而非盲目擴展容量。

三級緩存(L3):命中率維持在相對中等的水平(20–35%),其主要作用在于多核之間的一致性維護以及降低對DRAM的訪問壓力。

實際啟示:對于以CPU為主的工作負載,最佳性能依賴于為每個核心配置合適容量的私有L1緩存,同時針對延遲與一致性需求精細調優L2。L3緩存主要在多核或共享內存環境中發揮作用,特別是在DRAM壓力或一致性流量較高時更為關鍵。


純GPU負載:單靠加大緩存容量無法彌補訪問模式的不規則性

一級緩存(L1):相較于CPU,GPU工作負載的L1命中率更低——隨著緩存從16 KB擴展到64 KB,命中率僅從約54%提升至約73%。這一收益受限,主要歸因于高并行計算中常見的發散式和分散式內存訪問模式。

二級緩存(L2):隨著L1緩存增大,L2性能顯著下降。在16 KB L1配置下,L2命中率可達約55%;但當L1提升至64 KB時,命中率驟降至6–7%。這表明,過度放大上層緩存可能會破壞下層緩存的重用機會。

三級緩存(L3):在所有配置下,L3利用率始終偏低,最高命中率僅約為2.2%。這可能反映出GPU的流式數據訪問模式以及線程間局部性較差的特點。

實際啟示:GPU的內存層級性能高度依賴于軟件層的訪問優化,例如本地存儲使用、數據分塊(tiling)及顯式同步,而不能僅依賴傳統的緩存層次結構。硬件改進必須與面向負載的編程模型相結合,才能充分發揮性能。


混合負載:緩存層級的協同至關重要

一級緩存(L1):CPU和GPU線程的命中率均有提升,隨著L1從16 KB擴展至64 KB,命中率從約94%提升至約97%。

二級緩存(L2):行為對配置變化極為敏感。例如,在配置為256 KB L2和16 KB L1時,L2命中率達到61.7%;但當配置變為64 KB L1和64 KB L2時,命中率下降至23.2%。這表明在設計時必須同時考慮各級緩存的替換模式(eviction patterns)。

三級緩存(L3):在L1和L2容量不足的情況下,L3展現出顯著優勢。配置為1024 KB的L3時,對于較小L1/L2配置,命中率最高可達57%。

DRAM訪問流量:隨著緩存層級協調優化,內存訪問量顯著下降,從最小緩存配置下的約38.5萬次訪問減少至優化配置下的約32.8萬次。

實際啟示:在異構計算環境中,緩存設計不能孤立于某一處理引擎。必須精心架構各層緩存與計算單元之間的交互機制。經常被低估的L3,在降低DRAM壓力和提升系統整體響應能力方面發揮著關鍵作用。


設計的重點應是數據流,而非僅僅追求FLOPS(浮點運算性能)

本研究再次強調系統架構設計中的核心原則:在異構計算環境中,性能擴展的決定因素并非計算引擎的數量,而是這些引擎與共享內存及互連架構的協同方式。

CacheStudio并非終點工具,而是一個分析代理,可用于揭示系統中不易察覺的性能下降,并在設計初期為更優架構決策提供指導依據。


以協同為核心進行架構設計,而非各自為戰

針對CPU、GPU及混合負載,本研究得出以下關鍵結論:

CPU負載需配備針對性配置的私有L1緩存及延遲優化的L2緩存。

GPU負載需要架構層面支持發散式內存訪問,并輔以軟件層面的訪問優化。

混合負載在依賴L3一致性緩沖和多級緩存平衡配置方面獲益最大。

系統級性能剖析對于預判內存壓力、指導緩存層級設計至關重要。


結論明確:聰明的架構優于一味堆砌算力。

通過聚焦數據流動與內存協調,工程師才能真正釋放異構計算系統的全部潛力。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 系統架構
    +關注

    關注

    1

    文章

    73

    瀏覽量

    24251
  • imagination
    +關注

    關注

    1

    文章

    622

    瀏覽量

    63413
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    XC7Z020-2CLG484I 雙核異構架構 全能型 SoC

    Zynq-7000 系列的核心型號,創新性地將雙核 ARM Cortex-A9 處理器與 7 系列 FPGA 可編程邏輯深度集成,構建起 “軟件可編程 + 硬件可定制” 的異構計算架構,為多領域智能設備提供了一體化
    發表于 02-28 23:37

    米爾RK3506核心板SDK重磅升級,解鎖三核A7實時控制新架構

    的操作系統選擇,更關鍵的是,通過軟件架構優化,全面激活了芯片的異構實時控制潛能,幫助您在工業通信、運動控制與邊緣計算場景中,構建性能、成本與
    發表于 12-19 20:35

    釋放多屏潛能:迅為RK3588開發板Android多屏同顯開發完全指南

    釋放多屏潛能:迅為RK3588開發板Android多屏同顯開發完全指南
    的頭像 發表于 12-16 16:11 ?940次閱讀
    <b class='flag-5'>釋放</b>多屏<b class='flag-5'>潛能</b>:迅為RK3588開發板Android多屏同顯開發完全指南

    Imagination GPU上優化計算任務的十大技巧

    Imagination「開發者文檔」網站正式上線,涵蓋了從計算機圖形學基礎到如何充分發揮Imagination高能效PowerVRGPU架構優勢的豐富內容。網站中不僅增加了針對我們最新
    的頭像 發表于 09-25 09:37 ?898次閱讀
    在<b class='flag-5'>Imagination</b> GPU上優化<b class='flag-5'>計算</b>任務的十大技巧

    【TEC100TAI-KIT】青翼凌云科技基于JFMQL100TAI的全國產化智能異構計算平臺

    TEC100TAI-KIT是一款基于國產100TAI的全國產智能異構計算平臺開發套件,該套件包含1個100TAI核心板和1個PCIE規格的擴展底板。 該套件的核心板集成了100TAI的最小系統
    的頭像 發表于 09-19 17:16 ?962次閱讀
    【TEC100TAI-KIT】青翼凌云科技基于JFMQL100TAI的全國產化智能<b class='flag-5'>異構計算</b>平臺

    WAIC 直擊|Arm 鄒挺:突破基礎設施、數據安全與人才三重挑戰,釋放 AI 發展新潛能

    WAIC 直擊|Arm 鄒挺:突破基礎設施、數據安全與人才三重挑戰,釋放 AI 發展新潛能
    的頭像 發表于 07-28 11:33 ?1251次閱讀
    WAIC 直擊|Arm 鄒挺:突破基礎設施、數據安全與人才三重挑戰,<b class='flag-5'>釋放</b> AI 發展新<b class='flag-5'>潛能</b>

    【PZ-ZU15EG-KFB】——ZYNQ UltraScale + 異構架構下的智能邊緣計算標桿

    璞致電子推出PZ-ZU15EG-KFB異構計算開發板,搭載Xilinx ZYNQ UltraScale+ XCZU15EG芯片,整合四核ARM Cortex-A53、雙核Cortex-R5F
    的頭像 發表于 07-22 09:47 ?1182次閱讀
    【PZ-ZU15EG-KFB】——ZYNQ UltraScale + <b class='flag-5'>異構架構</b>下的智能邊緣<b class='flag-5'>計算</b>標桿

    智能安防邊緣計算的技術解析

    維度,剖析核心板如何推動安防從"被動記錄"到"主動決策"的升級,并給出選型建議。 ? --- 一、核心板的硬件架構創新** ? 1. 異構計算架構:算力與能效的平衡? 以SSD2351為例,其采用**"CPU+NPU+IVE"三
    的頭像 發表于 06-26 11:56 ?645次閱讀

    異構計算解決方案(兼容不同硬件架構

    異構計算解決方案通過整合不同類型處理器(如CPU、GPU、NPU、FPGA等),實現硬件資源的高效協同與兼容,滿足多樣化計算需求。其核心技術與實踐方案如下: 一、硬件架構設計
    的頭像 發表于 06-23 07:40 ?938次閱讀

    能效提升3倍!異構計算架構讓AI跑得更快更省電

    電子發燒友網報道(文/李彎彎)異構計算架構通過集成多種不同類型的處理單元(如CPU、GPU、NPU、FPGA、DSP等),針對不同計算任務的特點進行分工協作,從而在性能、能效和靈活性之間實現最優平衡
    的頭像 發表于 05-25 01:55 ?4114次閱讀

    國產芯片多架構開發實踐:從工業控制到邊緣AI的硬件設計經驗

    近年來,國產處理器與異構計算架構的成熟為硬件開發者提供了新選擇。我們基于飛騰、龍芯、海光等平臺,在VPX/COMe/ITX架構上完成了多個工業級項目驗證,在此分享一些實戰經驗。 硬件架構
    的頭像 發表于 05-23 09:24 ?1058次閱讀

    Imagination與澎峰科技攜手推動GPU+AI解決方案,共拓計算生態

    近日, Imagination Technologies 與國內領先的異構計算軟件與智算混合云服務提供商 澎峰科技 ( PerfXLab )正式簽署合作備忘錄( MoU ),圍繞 GPU 與 AI
    發表于 05-21 09:40 ?1253次閱讀

    Imagination與澎峰科技攜手推動GPU+AI解決方案,共拓計算生態

    近日,ImaginationTechnologies與國內領先的異構計算軟件與智算混合云服務提供商澎峰科技(PerfXLab)正式簽署合作備忘錄(MoU),圍繞GPU與AI的深度融合展開合作。雙方將
    的頭像 發表于 05-20 08:33 ?975次閱讀
    <b class='flag-5'>Imagination</b>與澎峰科技攜手推動GPU+AI解決方案,共拓<b class='flag-5'>計算</b>生態

    全志科技多核異構SoC助力行業智能化創新

    近日, “第十二屆開源操作系統年度技術會議”在北京舉行,全志科技受邀參會。會上,全志進行了題為《多核異構SoC在行業應用中軟件方案的思考與實踐》的分享。分享從市場和技術洞察、方案設計創新、場景化應用落地三個維度展開
    的頭像 發表于 04-18 09:11 ?1353次閱讀
    全志科技多核<b class='flag-5'>異構</b>SoC助力行業智能化創新

    RAKsmart智能算力架構異構計算+低時延網絡驅動企業AI訓練范式升級

    在AI大模型參數量突破萬億、多模態應用爆發的今天,企業AI訓練正面臨算力效率與成本的雙重挑戰。RAKsmart推出的智能算力架構,以異構計算資源池化與超低時延網絡為核心,重構AI訓練基礎設施,助力企業實現訓練速度提升、硬件成本下降與算法迭代加速的三重突破。
    的頭像 發表于 04-17 09:29 ?807次閱讀