国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Arm Helium技術誕生的由來 為何不直接采用Neon?

瑞薩嵌入式小百科 ? 來源:Arm社區 ? 2024-02-29 17:01 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

經過 Arm 研究團隊多年的不懈努力,Arm 于 2019 年推出了適用于 Armv8?M 架構的 Arm Cortex-M 矢量擴展技術 (MVE)——Arm Helium 技術。起初,當我們面臨 Cortex?M 處理器數字信號處理 (DSP) 性能亟待提升的需求時,我們首先想到的是采用現有的 Neon 技術。

然而,面對典型的 Cortex?M 應用的面積限制條件下又需要支持多個性能的需求,意味著我們仍需從頭開始。作為一種較輕的惰性氣體,以氦氣 (Helium) 作為研究項目的名稱似乎再合適不過了。該研究項目主要針對中端處理器,旨在實現數據路徑寬度增加兩倍的情況下將性能提高四倍,而這正與氦氣的原子量 (4) 和原子序數 (2) 不謀而合。

最終,在許多數字信號處理 (DSP) 和機器學習 (ML) 內核上,我們成功地實現了提升四倍的目標。毋庸置疑,“Helium” 已經深入人心,成為 Cortex-M 處理器系列 MVE 的品牌名。

要想打造具備良好 DSP 性能的處理器,主要關鍵在于可為其提供足夠的數據處理帶寬。在 Cortex?A 處理器上,128 位 Neon 負載可以輕松地從數據緩存中直接提取。

但是,Cortex?M 處理器通常沒有緩存,而是使用低延遲靜態隨機存取存儲器 (SRAM) 作為主內存。對于許多系統來說,無法將 SRAM 路徑(通常只有 32 位)拓寬到 128 位,因此導致面臨內存操作停滯長達四個周期的可能性。同樣,乘加 (MAC) 指令中使用的乘法器需要很大的面積,在小型 Cortex?M 處理器上使用四個 32 位乘法器是不切實際的。

就面積限制層面而言,最小的 Cortex-M 處理器與能夠亂序執行指令且功能強大的 Cortex?A 處理器的大小可能相差幾個數量級。因此,在創建 M 系列架構時,我們必須認真考慮充分利用每一個 gate。

為了充分利用現有硬件,我們需要確保高成本資源(如通往內存的連接和乘法器)在每個周期都保持同時繁忙的狀態。在高性能處理器(如 Cortex?M7)上,可以通過矢量 MAC 雙發射來達成這一目標。

此外,還有一個重要的目標,即在一系列不同的產品上提高 DSP 性能,而不僅局限于高端產品上。想要解決以上這些問題,需要借鑒參考幾十年前的矢量鏈理念中的一些技術。

44d96f8c-d6ba-11ee-a297-92fbcf53809c.png

上圖顯示了在四個時鐘周期內交替執行的矢量負載 (VLDR) 和矢量 MAC (VMLA) 指令序列。這需要 128 位寬的內存帶寬和四個 MAC 塊,并且它們有一半時間處于空閑狀態。可以看到,每條 128 位寬的指令被分成大小相等的四個片段,MVE 架構稱之為“節拍”(標為 A 至 D)。無論元素大小如何,這些節拍始終是 32 位計算值,因此一個節拍可以包含一個 32 位 MAC,或四個 8 位 MAC。由于負載和 MAC 硬件是分開的,這些節拍的執行可以重疊,如下圖所示。

44eae46a-d6ba-11ee-a297-92fbcf53809c.png

即使 VLDR 加載的值被隨后的 VMLA 使用,指令仍可以重疊。這是因為 VMLA 的節拍 A 只依賴于上一個周期發生的 VLDR 的節拍 A,因此節拍 A 和 B 與節拍 C 和 D 便會自然重疊。在這個例子中,我們可以獲得與 128 位數據帶寬處理器相同的性能,但硬件數量只有后者的一半。“節拍式”執行的概念可以高效地實施多個性能點。例如,下圖顯示了只有 32 位數據帶寬的處理器如何處理相同的指令。這一點充滿吸引力,因為它能使單發射標量處理器的性能翻倍(在八個周期內對八個 32 位值加載和執行 MAC),但卻沒有雙發射標量指令那樣的面積和功耗需求。

44fdfff0-d6ba-11ee-a297-92fbcf53809c.png

MVE 支持擴展到每周期四拍的實現方式,此時節拍式執行將簡化為更傳統的 SIMD 方法。這有助于在高性能處理器上保持可控的實現復雜度。

節拍式執行聽起來很不錯,但也會給架構的其他部分帶來一些值得關注的挑戰。

由于多條部分執行的指令可以同時運行,因此中斷和故障處理可能會變得相當復雜。例如,如果上圖中 VLDR 的節拍 D 出現故障,通常情況下,實施必須回滾 VMLA 的節拍 A 在上一周期對寄存器文件的寫入。我們的理念是讓每個 gate 都物盡其用,而在回滾的情況下緩沖舊數據值與這一理念相悖。

為了避免這種情況,處理器會針對異常情況存儲一個特殊的 ECI 值,用于指示已經執行了后續指令的哪些節拍。在異常返回時,處理器便以此來確定要跳過哪些節拍。能夠快速跳出指令而無需回滾或等待指令完成,基于此保持 Cortex-M 具備的快速和確定性中斷處理能力。

如果指令會跨越節拍邊界,我們又會遇到時間跨越問題。這種交叉行為通常出現在拓寬/縮窄運算中。Neon 架構中的 VMLAL 指令就是一個典型的例子,它可以將 32 位值矢量乘加到 64 位累加器中。遺憾的是,為了保持乘法器輸出的完整范圍,通常需要進行這類拓寬運算。MVE 使用通用的 “R” 寄存器文件來處理累加器,從而解決了這一問題。

此外,這樣還減少了對矢量寄存器的寄存壓力,使 MVE 只需使用 Neon 架構中一半的矢量寄存器就能獲得良好的性能。在矢量架構中,通常不會像 MVE 一樣廣泛使用通用的寄存器文件,因為寄存器文件往往與矢量單元相距甚遠。在亂序執行指令的高性能處理器上尤為如此,因為物理距離過大會限制性能。不過,正因如此,我們恰恰能夠將典型 Cortex?M 處理器的較小規模特性轉化為我們的優勢。

為確保重疊執行達到良好的平衡且無停滯,每條指令都應嚴格描述 128 位的工作,不能多也不能少。由此也會帶來一些挑戰。

憑借研究員們辛勤不懈的努力,以及充分參考架構書籍中所涉的所有內容,MVE 成功地將一些非常苛刻的功耗、面積和中斷延遲限制轉化為優勢。




審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 處理器
    +關注

    關注

    68

    文章

    20249

    瀏覽量

    252177
  • 寄存器
    +關注

    關注

    31

    文章

    5608

    瀏覽量

    129956
  • sram
    +關注

    關注

    6

    文章

    819

    瀏覽量

    117457
  • 數字信號處理

    關注

    16

    文章

    571

    瀏覽量

    47782
  • 乘法器
    +關注

    關注

    9

    文章

    221

    瀏覽量

    38803
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    電網頻率為何不能亂?一次調頻裝置的“維穩”邏輯

    家電故障,大到電網崩潰,都會給生產生活帶來致命影響。而一次調頻裝置,正是守護這條“標準線”的核心力量,用毫秒級響應筑牢電網頻率的“維穩”防線,詳細了解一次調頻裝置可咨詢:1.3.7-5.0.0.4-6.2.0.0。今天就來拆解:電網頻率為何不能亂?一次調頻裝置的“維穩”邏輯又是什么?
    的頭像 發表于 01-14 11:41 ?192次閱讀
    電網頻率<b class='flag-5'>為何不</b>能亂?一次調頻裝置的“維穩”邏輯

    長時儲能為何不長時?

    150-200GW的電力,這相當于整個法國電力消耗量的2倍左右。長時儲能正是解決缺電問題的重要技術方案,尤其針對AIDC的高能耗、高波動、高綠電需求特性,長時儲能更是目前的最佳解決方案。但目前長時儲能技術仍需等待成熟,核心痛點之一便是:儲能系統的持續時長
    的頭像 發表于 12-29 08:41 ?6345次閱讀

    深入剖析ARM64異常處理:開發者必須掌握的底層核心邏輯

    ARM64架構的開發領域,異常處理絕非單純的理論知識點,而是直接決定系統穩定性、調試效率和功能實現的關鍵技術。無論是嵌入式開發、Linux內核移植,還是驅動開發與芯片調試,理解異常發生后CPU
    的頭像 發表于 12-24 07:05 ?1102次閱讀
    深入剖析<b class='flag-5'>ARM</b>64異常處理:開發者必須掌握的底層核心邏輯

    熱重分析儀:為何在某些嚴格場景下不能直接用于炭黑含量測試?

    熱重分析儀:為何在某些嚴格場景下不能直接用于炭黑含量測試?熱重分析儀(TGA)作為材料熱分析的核心設備,理論上可通過程序控溫和氣氛切換區分聚合物、炭黑及灰分。但在工業質量控制和標準符合性等嚴格場景中
    的頭像 發表于 12-10 16:54 ?408次閱讀
    熱重分析儀:<b class='flag-5'>為何</b>在某些嚴格場景下不能<b class='flag-5'>直接</b>用于炭黑含量測試?

    何不用olimex ARM-USB-TINY-H debugger實現調試?

    DDR的bsp文件,請問github里的bsp文件是否兼容所有板子,而且我只有一根usb線可以接JTAG口,如何不用olimex ARM-USB-TINY-H debugger實現調試? fpga小白謝謝大家啦。
    發表于 11-10 08:15

    如何使用 Arm Helium 進行顏色格式轉換和功能驗證?

    使用 Arm Helium 進行顏色格式轉換和功能驗證
    發表于 08-19 06:52

    ARM技術的特點

    相同性能下功耗更低,因此成為智能手機、平板電腦、可穿戴設備等移動終端的主流選擇。 授權模式 ARM 公司不直接生產芯片,而是通過知識產權(IP)授權模式,向廠商提供處理器架構設計方案。廠商(如高通、華為
    發表于 08-18 13:31

    Arm神經技術是業界首創在 Arm GPU 上增添專用神經加速器的技術,移動設備上實現PC級別的AI圖形性能

    Arm 神經技術是業界首創在 Arm GPU 上增添專用神經加速器的技術,首次在移動設備上實現 PC 級別的 AI 圖形性能,為未來的端側 AI 創新奠定基礎 神經超級采樣是
    的頭像 發表于 08-14 17:59 ?2758次閱讀

    ARM入門學習方法分享

    集)處理器。 1985年第一個ARM原型在英國劍橋誕生。 公司的特點是只設計芯片,而不生產。它提供ARM技術知識產權(IP)核,將技術授權
    發表于 07-23 10:21

    智能時代的“導航大腦”:組合導航技術為何不可或缺?

    當自動駕駛精準停入暴雨中的車位,無人機穿越城市峽谷鎖定目標,AUV在無衛星信號的海底保持航向——這些場景的背后,是組合導航技術在默默支撐。它融合衛星、慣性等多源數據,重新定義了人類對時空的掌控力。但為何它能在眾多導航方案中脫穎而出?
    的頭像 發表于 07-11 16:21 ?835次閱讀
    智能時代的“導航大腦”:組合導航<b class='flag-5'>技術</b><b class='flag-5'>為何不</b>可或缺?

    在IAR Embedded Workbench for Arm中使用Arm Cortex-R52 NEON

    隨著嵌入式系統變得越來越智能,對嵌入式處理器的要求也越來越高。為了更好應對汽車、醫療和工業機器人等領域對嵌入式處理器的要求,Arm推出了采用Armv8-R架構的Cortex-R52。Cortex-R52相對之前的處理器引入了很多新的特性,其中一個就是
    的頭像 發表于 06-05 09:57 ?1860次閱讀
    在IAR Embedded Workbench for <b class='flag-5'>Arm</b>中使用<b class='flag-5'>Arm</b> Cortex-R52 <b class='flag-5'>NEON</b>

    RA8T1基于480MHz Arm Cortex-M85、搭載Helium和TrustZone的電機控制微控制器技術手冊

    RA8T1 系列 32 位微控制器 (MCU) 基于高達 480MHz 的 Arm^?^ Cortex-M85^?^ 內核,采用 Helium? 技術和 TrustZone ^?^ ,
    的頭像 發表于 05-15 17:17 ?1035次閱讀
    RA8T1基于480MHz <b class='flag-5'>Arm</b> Cortex-M85、搭載<b class='flag-5'>Helium</b>和TrustZone的電機控制微控制器<b class='flag-5'>技術</b>手冊

    激光雷達在自動駕駛中為何不可替代?

    109.6%。在很多車企不斷追求純視覺的當下,為何激光雷達的銷量反而“逆勢”增長?激光雷達在自動駕駛中為何不可替代? 其實環境感知作為自動駕駛的“元感官”,在保證車輛安全、提高決策效率方面發揮著至關重要的作用。而在眾多感知手段中,LiDAR以其精準的距離測
    的頭像 發表于 05-11 09:15 ?1165次閱讀
    激光雷達在自動駕駛中<b class='flag-5'>為何不</b>可替代?

    Arm精銳超級分辨率技術助力提升游戲性能

    去年夏天,Arm 推出了 Arm 精銳超級分辨率技術 (Arm Accuracy Super Resolution, Arm ASR) 的早
    的頭像 發表于 04-21 13:52 ?1161次閱讀
    <b class='flag-5'>Arm</b>精銳超級分辨率<b class='flag-5'>技術</b>助力提升游戲性能

    為什么紅外熱成像采用微測輻射熱計技術

    紅外熱成像技術,作為現代非接觸式測溫與檢測的重要手段,其核心在于能夠準確、快速地捕捉并展示物體表面溫度分布的差異。在這一技術領域中,微測輻射熱計技術的引入與廣泛應用,無疑為紅外熱成像的發展注入了強大的動力。那么,
    的頭像 發表于 03-19 15:49 ?1259次閱讀
    為什么紅外熱成像<b class='flag-5'>采用</b>微測輻射熱計<b class='flag-5'>技術</b>?