国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

如何克服Amdahl定律的影響呢?

Arm社區 ? 來源:Arm社區 ? 2024-01-12 14:30 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

Arm Helium 技術誕生的由來

克服 Amdahl 定律的影響

在前幾篇文章中,我們介紹了采用 Arm Helium 技術(也稱為 MVE)的 Armv8.1-M 架構如何處理矢量指令。但問題是,每當代碼被矢量化時,Amdahl 定律的影響很快便會顯現,讓人措手不及。如果您不了解 Amdahl 定律,可以簡單理解為,Amdahl 定律表明算法中無法并行化的部分很快就會成為性能瓶頸。例如,如果有 50% 的工作負載可以并行化,那么即使這部分工作負載可以無限并行,最多也只能將速度提高二倍。不知您作何感受,如果我能將某件事情無限并行化,但速度卻只能提升二倍,這種微不足道的提升一定會讓我感到非常惱火!在設計 Helium 時,我們必須考慮矢量指令及其相關聯的一切內容,這樣才能最大限度地提高性能。

串行代碼在循環處理中很常見,串行代碼造成的開銷可能相當大,特別是對于小循環。下面的內存復制代碼就是一個很好的例子:

a85c54ac-b112-11ee-8b88-92fbcf53809c.png

循環迭代計數的遞減和返回循環頂端的條件分支占循環指令的 50%。許多小型 Cortex-M 處理器沒有分支預測器(小型 Cortex-M 處理器的面積效率極高,這意味著許多分支預測器比整個 Cortex-M 處理器還要大幾倍)。因此,由于分支損失,運行時開銷實際上高于 50%。通過在多次迭代中攤銷開銷,循環展開可以幫助減少開銷,但會增加代碼大小,并使代碼的矢量化過程更加復雜。

鑒于許多 DSP 內核都有小循環,因此在 Helium 研究項目中解決這些問題至關重要。許多專用 DSP 處理器支持零開銷循環。一種實現方法是使用 REPEAT 指令,告訴處理器將下面的指令重復 N 次:

a8745e44-b112-11ee-8b88-92fbcf53809c.png

處理器必須記錄多項數據:

循環開始的地址

需要分支回到循環開始前所剩余的指令數

剩余的循環迭代次數

在處理中斷時,跟蹤記錄所有這些數據可能會造成問題,因此一些 DSP 只需要延遲中斷,直到循環完成。如果要執行大量的迭代,這可能需要相當長的時間,而且完全不符合 Cortex-M 處理器應該實現的快速和確定性中斷延遲的需求。這種方法也不適用于處理精確故障,如權限違規導致的內存管理故障異常 (MemManage)。另一種方法是增加額外的寄存器來處理循環狀態。但這些新寄存器必須在異常進入和返回時保存和恢復,而這又會增加中斷延遲。為了解決這個問題,Armv8.1-M 采用了一對循環指令:

a8a57cb8-b112-11ee-8b88-92fbcf53809c.png

該循環首先執行 While Loop Start (WLS) 指令,該指令將循環迭代計數復制到 LR,循環迭代計數為零時,分支到循環結束。還有一條 Do Loop Start (DLS) 指令,可用于設置一個循環,在該循環中至少始終執行一次迭代。Loop End (LE) 指令檢查 LR 以確認是否還需要一次迭代,如果需要,則分支返回起點。有趣的是,處理器可以緩存 LE 指令提供的信息(即循環開始和結束的位置),因此在下一次迭代時,處理器甚至可以在獲取 LE 指令之前分支回到循環的起點。因此,處理器執行的指令序列如下所示:

a8b82142-b112-11ee-8b88-92fbcf53809c.png

在循環末尾添加循環指令有一個很好的副作用,如果緩存的循環信息刷新,該指令將重新執行。然后,重新執行 LE 指令將重新填充緩存。如下圖所示,由于無需保存循環開始和結束地址,因此現有的快速中斷處理功能得以保留。

a8d2dcd0-b112-11ee-8b88-92fbcf53809c.png

除了第一次迭代和從中斷恢復時的一些設置外,所有時間實際上都花在了內存復制而不是循環處理上。此外,由于處理器事先知道指令的順序,因此總能用正確的指令填充流水線。這樣就消除了流水線清空和由此導致的分支損失。因此,我們可以將這一循環矢量化,不必再擔心 Amdahl 定律的影響,我們(暫時)克服了這些困難。

在對代碼進行矢量化時,一個循環通常以不同類型的指令開始和結束,例如矢量加載 (VLDR) 和矢量乘加 (VMLA)。執行這樣的循環時,會產生一長串不間斷的交替 VLDR/VMLA 操作(如下圖所示)。這種不間斷的鏈條使處理器能夠從指令重疊中獲得最大益處,因為它甚至可以從一個循環迭代結束重疊到下一個迭代開始,從而進一步提高性能。關于指令重疊的更多信息,可參閱:《Arm Helium 技術誕生的由來:為何不直接采用 Neon?》

a8edba5a-b112-11ee-8b88-92fbcf53809c.png

當需要處理的數據量不是矢量長度的倍數時,矢量化代碼就會出現問題。典型的解決方案是先處理全矢量,然后用一個串行/非矢量化尾部清理循環來處理剩余的元素。不知不覺中,Amdahl 定律又出現了,真是令人不勝其煩!Helium 中的矢量可容納 16 個 8 位數值,因此在我們對 31 字節的 memcpy 函數進行矢量化時,僅有不到一半的拷貝將由尾部循環連續執行,而不是由矢量指令并行執行。

為了解決這個問題,我們增加了循環指令的尾部預測變體(如 WLSTP、LETP)。對于這些尾部預測循環,LR 保存的是要處理的矢量元素的個數,而不是要執行的循環迭代的次數。循環開始指令 (WLSTP) 有一個大小字段(下面 memcpy 函數示例中的“.8”),用于指定要處理的元素的寬度。

a9040440-b112-11ee-8b88-92fbcf53809c.png

如果您曾見過其他優化的 memcpy 例程,可能會對這個例子的簡單程度感到驚訝,但對于 Helium 來說,這已經是最好的完全矢量化解決方案所需要的一切了。具體工作原理如下:處理器使用大小字段和剩余元素的數量來計算剩余迭代次數。

如果最后一次迭代要處理的元素個數少于矢量長度,則矢量末尾相應數量的元素將被禁用。因此,在上文復制 31 個字節的例子中,Helium 會在第一次迭代時并行復制 16 個字節,然后在下一次迭代時并行復制 15 個字節。這不僅可以避免 Amdahl 定律的影響,實現該有的性能,還可以完全消除串行尾碼,減少代碼量,簡化開發過程。

由于面臨高性能目標和嚴格的面積/中斷延遲限制,我們在設計 Helium 時就像在設計一個多維拼圖,且其中一半的形狀是已經固定的。架構中看似毫不相干的部分可以相互作用,產生意想不到的效果或助力解決一些有趣的難題。

整個 Helium 研究團隊和我都無比期待看到 Helium 技術能夠為全新的應用帶來有力的支持。目前 Cortex-M 已有三款產品支持 Helium 技術——Cortex-M52、Cortex-M55 和 Cortex-M85,我迫不及待看到 Helium 技術持續賦能我們生態伙伴的 AI 創新應用。






審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 處理器
    +關注

    關注

    68

    文章

    20250

    瀏覽量

    252216
  • dsp
    dsp
    +關注

    關注

    561

    文章

    8244

    瀏覽量

    366609
  • 寄存器
    +關注

    關注

    31

    文章

    5608

    瀏覽量

    129968
  • ARM技術
    +關注

    關注

    0

    文章

    22

    瀏覽量

    7682
  • Cortex-M
    +關注

    關注

    2

    文章

    234

    瀏覽量

    31097

原文標題:Helium 技術講堂 | 克服 Amdahl 定律的影響

文章出處:【微信號:Arm社區,微信公眾號:Arm社區】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    理想汽車發布端側大模型軟硬協同設計定律

    近日,理想汽車聯合國創決策智能技術研究所正式發布端側大模型“軟硬協同設計定律”,提出面向車載與邊緣場景的大模型軟硬一體化設計方法,為下一代智能駕駛芯片的架構定義提供了系統性理論基礎。此次成果不僅是
    的頭像 發表于 03-04 16:00 ?600次閱讀
    理想汽車發布端側大模型軟硬協同設計<b class='flag-5'>定律</b>

    直流電路的組成和基本定律

    電子發燒友網站提供《直流電路的組成和基本定律.pdf》資料免費下載
    發表于 02-03 10:43 ?4次下載

    碳化硅SiC MOSFET并聯的技術瓶頸與系統性克服策略

    碳化硅SiC MOSFET并聯的技術瓶頸與系統性克服策略:基于基本半導體產品力的深度解析 傾佳電子(Changer Tech)是一家專注于功率半導體和新能源汽車連接器的分銷商。主要服務于中國工業電源
    的頭像 發表于 11-17 13:35 ?1424次閱讀
    碳化硅SiC MOSFET并聯的技術瓶頸與系統性<b class='flag-5'>克服</b>策略

    克服全車以太網汽車架構中的 QoS 挑戰

    這份報告由雷諾Ampere汽車公司和RTaW公司在2025年10月15日法國圖盧茲舉辦的IEEEEthernet&IP@AutomotiveTechnologyDay上聯合發表,主題為“OvercomingQoSChallengesinaFullAutomotiveEthernetArchitecture(克服全車
    發表于 10-29 15:47 ?1次下載

    FOSAN 富捷科技揭秘:電阻公式的 “硬核邏輯”—— 從歐姆定律到 TCR 如何守護設備穩定?

    在電子電路的復雜網絡中,電阻是調控電流的 “核心樞紐”,而描述其特性的公式則是解碼這一元件的 “關鍵密碼”。從基礎的歐姆定律到溫度系數計算,這些公式不僅是理論推導的結晶,更是工程實踐中解決問題的核心
    的頭像 發表于 09-02 18:03 ?1341次閱讀
    FOSAN 富捷科技揭秘:電阻公式的 “硬核邏輯”—— 從歐姆<b class='flag-5'>定律</b>到 TCR 如何守護設備穩定?

    超越歐姆定律:全自動絕緣電阻率測試儀的高精度采樣與信號處理技術探秘

    在材料電性能測評領域,當面對超越歐姆定律的復雜場景時,全自動絕緣電阻率測試儀的高精度采樣與信號處理技術成為關鍵支撐,打破了傳統測量的局限。? 高精度采樣技術是其核心優勢之一。傳統儀器在面對微弱或動態
    的頭像 發表于 08-25 09:36 ?730次閱讀
    超越歐姆<b class='flag-5'>定律</b>:全自動絕緣電阻率測試儀的高精度采樣與信號處理技術探秘

    高端芯片制造裝備的“中國方案”:等離子體相似定律與尺度網絡突破

    圖1.射頻放電診斷系統與相似射頻放電參數設計 核心摘要: 清華大學與密歇根州立大學聯合團隊在頂級期刊《物理評論快報》發表重大成果,首次通過實驗驗證了射頻等離子體的相似性定律,并成功構建全球首個
    的頭像 發表于 07-29 15:58 ?736次閱讀
    高端芯片制造裝備的“中國方案”:等離子體相似<b class='flag-5'>定律</b>與尺度網絡突破

    30千瓦的顯示屏EMC如何整改

    南柯電子|30千瓦的顯示屏EMC如何整改
    的頭像 發表于 07-24 09:35 ?647次閱讀

    晶心科技:摩爾定律放緩,RISC-V在高性能計算的重要性突顯

    運算還是快速高頻處理計算數據,或是超級電腦,只要設計或計算系統符合三項之一即可稱之為HPC。 摩爾定律走過數十年,從1970年代開始,世界領導廠商建立晶圓廠、提供制程工藝,在28nm之前取得非常大的成功。然而28nm之后摩爾定律在接近物理極限之前遇到大量的困
    的頭像 發表于 07-18 11:13 ?4250次閱讀
    晶心科技:摩爾<b class='flag-5'>定律</b>放緩,RISC-V在高性能計算的重要性突顯

    30千瓦的移動電源EMC如何整改

    南柯電子|30千瓦的移動電源EMC如何整改
    的頭像 發表于 06-06 09:40 ?794次閱讀
    30千瓦的移動電源EMC如何整改<b class='flag-5'>呢</b>?

    如何克服電路板元件引腳焊接的缺陷

    克服電路板元件引腳焊接的缺陷,松盛光電提供一種既易于操作,又不會使產品產生品質問題,且成本較低的自動化激光焊接方法。
    的頭像 發表于 05-14 15:23 ?1084次閱讀
    如何<b class='flag-5'>克服</b>電路板元件引腳焊接的缺陷

    電力電子中的“摩爾定律”(1)

    本文是第二屆電力電子科普征文大賽的獲獎作品,來自上海科技大學劉賾源的投稿。著名的摩爾定律中指出,集成電路每過一定時間就會性能翻倍,成本減半。那么電力電子當中是否也存在著摩爾定律?1965年,英特爾
    的頭像 發表于 05-10 08:32 ?883次閱讀
    電力電子中的“摩爾<b class='flag-5'>定律</b>”(1)

    熱導傳感器是什么?了解多少

    書寫著無聲的創新詩篇。 ? 一、熱導密碼:從傅里葉定律說起 1822年,法國科學家傅里葉提出導熱基本定律:單位時間內傳遞的熱量與溫度梯度及材料截面積成正比。這個看似簡單的公式,卻為熱導傳感器的誕生埋下了理論基石。熱導
    的頭像 發表于 03-24 18:22 ?913次閱讀

    西門子EDA工具如何助力行業克服技術挑戰

    西門子EDA工具以其先進的技術和解決方案,在全球半導體設計領域扮演著舉足輕重的角色。本文將從汽車IC、3D IC和EDA AI三個方向,深入探討西門子EDA工具如何助力行業克服技術挑戰,推動創新發展。
    的頭像 發表于 03-20 11:36 ?2329次閱讀

    瑞沃微先進封裝:突破摩爾定律枷鎖,助力半導體新飛躍

    在半導體行業的發展歷程中,技術創新始終是推動行業前進的核心動力。深圳瑞沃微半導體憑借其先進封裝技術,用強大的實力和創新理念,立志將半導體行業邁向新的高度。 回溯半導體行業的發展軌跡,摩爾定律無疑是一個重要的里程碑
    的頭像 發表于 03-17 11:33 ?887次閱讀
    瑞沃微先進封裝:突破摩爾<b class='flag-5'>定律</b>枷鎖,助力半導體新飛躍