国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

從CPU角度分析IPC產生的原因

Linux閱碼場 ? 來源:Linuxer ? 作者:Linuxer ? 2020-10-09 10:52 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

IPC的意義

一般來說IPC是越高越好, 這意味著單位時間執行了更多的指令, 通過觀測IPC可以一定程度上了解軟件的執行效率。 但是多高才算高呢? 這并沒有標準答案, 它需要有基線進行對比, 有的代碼邏輯就決定了不可能有太高的IPC, 比如存在大量的跳轉邏輯或者隨機訪問, 當然這可能就是需要優化的地方。

首先來看一個簡單的測試程序:

# cat s1.c void main() { unsigned long sum = 0, i = 0; for (i = 0; i 《 0x10000000; i += 1) { sum += i; } } $ gcc -O0 s1.c -o s1 $ perf stat 。/s1 2,145,851,708 cycles # 2.284 GHz (83.30%) 1,606,130,789 stalled-cycles-frontend # 74.85% frontend cycles idle (83.30%) 180,401,278 stalled-cycles-backend # 8.41% backend cycles idle (66.78%) 1,347,161,466 instructions # 0.63 insns per cycle

一種比較通用的優化方法就是把for循環展開(unroll), 再來看看效果:

$ cat s2.c void main() { unsigned long sum = 0, a = 0, b = 0, c = 0, d = 0, i = 0; for (i = 0; i 《 0x10000000; i += 4) { a += i; b += i + 1; c += i + 2; d += i + 3; } sum = a + b + c + d; } $ perf stat 。/s2 632,338,513 cycles # 2.281 GHz (83.40%) 229,407,430 stalled-cycles-frontend # 36.28% frontend cycles idle (83.41%) 7,151,154 stalled-cycles-backend # 1.13% backend cycles idle (66.83%) 1,343,577,403 instructions # 2.12 insns per cycle

可以看到, 這個優化效果非常好, IPC從0.63上升到了2.12, 同時CPU執行cycles也相應地從2,145,851,708下降到了632,338,513. 不過指令條數基本上沒有變化, 如果再看匯編代碼, 就會發現-O0編譯出來的代碼還有很多訪存, 那么我們現在稍微修改一下, 使用register來存放變量i:

$ cat s3.c void main() { unsigned long sum = 0, a = 0, b = 0, c = 0, d = 0; register unsigned long i = 0; for (i = 0; i 《 0x10000000; i += 4) { a += i; b += i + 1; c += i + 2; d += i + 3; } sum = a + b + c + d; } $ gcc -O0 s3.c -o s3 $ perf stat 。/s3 540,912,972 cycles # 2.284 GHz (83.12%) 270,437,339 stalled-cycles-frontend # 50.00% frontend cycles idle (83.48%) 5,344,535 stalled-cycles-backend # 0.99% backend cycles idle (67.08%) 1,074,783,046 instructions # 1.99 insns per cycle

這個優化同樣有效, CPU執行時間從632,338,513 cycles減少到540,912,972, 不過IPC卻從2.12減少到了1.99, 性能提升主要來源于指令條數的較少。 再進一步, 所有變量都使用register:

$ cat s4.c void main() { register unsigned long sum = 0, a = 0, b = 0, c = 0, d = 0; register unsigned long i = 0; for (i = 0; i 《 0x10000000; i += 4) { a += i; b += i + 1; c += i + 2; d += i + 3; } sum = a + b + c + d; } $ gcc -O0 s4.c -o s4 $ perf stat 。/s4 203,071,748 cycles # 2.284 GHz (83.14%) 68,298,093 stalled-cycles-frontend # 33.63% frontend cycles idle (83.15%) 1,056,363 stalled-cycles-backend # 0.52% backend cycles idle (67.05%) 598,151,024 instructions # 2.95 insns per cycle

這個優化更加明顯, CPU執行時間優化了一大半, 這來源于指令條數大幅減少了40%, 同時IPC從1.99上升到了2.95. 到這里我們已經拿到了一個相對滿意的結果, 是否還有優化的空間我們可以一起思考。

那么IPC到底說明了什么? 它從某一個側面說明了CPU的執行效率, 卻也不是全部。 想要提高應用的效率, 注意不是CPU的效率, 簡單地說無非兩點:

沒必要的事情不做

必須做的事情做得更高效, 這個是IPC可以發揮的地方

指令并發

上面已經看到, IPC是可以大于1的。 一般的理解是CPU通過pipeline提高了throughput, 但一條流水線每個cycle還是只能完成一條指令, 這種情況下IPC是《=1的。 那么是否可以推測出一個CPU上其實有多條流水線? 答案是肯定的。 不過多流水其實有不同的實現方法, 主要是VLIW (Very Long Instruction Word) 和SuperScalar, VLIW通過compiler在編譯時靜態完成多指令的調度, 而SuperScalar則是在運行時調度多指令。 目前稍微好點的CPU使用的都是SuperScalar, Intel的CPU也不例外。

具體的信息可以參考Instruction Level Parallelism

飛得更高

既然IPC可以接近3, 那么還能不能再高點? 我們看2個測試, alu.c 和 nop.c, 測試運行在Xeon E5-2682 v4 (Broadwell架構)。

$cat alu.c void main() { while(1) { __asm__ ( “movq $0x0,%rax ” “movq $0xa,%rbx ” “andq $0x12345678,%rbx ” “orq $0x12345678,%rbx ” “shlq $0x2,%rbx ” “addq %rbx,%rax ” “subq $0x14,%rax ” “movq %rax,%rcx”); } } $gcc alu.c -o alu $perf stat 。/alu 6,812,447,936 instructions # 3.84 insns per cycle $cat nop.c void main() { while(1) { __asm__ (“nop ” 。。. // 總共128個nop操作 “nop”); } } $gcc nop.c -o nop 8,577,428,850 instructions # 3.66 insns per cycle

通過這2個測試可以看到, IPC甚至可以接近4, 同時也產生了幾個疑問:

3.84應該不是極限, 至少應該是個整數吧?

alu比nop還高, 這似乎不符合常理?

alu中的很多指令有依賴關系, 怎么達到高并發的?

首先來看第一個問題, 為什么是3.84, 而不是4或者5呢? 這里面第一個需要關注的地方就是while(1), 相對于其他move/and/or/shl/sub指令, 它是一個branch指令。 CPU對branch的支持肯定會復雜一點, 碰到branch指令還會prefetch之后的指令嗎? 如果branch taken了那之前的prefetch不就沒用了? 另一個需要考慮的就是Broadwell的每個core里面只有4個ALU, 其中只有2個ALU能夠執行跳轉指令, 并且每個cycle最多能夠dispatch 4個micro ops. 而alu.c中每個循環是8條指令, 加上跳轉指令本身有9條指令, 看起來不是最好的情況。 那么在循環中減少一條指令會怎么樣:

$sed /orq/d alu.c 》 alu8.c $gcc alu8.c -o alu8 $perf stat 。/alu8 10,276,581,049 instructions # 3.99 insns per cycle

可以看到IPC已經達到3.99, 非常接近4了。 如果把每個循環的指令條數修改為12 (包括跳轉指令), 16, 20等都可以驗證IPC在3.99左右, 反之如果是13, 14就差一點。 唯一的例外來自于7, 它同樣能達到3.99 (原因?), 再減少到6又差點。

這里使用了一個userspace讀CPU PMU的工具likwid

$likwid-perfctr -g UOPS_ISSUED_CORE_STALL_CYCLES:PMC0,UOPS_ISSUED_CORE_TOTAL_CYCLES:PMC1,UOPS_EXECUTED_STALL_CYCLES:PMC2,UOPS_EXECUTED_TOTAL_CYCLES:PMC3 -t 1s -O -C 1 。/alu

根據上面的結果可見, stalled cycle并無明顯區別, 因為只有當一個cycle中沒有issue/execute任何一條指令的時候才計算, 對于這個測試用例是很少發生的。 測試發現event IDQ_UOPS_NOT_DELIVERED 和IPC的變化表現出相關性。 Intel 64 and IA-32 Architectures Optimization Reference Manual, B.4.7.1 Understanding the Micro-op Delivery Rate

也就是說front end不能夠及時把指令發給RAT (Resource Allocation Table), 這個通過stalled-cycle-front end是不一定能看出的。 那么一個無條件jmp指令怎么就能影響到front end, 并且還跟每個循環的指令數相關? 按理說所有的micro ops都已經在IDQ (Instruction Decode Queue)中, 并且LSD (Loop Stream Detector)應該完全能夠cover住這幾條指令。 具體原因暫時還不清楚, 如果知道這個了, 也許就有了另外一個問題的答案, 為什么是3.84而不是3.75或者別的呢?

現在來看第二個問題, 為什么alu比nop的IPC還要高呢? 上面已經分析過jmp指令的影響, 并且瓶頸點是在front end而不是在back end, nop和alu的指令并沒什么區別。 所以需要控制的是一個循環的指令數, 把其修改為8, 則nop一樣可以達到3.99的IPC.

第三個問題, CPU是怎么處理數據依賴的。 首先需要明確的是, 產生了數據依賴肯定會給并發帶來影響, 后面的指令必須等待前面指令的結果。 這里關鍵的一點是雖然在一個循環里面沒有獨立的四條指令, 但這并不影響2個甚至多個循環的并發性。 也就是說, 即使有跳轉指令, 后續的指令依然可以亂序執行。 但兩次循環之間不還是使用相同的寄存器從而產生依賴嗎? 是的, 如果它們最終使用的是相同的寄存器。 不過對于CPU來說, 匯編指令中的rax, rbx等不過是邏輯寄存器, 運行時還要進行一次rename的過程, 這個過程把一些false dependency給解決掉。 比如wiki上的例子。 而且CPU內部物理寄存器的個數是遠遠大于可以rename的邏輯寄存器個數的, 一般來說足夠解決在流水線及亂序情況下的false dependency.

CPU架構

再繼續探討IPC之前有必要先了解一下CPU的體系結構, 以Haswell (和Broadwell同一個架構, 更小的制程) 為例:

CPU是流水線工作的, 前半部分可以稱為front end, 功能主要包括取指, 譯碼等, 在這個圖中IDQ及其前面的部分就是front end. 譯碼其實是個很費時間的步驟, 因為x86是外表是CISC架構, 支持變長的指令, 內部其實更像RISC架構, 所以需要把這些宏指令(也就是匯編指令)轉化為微指令(micro ops/uops)。 對于Broadwell, IDQ的最大帶寬是4 uops/cycle, Skylake的帶寬可以到6 uops/cycle. 關于譯碼的作用, 可以參考A JOURNEY IN MODERN COMPUTER ARCHITECTURES

back end自然指的就是IDQ后面的部分。 Broadwell (Skylake也一樣) 的scheduler最大輸入是4 uops/cycle. 考慮到有的指令比如nop, xor rax,rax等在rename階段就結束, 并且這類指令的IPC同樣只能到4 uops/cycle, 可以確定rename的帶寬只有4 uops/cycle, 那是不是剛好說明最大IPC是4呢?

執行單元(port)總共有8個, 其中4個p0156能執行ALU操作, 注意能執行branch的只有2個p06. scheduler最多可以調度8 uops/cycle.

micro/macro fusion

如果沒有fusion, 可以認為4 uops/cycle就是IPC的最大值, 并且前面的測試代碼已經做到了。

micro fusion. 因為CPU的執行單元是類RISC, 所以一條instruction有可能需要拆成2條或者多條uops. 比如store, 就需要2條uops, 一個store address (上圖中STA), 一個store data (STD)。 micro fusion把這2條uops合并成一個uops, 雖然在執行時又分成2個uops. 關于micro fusion的decoder的影響同樣可以參考Decoding x86: From P6 to Core 2 - Part 2. 利用好micro fusion能提升程序的效率, 但micro fusion不會提升最大IPC.

macro fusion. 如果相鄰的2條instruction符合某種條件, macro fusion會把它們合并成一個uops, 在執行的時候也不會再拆成2個。 很顯然macro fusion是有可能提高max IPC的。 上面已經了解到, 整個CPU執行棧的瓶頸在rename階段只能處理4個uops, 既然一個uops可以包含2條指令, 不就可以處理更多的instruction了嗎? 答案是肯定的。 macro fusion的條件主要包括:

第一條指令是CMP, TEST, ADD, SUB, AND, INC, DEC

第二條指令是conditional branch

天空在哪

上面macro fusion的討論中已知1 uops可以包含2 instructions, 那是不是可以簡單計算得到max IPC = 4 * 2? 上面已經說過, 8個port中只有2個是支持branch的, 而macro fusion中必須包含branch, 所以max IPC = 6. 還有一個問題是以后IPC還會不會漲, 為什么呢?

來自agner.org的一個例子:

#define ASM_TWO_MICRO_TWO_MACRO(in1, sum1, in2, sum2, max) __asm volatile (“1: ” “add (%[IN1]), %[SUM1] ” “cmp %[MAX], %[SUM1] ” “jae 2f ” “add (%[IN2]), %[SUM2] ” “cmp %[MAX], %[SUM2] ” “jb 1b ” “2:” : [SUM1] “+&r” (sum1), [SUM2] “+&r” (sum2) : [IN1] “r” (in1), [IN2] “r” (in2), [MAX] “r” (max)) +----------------------------+---------+--------------+| Event | Counter | Core 1 |+----------------------------+---------+--------------+| Runtime (RDTSC) [s] | TSC | 4.038255e-01 || UOPS_ISSUED_ANY | PMC0 | 4000147000 || UOPS_EXECUTED_CORE | PMC1 | 6000580000 || UOPS_RETIRED_ALL | PMC2 | 6000100000 || BR_INST_RETIRED_NEAR_TAKEN | PMC3 | 1000001000 || INSTR_RETIRED_ANY | FIXC0 | 6000005000 || CPU_CLK_UNHALTED_CORE | FIXC1 | 1003127000 || CPU_CLK_UNHALTED_REF | FIXC2 | 1003129000 |+----------------------------+---------+--------------+

性能調試

指令相關的性能調試大框架可以參考Intel優化手冊的方法

本文目的

本文通過有意構造出來的理想代碼, 從CPU角度分析IPC產生的原因。 雖然這些代碼在生產環境中出現的可能性很小, 但是通過分析這些極端情況, 不只了解了CPU的極限在哪, 分析過程本身也很有意義。 那么我們是不是可以去嘗試回答這些問題: 為什么超線程這么不給力? Xeon E5-2682相比E5-2630有哪些改進? CPU使用率都100%了還有提高空間嗎? IPC還會增長嗎?

責任編輯:YYX

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • cpu
    cpu
    +關注

    關注

    68

    文章

    11279

    瀏覽量

    225000
  • IPC
    IPC
    +關注

    關注

    3

    文章

    378

    瀏覽量

    54891

原文標題:IPC到底能有多高

文章出處:【微信號:LinuxDev,微信公眾號:Linux閱碼場】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    五大角度分析SEM和TEM的區別

    ):SEM主要通過電子束與樣品表面相互作用產生的信號來成像。當高能電子束轟擊樣品表面時,會產生二次電子、背散射電子、特征X射線等信號。這些信號被探測器收集并轉換成圖
    的頭像 發表于 03-04 12:00 ?44次閱讀
    <b class='flag-5'>從</b>五大<b class='flag-5'>角度</b><b class='flag-5'>分析</b>SEM和TEM的區別

    色差是什么?它產生原因是什么?

    色像差(簡稱色差)。色差產生原因色差產生的根本原因就是由于光的色散效應。白光是由不同波長的可見光組成的,例如紅色的光波長為620-750納米,藍色的波長為450
    的頭像 發表于 01-27 17:19 ?697次閱讀
    色差是什么?它<b class='flag-5'>產生</b>的<b class='flag-5'>原因</b>是什么?

    【乾芯QXS320F開發板試用】之雙核之間IPC通信

    Example_Core_Dual 的 IPC 測試 1.功能說明 1.1 邏輯思路 使用官方提供的例程庫,ipc_ex3_gpio。 MCU 的劃分情況(CPU1 為主核、CPU2
    發表于 12-15 00:38

    Linux進程間通信(IPC)全解析:管道到?Socket,一篇講透

    ,Inter-Process Communication) 。 今天我們就來系統梳理?Linux?中最常用的?6?種?IPC?方式,原理到實例,流程到適用場景,幫你徹底搞懂進程間如何?“對話”。 一、管道
    的頭像 發表于 11-14 21:38 ?1.3w次閱讀
    Linux進程間通信(<b class='flag-5'>IPC</b>)全解析:<b class='flag-5'>從</b>管道到?Socket,一篇講透

    如何 MCU/MPU 角度保護物聯網應用?

    如何 MCU/MPU 角度保護物聯網應用?
    發表于 09-08 07:33

    CPU 到 GPU,渲染技術如何重塑游戲、影視與設計?

    渲染技術是計算機圖形學的核心內容之一,它是將三維場景轉換為二維圖像的過程。渲染技術一直在不斷演進,最初的CPU渲染到后來的GPU渲染,性能和質量都有了顯著提升。CPU到GPU:技術
    的頭像 發表于 09-01 12:16 ?983次閱讀
    <b class='flag-5'>從</b> <b class='flag-5'>CPU</b> 到 GPU,渲染技術如何重塑游戲、影視與設計?

    材料到回流焊:高多層PCB翹曲的全流程原因分析

    一站式PCBA加工廠家今天為大家講講高多層PCB板在 PCBA加工 中為何易產生翹曲?高多層PCB板在PCBA加工中產生翹曲的原因。在高端電子產品制造領域,8層及以上的高多層PCB板已成為主流選擇
    的頭像 發表于 08-29 09:07 ?1241次閱讀
    <b class='flag-5'>從</b>材料到回流焊:高多層PCB翹曲的全流程<b class='flag-5'>原因</b><b class='flag-5'>分析</b>

    漢思新材料:環氧底部填充膠固化后有氣泡產生原因分析及解決方案

    的詳細分析以及相應的解決方案:漢思新材料:環氧底部填充膠固化后有氣泡產生原因分析及解決方案一、氣泡產生
    的頭像 發表于 07-25 13:59 ?1210次閱讀
    漢思新材料:環氧底部填充膠固化后有氣泡<b class='flag-5'>產生</b><b class='flag-5'>原因</b><b class='flag-5'>分析</b>及解決方案

    激光焊錫中虛焊產生原因和解決方法

    激光焊錫是發展的非常成熟的一種焊接技術,但是在一些參數控制不好的情況下,依然會產生一些焊接問題,比如說虛焊的問題。松盛光電來給大家介紹一下激光錫焊中虛焊問題產生原因及其解決方案。
    的頭像 發表于 06-25 09:41 ?1631次閱讀

    晶圓表面清洗靜電力產生原因

    晶圓表面清洗過程中產生靜電力的原因主要與材料特性、工藝環境和設備操作等因素相關,以下是系統性分析: 1. 靜電力產生的核心機制 摩擦起電(Triboelectric Effect) 接
    的頭像 發表于 05-28 13:38 ?978次閱讀

    電機疑難故障原因分析及解決措施

    ,電機無法拖動負載,最終導致了故障現象的產生。通過對轉子發生軸向位移的軸承位置的調整,解除了故障,恢復了正常生產。 **純分享帖,需要者可點擊附件免費獲取完整資料~~~*附件:電機疑難故障原因分析
    發表于 05-14 16:31

    永磁體磁角度偏差對電機性能影響的分析

    、諧波、齒槽轉矩的影響進行分析,對高精度、高功率密度電機的研究開發以及生產過程中保持產品質量的一致性有一定積極意義。 點擊附件查看全文*附件:永磁體磁角度偏差對電機性能影響的分析.pdf
    發表于 03-25 15:37

    PCS老化測試是否會產生磁場?

    答案:會 。在PCS(電力轉換系統)老化測試過程中,由于電力電子器件的高頻開關和電流變化,必然會產生一定強度的磁場。以下產生原理、影響因素、測試場景及防護措施等角度展開
    的頭像 發表于 03-24 17:49 ?804次閱讀

    IPC2221簡略學習筆記

    關于IPC2221的學習筆記。
    發表于 03-14 18:07 ?10次下載

    Arm解讀Armv9 CPU為何是打造高性能、高能效移動計算的關鍵

    作者:Arm 終端事業部產品管理高級總監 Stefan Rosinger 在之前有關 Arm Cortex-X925 CPU 的文章中,Arm 技術專家曾探討了每時鐘周期指令數 (IPC) 作為評估
    的頭像 發表于 03-14 15:51 ?1578次閱讀