高效的C編程之函數調用

2362486 2017-10-17 | rar | 0.5 MB | 次下載 | 1積分

資料介紹

14.9 函數調用
　　函數設計的基本原則是使其函數體盡量的小。這樣編譯器可以對函數做更多的優化。
　　14.9.1 減少函數調用開銷
　　ARM上的函數調用開銷比非RISC體系結構上的調用開銷?。?br /> 　　· 調用返回指令“BL”或“MOV pc，lr”一般只需要6個指令周期（ARM7上）。
　　· 在函數的入口和出口使用多寄存器加載/存儲指令LDM和STM（Thumb指令使用PUSH和POP）提高函數體的執行效率。
　　ARM體系結構過程調用標準AAPCS定義了如何通過寄存器傳遞參數和返回值。函數中的前4個整型參數是通過ARM的前4個寄存器r0、r1、r2和r3來傳遞的。傳遞參數可以是與整型兼容的數據類型，如字符類型char、半字類型short等。
　　注意如果是雙字類型，如long long型，只能通過寄存器傳遞兩個參數。
　　不能通過寄存器傳遞的參數，通過函數堆棧來傳遞。這樣不論是函數的調用者還是被調用者都必須通過訪問堆棧來訪問參數，使程序的執行效率下降。
　　下面的例子顯示了函數調用是傳遞4個參數和多于4個參數的區別。
　　傳遞4個參數的函數調用源文件如下。
　　int func1（int a， int b， int c， int d）
　　{
　　return a+b+c+d;
　　}
　　int caller1（void）
　　{
　　return func1（1，2，3，4）;
　　}
　　編譯的結果如下。
　　func1
　　ADD r0，r0，r1
　　ADD r0，r0，r2
　　ADD r0，r0，r3
　　MOV pc，lr
　　caller1
　　MOV r3，#4
　　MOV r2，#3
　　MOV r1，#2
　　MOV r0，#1
　　B func1
　　如果程序需要傳遞6個參數，變為如下形式。
　　int func2（int a， int b， int c， int d，int e，int f）
　　{
　　return a+b+c+d+e+f;
　　}
　　int caller2（void）
　　{
　　return func1（1，2，3，4，5，6）;
　　}
　　則編譯后的匯編文件如下。
　　func2
　　STR lr，［sp，#-4］！
　　ADD r0，r0，r1
　　ADD r0，r0，r2
　　ADD r0，r0，r3
　　LDMIB sp，{r12，r14}
　　ADD r0，r0，r12
　　ADD r0，r0，r14
　　LDR pc，{sp}，#4
　　caller2
　　STMFD sp！，{r2，r3，lr}
　　MOV r3，#6
　　MOV r2，#5
　　STMIA sp，{r2，r3}
　　MOV r3，#4
　　MOV r2，#3
　　MOV r1，#2
　　MOV r0，#1
　　BL func2
　　LDMFD sp！，{r2，r3，pc}
　　綜上所述，為了在程序中高效的調用函數，最好遵循以下規則。
　　· 盡量限制函數的參數，不要超過4個，這樣函數調用的效率會更高。
　　· 當傳遞的參數超過4個時，要將多個相關參數組織在一個結構體中，用傳遞結構體指針來代替多個參數。
　　· 避免將傳遞的參數定義為long long型，因為傳遞一個long long型的數據將會占用兩個32位寄存器。
　　· 函數中存在浮點運算時，避免使用double型參數。
　　14.9.2 使用__value_in_regs返回結構體
　　編譯選項__value_in_regs指示編譯器在整數寄存器中返回4個整數字的結構或者在浮點寄存器中返回4個浮點型或雙精度型值，而不使用存儲器。
　　下面的例子顯示了__value_in_regs選項的用法。
　　typedef struct { int hi; uint lo; } int64; // 注意該結構中，高位為有符號整數，低位為無符號整數
　　__value_in_regs int64 add64（int64 x， int64 y）
　　{ int64 res;
　　res.lo = x.lo + y.lo;
　　res.hi = x.hi + y.hi;
　　if （res.lo 《 y.lo） res.hi++; // carry from low word
　　return res;
　　}
　　void test（void）
　　{ int64 a， b， c， sum;
　　a.hi = 0x00000000; a.lo = 0xF0000000;
　　b.hi = 0x00000001; b.lo = 0x10000001;
　　sum = add64（a， b）;
　　c.hi = 0x00000002; c.lo = 0xFFFFFFFF;
　　sum = add64（sum， c）;
　　}
　　編譯后的結果如下所示。
　　add64
　　ADDS a2，a2，a4
　　ADC a1，a3，a1
　　MOV pc，lr
　　test
　　STMDB sp！，{lr}
　　MOV a1，#0
　　MOV a2，#&f0000000
　　MOV a3，#1
　　MOV a4，#&10000001
　　BL add64
　　MOV a3，#2
　　MVN a4，#0
　　LDMIA sp！，{lr}
　　B add64
　　當使用__value_in_regs定義結構體時，編譯的代碼大小為52字節，如果不使用__value_in_regs選項，則編譯出的結果為160字節（本書中沒有列出未使用__value_in_regs時的編譯結果，讀者有興趣可以自己上機試驗）。
　　14.9.3 葉子函數
　　所謂葉子函數（leaf function）就是在其函數體內不存在對其他函數調用，它也常被稱為終級函數。因為葉子函數不需要調用其他函數，所有沒有保存/恢復寄存器的操作，因此執行效率比一般函數要高。
　　當函數中必須對一些寄存器進行保存時，可以使用高效率的多寄存器存儲指令STM，對需要保存的寄存器內存一次性存儲。
　　正是由于葉子函數執行的高效性，所以在編程時，盡量將子程序編寫為葉子函數，這樣即使程序中多次調用也不會影響代碼性能。
　　為了高效的調用函數，可以遵循下面函數調用原則。
　　· 避免在被頻繁調用的函數中調用其他函數，以保證被頻繁調用的函數被編譯器編譯為葉子函數。
　　· 把比較小的被調用函數和調用函數放在同一個源文件中，并且要先定義后調用，編譯器就可以優化函數調用或內聯較小的函數。
　　· 對性能影響較大的重要函數可使用關鍵字_inline進行內聯。
　　14.9.4 嵌套優化
　　注意嵌套優化（Tail－Call optimization）只適用于armcc。編譯時如果使用-g或-debug選項，編譯器自動關閉該功能。
　　一個函數如果在其結束時調用了另一個函數，則編譯器使用B指令調轉到被調用函數，而非BL指令。這樣就避免了一級不必要的函數返回。圖14.3顯示了嵌套優化的調用過程。
　　高效的C編程之函數調用

　　圖14.3 嵌套優化函數調用過程
　　當編譯時使用-O1或-O2選項時，編譯器都執行這種嵌套優化。需要注意的是，當函數中引用了局部變量地址，由于指針別名問題的影響，即使函數在返回時調用了其他函數，編譯器也不會使用嵌套優化。
　　下面通過一個例子來分析嵌套優化是如何提高代碼執行效率的。
　　extern int func2（int）;
　　int func1 （int a， int b）
　　{ if （a 》 b）
　　return （func2（a - b））;
　　else
　　return （func2（b - a））;
　　}
　　編譯后的代碼如下所示。
　　func1
　　CMP a1，a2
　　SUBLE a1，a2，a1
　　SUBGT a1，a1，a2
　　B func2
　　首先，func1中使用B指令代替BL指令，不用擔心lr寄存器被破壞，減少了對寄存器壓棧保護操作。另外，程序直接從func2返回到調用func1的函數，減少一次函數返回。如果說正常的指令調用過程為：
　　BL + BL+ MOV pc，lr + MOV pc，lr
　　那么經過嵌套優化的函數調用過程就可以表示為：
　　BL + BL+ MOV pc，lr
　　這樣，總的開銷將減少25％。
　　14.9.5 單純子函數
　　所謂單純子函數（Pure Functions）是指那些函數返回值只和調用參數有關。換句話說，就是如果調用函數的參數相同，那么函數的返回結果也相同。如果程序中存在這樣的函數，可以在函數定義時使用_pure進行聲明，這樣在程序編譯時編譯器會根據函數的調用情況對其進行優化。
　　下面的例子顯示了當函數用_pure聲明時，編譯器對其所做的優化。
　　程序源碼文件如下。
　　int square（int x）
　　{
　　return x * x;
　　}
　　int f（int n）
　　{
　　return square（n） + square（n）
　　}
　　編譯后的結果如下。
　　square
　　MOV a2，a1
　　MUL a1，a2，a2
　　MOV pc，lr
　　f
　　STMDB sp！，{lr}
　　MOV a3，a1
　　BL square
　　MOV a4，a1
　　MOV a1，a3
　　BL square
　　ADD a1，a4，a1
　　LDMIA sp！，{pc}
　　上面的程序中，square函數為“單純子函數”，當使用_pure聲明該函數時編譯器在調用該函數時，將對程序進行優化。
　　聲明的方法和編譯后的結果如下所示。
　　__pure int square（int x）
　　{
　　return x * x;
　　}
　　f
　　STMDB sp！，{lr}
　　BL square
　　MOV a1，a1，LSL #1
　　LDMIA sp！，{pc}
　　從編譯后的代碼中可以看到，用_pure聲明的函數在f函數中只調用了一次。
　　雖然“單純子函數”可以提高代碼執行效率，但同時也會帶來一些負面影響。比如，在“單純子函數”中，不能直接或間接訪問內存地址。所以在程序中使用“單純子函數”時要特別小心。
　　另外，還可以使用#pragma聲明“單純子函數”，下面的代碼顯示了它的聲明過程。
　　#pragma no_side_effects
　　/* function definition */
　　#pragma side_effects