有人利用STM32芯片做些DSP處理,在啟用FPU單元進(jìn)行調(diào)試、驗(yàn)證過程中可能會(huì)遇到些小問題、小困惑,這里通過STM32F4芯片一個(gè)具體的應(yīng)用示例簡單分享下,希望順便能給同仁提供些幫助或提醒。
我這里通過調(diào)用DSP庫里的FFT相關(guān)函數(shù)實(shí)現(xiàn)1024點(diǎn)的FFT運(yùn)算,樣點(diǎn)數(shù)據(jù)及運(yùn)算結(jié)果均為浮點(diǎn)數(shù)。

上圖中A區(qū)代碼是做樣點(diǎn)數(shù)據(jù)準(zhǔn)備,B區(qū)代碼完成FFT運(yùn)算。我們來一起看看基本的配置以及不啟用硬件浮點(diǎn)單元和啟用硬件浮點(diǎn)單元執(zhí)行B區(qū)代碼的時(shí)間上的差別。
程序里要調(diào)用一些數(shù)學(xué)函數(shù),而這些數(shù)學(xué)函數(shù)往往集成在相應(yīng)的數(shù)學(xué)函數(shù)庫里。我們選用ARM公司的DSP數(shù)學(xué)庫,該庫系專門針對(duì)AMR核芯片及指令系統(tǒng)而組織的代碼,相比IDE自帶的通用數(shù)學(xué)函數(shù)庫會(huì)更優(yōu)化、高效。
目前該DSP數(shù)學(xué)庫包括基本數(shù)學(xué)函數(shù)、復(fù)數(shù)數(shù)學(xué)函數(shù)、濾波函數(shù)、矩陣函數(shù)等幾大塊,詳細(xì)內(nèi)容可以去ARM網(wǎng)站閱讀比較方便。【可點(diǎn)擊左下方原文鏈接前往】

我們開發(fā)時(shí),這些文件具體在哪里呢?在各個(gè)編譯環(huán)境的安裝目錄下都不難找到。不妨看看ARM keil MDK環(huán)境下它們所在位置。

上面我們看到的是DSP庫源文件所在目錄,在另一個(gè)目錄存放著基于不同內(nèi)核、不同存儲(chǔ)端格式以及是否支持硬件浮點(diǎn)單元而編譯出來的庫文件。我們?cè)陂_發(fā)時(shí),直接添加合適的庫文件進(jìn)工程即可,不必逐個(gè)查找源文件來添加。下圖就是可以用于ARM MDK環(huán)境的庫文件。【對(duì)于不同IDE,庫文件名后綴略有差異】

這里以用于M4內(nèi)核的DSP數(shù)學(xué)函數(shù)庫稍作解釋,詳見下面表格。

從上表可以看出,基于Cortex M4內(nèi)核芯片進(jìn)行DSP運(yùn)算可以能用到的庫有四個(gè),但具體到STM32 基于M4內(nèi)核的芯片可以選用的只有兩個(gè),即xxxM4l_math.lib或xxxM4lf_math.lib,因?yàn)镾TM32芯片的存儲(chǔ)設(shè)計(jì)都是小端模式。所謂小端模式,簡單點(diǎn)說就是指多字節(jié)數(shù)據(jù)在內(nèi)存中存儲(chǔ)時(shí),按照低位字節(jié)對(duì)應(yīng)地址低位來存放,反之則為大端模式。
在上面截圖中,我還截取了對(duì)應(yīng)M0內(nèi)核可用的DSP數(shù)學(xué)庫,它為什么只有兩個(gè)?這是因?yàn)镸0內(nèi)核沒有FPU硬件單元,不存在FPU是否啟用的可選情況。
現(xiàn)在就利用STM32F429開發(fā)板,基于開篇的截圖代碼進(jìn)行測(cè)試,并用定時(shí)器測(cè)量下面執(zhí)行代碼在不使用FPU和使用FPU分別所花費(fèi)的時(shí)間,并計(jì)算二者的時(shí)間比。【注:STM32F429芯片自身是帶硬件FPU的】

必要的配置和文件包含及添加,如下表所示:

基于上面條件執(zhí)行FFT運(yùn)算代碼,不使用FPU和使用FPU的時(shí)間比為16。
采用相似的條件,基于IAR環(huán)境對(duì)相同功能代碼段進(jìn)行測(cè)試,不使用FPU和使用FPU的時(shí)間比為11。
關(guān)于這個(gè)時(shí)間比,除了跟是否使用微庫、優(yōu)化等級(jí)、浮點(diǎn)精度等有關(guān)外,跟你所選取的測(cè)試代碼也有很大關(guān)系,因?yàn)橛行┐a只能靠CPU執(zhí)行的話,開不開FPU硬件單元對(duì)這部分時(shí)間是沒有影響的。不難理解,被測(cè)試代碼里只能靠CPU運(yùn)行的代碼占比越多,上面的這個(gè)比值就會(huì)越小。一般來說,我們不必太過糾結(jié)這個(gè)值的大小,知道有這個(gè)硬件浮點(diǎn)單元,既減輕了CPU負(fù)荷,又可以提升計(jì)算速度就好。
另外,我們?cè)谧鯠SP相關(guān)應(yīng)用時(shí),注意添加的DSP庫既要跟所用芯片匹配,還要跟IDE里的配置匹配。還是以上面測(cè)試代碼為例,本意是想啟用FPU,結(jié)果添加的DSP庫卻是基于不使用FPU硬件的數(shù)學(xué)庫,那會(huì)怎么樣呢?

本應(yīng)該添加arm_cortexM4lf_math.h的,結(jié)果弄錯(cuò)了。如果按照上面條件構(gòu)建ARM MDK工程,一路編譯下來沒有任何警告或錯(cuò)誤提示。程序也能流暢運(yùn)行,F(xiàn)FT運(yùn)算結(jié)果似乎也出來了。

但仔細(xì)查看結(jié)果,跟之前正確配置的運(yùn)行結(jié)果明顯不一樣。經(jīng)驗(yàn)證核對(duì),這次運(yùn)算結(jié)果是錯(cuò)的。為此我特意添加一行計(jì)算90°的正弦值代碼,它算出來結(jié)果竟然是1.5!逆天了。

如果說在不知情的情況下這一路下來,估計(jì)要被摧殘一頓了。畢竟很多數(shù)學(xué)函數(shù)結(jié)果常人是無法一眼能看出對(duì)錯(cuò)的,即使看出錯(cuò)了若沒未及時(shí)想到庫問題的話,恐怕還得折騰折騰。
針對(duì)這種情形,基于同樣代碼于IAR環(huán)境下測(cè)試,情況相比ARM MDK貌似要好點(diǎn)。至少編譯時(shí)有警告提示,提示引用沖突之類的。計(jì)算結(jié)果沒有MDK的那么具有隱蔽性【至少對(duì)于本次測(cè)試是這樣】,基本是清一色的0,頗有沖擊效果!當(dāng)然,此時(shí)讓它計(jì)算90°的正弦值結(jié)果也是明顯錯(cuò)的。

感覺上,這種情形下,使用IAR時(shí)挖的坑似乎稍微淺些,更容易讓人警醒懷疑哪里出問題了。
好,就分享到這里,祝君好運(yùn)!
原文標(biāo)題:關(guān)于STM32浮點(diǎn)運(yùn)算單元FPU的小話題
文章出處:【微信公眾號(hào):ST MCU 信息交流】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
責(zé)任編輯:haq
-
芯片
+關(guān)注
關(guān)注
463文章
54007瀏覽量
465940 -
STM32
+關(guān)注
關(guān)注
2309文章
11162瀏覽量
373411 -
FPU
+關(guān)注
關(guān)注
0文章
46瀏覽量
22861
原文標(biāo)題:關(guān)于STM32浮點(diǎn)運(yùn)算單元FPU的小話題
文章出處:【微信號(hào):stmcu832,微信公眾號(hào):茶話MCU】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
CW32L012與STM32F103的三角運(yùn)算性能對(duì)比
關(guān)于STM32浮點(diǎn)運(yùn)算單元FPU的應(yīng)用示例
評(píng)論