瑞薩電子面向語音AI,基于VK-RA8M1開發套件,集成多種智能語音處理功能,實現了無需云端的高性能語音控制的應用。
功能介紹
目前語音控制技術已廣泛應用于家電、車載、智能家居等領域,但仍面臨兩個核心問題:
環境噪聲干擾。當嘈雜環境或多人講話時,語音識別準確率會大幅下降。
對云連接的依賴。離線狀態下,通常只能識別少量、固定順序的關鍵詞,實現功能有限。
瑞薩推出的集成式語音應用場景,將多種語音控制功能集成一體,以應對這些問題。
基于RA8M1的語音應用包括如下功能:
APF(Audio Processing Front)。音頻處理前端,可將語音與背景噪音分離,提高語音識別準確率。
NLU(Natural Language Understanding)。自然語言理解,允許用戶用自然口語發出指令,系統自動提取關鍵詞識別命令。
CNSV(Cyberon Speaker Verification )。Cyberon語音驗證,將關鍵詞檢測提升到更高層次,將語音識別升級為語音身份驗證。
VAS(Voice Anti-Spoofing)。語音防偽技術,使系統能夠區分真人語音和錄音。

圖1 RA8M1語音應用場景
功能演示
APF噪聲抑制演示
A8M1開發板已預先加載語音組合程序,通過USB 連接電腦,作為立體聲麥克風使用。
通常,我們會在理想安靜的環境中錄制視頻,但為了演示降噪的功能,在演示用例中,刻意引入了環境噪音。如圖2所示。

圖2 左/右聲道波形對比
在演示用例中,采用立體聲軌來直觀呈現APF的處理效果。其中,左聲道顯示的是未處理音頻,右聲道顯示的是經過APF處理后的音頻。如圖3所示。

圖3 聲譜圖對比
從圖3中可以看到:
上方的左聲道展現了未經過APF處理的原始音頻波形。噪音和語音混雜,語音信號不明顯。
下方的右聲道展現了經過APF處理后的音頻波形。背景噪音被明顯抑制,語音信號更加清晰。
NLU、CNSV、VAS綜合演示
在演示用例中,可以同時實現識別關鍵詞、語音身份認證、真人語音識別的功能,通過下述操作,可逐個演示功能:
1注冊說話人的語音信息。根據系統提示,重復說三遍“Hi Renesas”,用于創建準確的聲紋識別模型。注冊時的顯示信息如圖4所示。

圖4 注冊說話人的語音信息
2使用說話人的聲音發出“Hi Renesas”的指令。系統顯示“Accepted”,表明成功識別說話人聲音。如圖5所示。

圖5 系統成功識別說話人的聲音
3用手機錄制“Hi Renesas”的指令,如圖6所示。

圖6 錄制聲音
4用錄音發出“Hi Renesas”的指令讓系統識別。系統顯示“Dropped”,表明識別失敗并拒絕執行,成功區分真人語音和錄音。如圖7所示。

圖7 用錄音發出指令,系統識別失敗
總結
實現這些實時語音的AI功能,對MCU的性能要求非常高,而RA8M1搭載的Cortex-M85內核支持Helium DSP加速技術,能夠大幅提升語音算法的本地運行性能,從而在無需接入云端的情況下完成這些處理。
-
mcu
+關注
關注
147文章
18543瀏覽量
384301 -
AI
+關注
關注
89文章
37777瀏覽量
294748 -
瑞薩電子
+關注
關注
38文章
2948瀏覽量
74041 -
語音控制
+關注
關注
5文章
509瀏覽量
29513
原文標題:基于RA8M1的語音AI綜合應用演示
文章出處:【微信號:瑞薩嵌入式小百科,微信公眾號:瑞薩嵌入式小百科】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
分享四款使用瑞薩RA8M1 MCU或RA8D1 MCU的成功產品組合解決方案
瑞薩面向電機控制應用推出性能卓越的RA8 MCU
【野火啟明6M5開發板體驗】野火啟明開發板和瑞薩RA MCU介紹
RT-Thread支持瑞薩全新超高性能Arm? Cortex?-M85 MCU

基于瑞薩RA8M1 MCU的高性能語音控制應用方案
評論