【理論到操作實現】讓AI玩具機器人等智能硬件在嘈雜環境中只聽我說話
前言
本文分享的小聆AI相關的理論和聲紋技術,主要是用來提升 AI 智能玩具、機器人等智能硬件在實際場景的語音交互體驗。在用戶使用中通常會遇到這些問題:1、身邊人交談干擾;2、用戶發音模糊;3、玩具碰撞聲、哭鬧聲等突發高頻噪聲易被聲學 VAD 誤判為語音;4、呼吸聲、風聲等高頻干擾導致語音失真。針對這些影響人機交互的常見問題,小聆AI做了對應處理,并在小程序端增加了單獨人聲慮噪的配置功能,大家按照文章中的步驟操作即可自主實現智能硬件對應功能。下方視頻為實際人機交互場景中的率噪效果。
https://docs2.listenai.com/z/233.mp4
單獨人聲慮噪的實現理論
為保證AI玩具機器人等智能硬件在嘈雜環境中只聽“我”說話的效果,從以下幾點進行了優化:
1、 語音VAD優化:消除非人聲噪聲,不響應常見家居噪聲(如風扇、電視等)
2、 聲紋過濾:對人聲進行聲紋對比,只保留指定聲紋的音頻
3、 語義VAD噪聲過濾:分析上下文語義,用戶附和時不打斷播報,用戶猶豫、停頓延長拾音時間
實現步驟
1、 準備一個語音交互硬件,可以是CSK6大模型開發板、聆思Arcs mini大模型MCP開發板、也可以是ESP32語音模組
2、 打開“小聆AI”小程序,點擊添加設備,選擇對應硬件按提示操作即可完成綁定進行配置 (ESP32的開發板可以選擇【開源套件】)
3、 綁定成功后,進入【語音識別配置】→【識別模式】→ 【僅識別已注冊聲紋的用戶】
識別默認默認為【所有人】
識別已注冊聲紋的用戶:在連續交互模式下,僅識別已注冊聲紋的用戶語音,如果只想讓AI語音只回復指定人可以選擇這項
識別喚醒設備的用戶:在連續交互模式下,僅支持喚醒設備的用戶繼續交互,其余人的語音將不會被識別 (可以理解為AI語音只回復用名字叫醒它的那個人)
4、 點擊【確認】后,進入聲紋注冊頁面,點擊【開始錄音】,按文本讀完后點擊創建即可。
5、 聲紋創建成功后會進入聲紋對應的【編輯畫像】界面,這個頁面可以手動填入聲紋主人的興趣愛好、需要AI長期記憶的內容。
畫像編輯完成后返回【識別模式】界面,選擇【僅識別已注冊聲紋的用戶】即可實現視頻中的效果。
小聆AI語音交互的更多資料和玩法實現參考
小聆AI詳細配置參考:https://docs2.listenai.com/x/S_TEd8h7C
零代碼克隆原神可莉實現桌面陪伴參考: https://docs2.listenai.com/x/x7CVdoQI3
更多個性配置方法可以參考官方開發文檔:https://docs2.listenai.com/x/S_TEd8h7C
CSK6大模型開發板的硬件資料:https://docs2.listenai.com/x/nTn9kMMCU
審核編輯 黃宇
-
AI
+關注
關注
91文章
39755瀏覽量
301346 -
聲紋
+關注
關注
0文章
26瀏覽量
4544 -
大模型
+關注
關注
2文章
3648瀏覽量
5176
發布評論請先 登錄
理論到操作實現 讓AI玩具機器人等智能硬件在嘈雜環境中只聽我說話
評論