編輯導語:
隨著語音交互技術的日漸成熟,越來越多的智能硬件都選擇增加語音能力作為產品賣點之一。但是,設備在進入語音交互工作狀態(tài)的時候,需要先進行喚醒操作。
常見的喚醒語音交互的操作有按鍵或者觸屏形式,但是,為了進一步降低學習成本和操作復雜度,也有不少的智能硬件選擇通過語音喚醒的方式來激活交互功能。
本文將綜合對比市面上各家提供的語音喚醒技術相關指標,可以幫助你快速掌握語音喚醒技術的情況。
一、語音喚醒技術的相關核心指標
1、喚醒率
語音喚醒的主要目的既然是激活設備進入交互工作狀態(tài),那么,喚醒率的高低就顯得額外重要了。理論上,最好的狀態(tài)就是我只要說一次喚醒詞,設備就能立即響應。不過,受說話人與設備距離、發(fā)音標準、噪聲等各種各樣的因素,實際工作中比較難達到次次響應的完美工作狀態(tài)。
一般來說,在近距離的安靜場景下,市面上的技術都能夠做到喚醒率在95%以上。
不過,消費者的實際使用場景是較復雜的,因此,需要模擬不同的應用場景進行實測,才能得到最后的喚醒率指標。
2、誤喚醒率
指設備被非喚醒詞喚醒的概率,誤喚醒率越高,效果越不好。
大家在日常生活中可能會經常碰到,放在家里的智能音箱,大晚上莫名其妙答一句“我在”,把人嚇個半死;還有如果家里用的智能電視,喚醒手機語音助手的時候,不是同一個喚醒詞,電視也會蹦出一句“我在”。
這就是典型的誤喚醒場景,一般用24小時被誤喚醒多少次來衡量。
3、響應時長
主要是指用戶說完喚醒詞后,設備給出反饋的耗時,一般越短越好。
而反饋的形式則比較多樣,可以通過語音應答響應、也可以通過亮屏或者指示燈閃爍響應。統計來看,如果是亮屏或者指示燈閃爍響應,控制在200ms以內用戶體驗較好;如果是語音應答響應,太快反而體驗不好,一般控制在500ms左右更佳。
4、功耗
主要是針對電池供電設備,理論上越低越好,這樣,設備的使用時長不會受到太大的影響。
因為喚醒的工作原理是會持續(xù)檢測聲音中是否包含喚醒詞的特定片段,所以,會持續(xù)耗電。
為了進一步降低功耗,部分產品也會采取DSP來完成語音喚醒,再通過AP層兜底的模式,保證喚醒和功耗的均衡。
總結:語音喚醒的技術指標,除了與算法相關之外,還與智能硬件的結構設計、芯片算力、使用場景等息息相關。最后的實際效果,則應以實際測試效果為準,參考下圖:

二、語音喚醒技術對比
該對比信息均從互聯網公開渠道獲取,相關信息來源于提供商官網公開信息,如其官網有更新,請以更新信息為準。(PS:百度搜索關鍵詞“語音喚醒”)

三、喚醒詞的區(qū)別
喚醒詞的定義實際是比較廣泛,至少包含了四種使用場景:品牌喚醒詞(如,小飛小飛)、離線命令詞(如,我要聽周杰倫的歌)、云端命令詞(如,我要聽周杰倫的歌)、免喚醒詞(如,下一首、暫停)。這些使用場景,實際上都是使用了喚醒詞的原理,只是喚醒后執(zhí)行不同的動作。
四、語音喚醒項目實施要點
1、喚醒詞評估
大部分服務商都提供了喚醒詞評估服務,不過,有部分服務商對喚醒詞有一定的限制。因此,在選擇喚醒詞的時候,需要充分考慮品牌、發(fā)音特點、詞語等因素,綜合確定最終的喚醒詞。
2、確認測試環(huán)境和工具
以以往交付的喚醒項目來看,主要測試的環(huán)境包括:外噪場景測試、自噪場景測試、安靜場景測試和誤喚醒測試。
3、聲音采集
根據產品主要面向的使用人群,采集真人發(fā)音音頻。
示例:【某某投影儀音頻采集需求】
- 采集人數200人,總音頻2000句
- 男女比=1:1
- 一人10句
- 語速快:中:慢=1:3:1
- 年齡兒童:青年:中年=1:3:1
- 區(qū)域:北上廣深
- 普通話
4、測試音頻處理
包括去除破音的音頻、去除時長>1.7s的測試音頻、音頻幅度歸一化。
5、數據記錄表
根據實測結果,如實填寫表格中對應測試結果,完成項目驗收。

如果需要更深入地咨詢了解,可添加筆者V:HolaAI,詳細交流。
審核編輯:符乾江
-
語音控制
+關注
關注
5文章
512瀏覽量
29667 -
語音交互
+關注
關注
3文章
350瀏覽量
29170
發(fā)布評論請先 登錄
MAC CE技術為什么能調整語音編碼速率
新品 | Module ASR,AI智能離線語音模塊
智能語音識別控制器是什么?圖形中文編程,多路設備控制
揭秘AI玩具“聽得清”的秘密!這幾款語音前端芯片撐起交互體驗天花板
普強智能語音技術重新定義車載交互邊界
智芯科超低功耗離線語音喚醒芯片的應用場景
告別 “起床氣”!NV340D 語音芯片解鎖電子鬧鐘喚醒新體驗!
芯知識|廣州唯創(chuàng)電子WT2003H語音芯片:智能低功耗,喚醒隨心控
語音助手只能聊天?啟明云端AI語音交互方案偷偷修煉了音樂才藝!
AI語音開發(fā)板AiPi-PalChatV1教程:常見問題
可編程SLIC語音芯片哪家好?
小安AI語音板,“廣西表哥”強勢上線!
芯資訊|基于廣州唯創(chuàng)電子語音芯片的煙霧報警器語音方案技術解析
普強信息入選2024語音識別技術公司TOP30榜單
零知開源——ESP32語音交互系統(AI小智)開發(fā)教程
語音喚醒技術的對比,語音喚醒技術哪家強
評論