噪聲問題一直是語音識別的一個(gè)老大難的問題,在理想的實(shí)驗(yàn)室的環(huán)境下,識別效果已經(jīng)非常好了,之前聽很多音頻算法工程師抱怨,在給識別做降噪時(shí),經(jīng)常發(fā)現(xiàn)WER不降反升,降低了識別率,有點(diǎn)莫名其妙,又無處下手。
剛好,前段時(shí)間調(diào)到了AIlab部門,有機(jī)會接觸這塊,改善語音識別的噪聲問題,雖然在此之前,詢問過同行業(yè)的朋友,單通道近場下,基本沒有太大作用,有時(shí)反而起到反作用,但是自己還是想親身實(shí)踐一下,至少找到這些方法失效的原因,看看是否在這些失敗的原因里面,改進(jìn)下思路,可能有新的發(fā)現(xiàn);同時(shí)去Ailab,順帶把深度學(xué)習(xí)降噪實(shí)踐一把,就算在ASR沒有效果,以后還能用在語音通信這個(gè)領(lǐng)域。
任務(wù)的要求是保證聲學(xué)模型不變動的情況下,即不重新訓(xùn)練聲學(xué)模型,即單純利用降噪來改善那些環(huán)境惡劣的樣本,同時(shí)保證不干擾純凈語音或者弱噪聲的語音場景,所以非常具有挑戰(zhàn)性。
為了趕項(xiàng)目,用自己非常熟悉的各種傳統(tǒng)的降噪方法:包括最小值跟蹤噪聲估計(jì),MCRA, IMCRA,等各種噪聲估計(jì)方法,以及開源項(xiàng)目 webrtc NS, AFE(ETSI ES 202 050 Advanced DSR Front-end Codec, two stages of Wiener filtering),剩下的任務(wù)就是調(diào)參,經(jīng)過很多次努力,基本沒有什么效果,相反WER還會有1%點(diǎn)左右的增加。
分析對比了降噪和沒有降噪的識別文本對比和頻譜分析,總結(jié)了以下這些原因,希望對后面的人有些參考意義:
1. DNN本身就有很強(qiáng)的抗噪性,在弱噪聲和純凈語音下,基本都不是問題。
通常場景下,這點(diǎn)噪聲,用線上數(shù)據(jù)或者刻意加噪訓(xùn)練,是完全可以吸收掉的,只有在20db以下,含噪樣本的頻譜特征和純凈樣本的頻譜特征差異太大,用模型學(xué)習(xí)收斂就不太好,這時(shí)需要降噪前端。
2. 降噪對于純凈語音或者弱噪聲環(huán)境下,不可避免的對語音有所損傷,只有在惡劣的環(huán)境下,會起到非常明顯的作用。
傳統(tǒng)降噪是基于統(tǒng)計(jì)意義上面的一個(gè)處理,難以做到瞬時(shí)噪聲的精準(zhǔn)估計(jì),這個(gè)本身就是一個(gè)近似的,粗略模糊化的一個(gè)處理,即不可避免的對噪聲欠估計(jì)或者過估計(jì),本身難把握,保真語音,只去噪,如果噪聲水平很弱,這個(gè)降噪也沒有什么用或者說沒有明顯作用,去噪力度大了,又會破壞語音。可以預(yù)見,根據(jù)測試集進(jìn)行調(diào)參,就像是在繩子上面玩雜技。
我們的測試樣本集,90%的樣本都在在20db以上,只有200來?xiàng)l的樣子,環(huán)境比較惡劣。所以通常起來反作用。
3. 降噪里面的很多平滑處理,是有利于改善聽感的,但是頻譜也變得模糊,這些特征是否能落到正確的類別空間里面,也是存在疑問的。所以在前端降噪的基礎(chǔ)上,再過一遍聲學(xué)模型重新訓(xùn)練,應(yīng)該是有所作用的,但是訓(xùn)練一個(gè)聲學(xué)模型都要10來天,損失太大,也不滿足任務(wù)要求。
4. 傳統(tǒng)降噪,通常噪聲初始化會利用初始的前幾幀,而如果開頭是語音,那就會失真很明顯。
5. 估計(jì)出噪聲水平,在SNR低的情況下降噪,SNR高時(shí),不處理或者進(jìn)行弱處理,在中間水平,進(jìn)行軟處理,這個(gè)思路似乎可以行的通。
6. 用基于聲學(xué)特征的傳統(tǒng)降噪方法,嘗試過,在測試集里面,有不到1%的WER降低。
7. 到底用什么量來指導(dǎo)降噪過程?
既然降噪沒法做好很好的跟蹤,處理的很理想。即不可能處理的很干凈,同時(shí)不能保證語音分量不會被損傷,即降噪和保證語音分量是個(gè)相互矛盾,同時(shí)也是一個(gè)權(quán)衡問題。那其實(shí)換個(gè)角度,降噪主要是改善了聲學(xué)特征,讓原來受噪聲影響錯(cuò)分類的音素落到正確的音素類別,即降低CE。那么應(yīng)該直接將降噪和CE做個(gè)關(guān)聯(lián),用CE指導(dǎo)降噪過程參數(shù)的自適應(yīng)變化,在一個(gè)有代表性的數(shù)據(jù)集里面,有統(tǒng)計(jì)意義上的效果,可能不一定能改善聽感,處理的很干凈,但是在整體意義上,有能改善識別的。所以說語音去噪模塊必須要和聲學(xué)前端聯(lián)合起來優(yōu)化,目標(biāo)是將去噪后的數(shù)據(jù)投影到聲學(xué)模塊接受的數(shù)據(jù)空間,而不是改善聽感,即優(yōu)化的目標(biāo)是降低聲學(xué)模型的CE,或者說是降低整條鏈路的wer,所以用降噪網(wǎng)絡(luò)的LOSS除了本身的損失量,還應(yīng)綁定CE的LOSS自適應(yīng)去訓(xùn)練學(xué)習(xí)是比較合理的方案。也可以將降噪網(wǎng)絡(luò)看成和聲學(xué)模型是一個(gè)大網(wǎng)絡(luò),為CE服務(wù),當(dāng)然,這不一定是降噪網(wǎng)絡(luò),也可以是傳統(tǒng)的自適應(yīng)降噪方法,但是如果是基于kaldi開發(fā),里面涉及到的工程量是很大的。
8. 在整個(gè)語音識別體系中,由于聲學(xué)模型的強(qiáng)抗噪性,所以單通道下的前端降噪似乎沒有什么意義,1%左右的wer的改變,基本不影響整個(gè)大局,所以想要搞識別這塊的朋友,應(yīng)該先把重要的聲學(xué)模型,語言模型,解碼器,搞完之后,再來擼擼這塊,因?yàn)榧幢銢]有單獨(dú)的前端,整個(gè)識別大多數(shù)場景都是OK的,惡劣的場景比較少,一般場景大不了擴(kuò)增各種帶噪數(shù)據(jù)訓(xùn)練,也是可以的。
責(zé)任編輯:lq6
-
語音識別
+關(guān)注
關(guān)注
39文章
1812瀏覽量
116055 -
dnn
+關(guān)注
關(guān)注
0文章
61瀏覽量
9501
發(fā)布評論請先 登錄
語音識別芯片有哪些(語音識別芯片AT680系列)
什么是離線語音識別芯片(離線語音識別芯片有哪些優(yōu)點(diǎn))
如何選擇合適的語音識別芯片型號
廣州唯創(chuàng)電子WTK6900H-32N語音識別芯片:AI降噪算法助力抽油煙機(jī)精準(zhǔn)語音控制 | 語音IC廠家
語音識別系統(tǒng)的技術(shù)核心:從聲音到文字的智能轉(zhuǎn)換
語音識別---大家怎么看呢?
語音降噪回音消除模塊性能實(shí)測系列二 A47單雙麥克風(fēng)降噪性能測試# 語音降噪#回聲消除
AP-0316 語音模組:不止是降噪神器,更是即插即用的 USB 聲卡全能王
UVC相機(jī)識別不到是什么原因導(dǎo)致的?
AI神經(jīng)網(wǎng)絡(luò)降噪算法在語音通話產(chǎn)品中的應(yīng)用優(yōu)勢與前景分析
智能語音新風(fēng)尚:WTK6900語音識別芯片賦能未來家居,讓涼爽觸“聲”可及
計(jì)算機(jī)網(wǎng)絡(luò)排錯(cuò)思路總結(jié)
語音識別的降噪思路和原因總結(jié)
評論