TTS(Text To Speech)即從文本到語音,把文本數(shù)據(jù)轉(zhuǎn)換成音頻數(shù)據(jù)輸出,是一種計算機生成語音的技術(shù)。將書面文本轉(zhuǎn)換為人類可以聽懂的語音輸出。這項技術(shù)利用了自然語音處理技術(shù)、數(shù)字信號處理和語音合成等領(lǐng)域的知識,通過模擬人類發(fā)聲過程來生成語音。
樂鑫語音合成當(dāng)前版本基于拼接法,系統(tǒng)框圖如下

Parser: 根據(jù)字典與語法規(guī)則,將輸入文本轉(zhuǎn)換為拼音列表, 輸入文本編碼為UTF-8。
Synthesizer: 根據(jù)Parser輸出的拼音列表,結(jié)合預(yù)定義的聲音集,合成波形文件。默認輸出格式為單聲道, 16bit@16000Hz。
自20世紀80年代起,TTS技術(shù)經(jīng)歷了早期的參數(shù)合成方法,到后面隨著計算機技術(shù)的發(fā)展又出現(xiàn)了波形拼接的合成方法。但真正具有實際意義的近代語音合成技術(shù)是隨著計算機技術(shù)和數(shù)字信號處理技術(shù)的發(fā)展而發(fā)展起來的。
隨著AI技術(shù)的不斷發(fā)展,基于深度學(xué)習(xí)的TTS技術(shù)逐漸興起,并得到了廣泛的應(yīng)用。當(dāng)前,TTS技術(shù)已可以應(yīng)用于很多領(lǐng)域,例如虛擬助手、語音信箱、室內(nèi)外廣播系統(tǒng)等。
目前樂鑫TTS demo實現(xiàn)了將中文文本轉(zhuǎn)換為中文語音,不同于一般的語音合成技術(shù),ESP Chinese TTS 專門針對中文進行優(yōu)化,如果輸入的是中英文混雜的文本,英文部分將會被逐字母讀出。其他語種的版本則要定制。*具體使用方式可點擊閱讀原文進行參考
TTS技術(shù)的發(fā)展趨勢將會更智能、自然和人性化。通過與其他技術(shù)相結(jié)合,未來應(yīng)用到更廣泛的場景領(lǐng)域,以實現(xiàn)更加復(fù)雜的語音應(yīng)用。
總的來說,TTS技術(shù)將成為我們?nèi)粘I钪胁豢苫蛉钡囊徊糠郑屨Z音交互更加便捷高效。同時,也給企業(yè)和社會帶來更多價值機會。
-
AI
+關(guān)注
關(guān)注
91文章
39793瀏覽量
301454 -
智能化
+關(guān)注
關(guān)注
15文章
5236瀏覽量
60168
發(fā)布評論請先 登錄
工業(yè)一體機技術(shù)的進步使得智慧教育更加智能化、便捷化和互動化
IBM Rhapsody AI 助手:讓系統(tǒng)工程更智能
“汽車智能化” 和 “家電高端化”
AI賦能6G與衛(wèi)星通信:開啟智能天網(wǎng)新時代
突破傳統(tǒng)桎梏,PPEC Workbench 開啟電源智能化設(shè)計新路徑
LCR測試儀如何實現(xiàn)智能化與AI融合
不花大價錢,讓你的AI小助手更加智能化!
評論