久久久精品久久久影院,91熟女乱伦,69国产成人精品午夜福中文

語音合成又叫文語轉換，是將文本轉換成語音的一種技術，是人機交互中必不可少的一個環節。隨著技術的發展，現在合成語音的自然度和音質都得到了明顯的改善。汽車導航內嵌的語音系統、智能手機語音助手、讀書軟件等等，這些應用的實現都離不開語音合成。時下熱門的AR、機器人、可穿戴設備等也為語音合成技術落地提供了更廣闊的市場。

不過，當前語音合成技術還有很多痛點急需要解決，讓機器擁有自然、有情感的聲音，依舊是語音合成技術最大的難點。語音合成的現狀是怎樣？一個優質合成音是怎樣誕生的？AI浪潮下，你可以如何玩轉語音合成？AI公開課第一期，我們為你請到科大訊飛云平臺技術服務專家——汪艦為你解答這些問題。

什么是語音合成

語音合成也叫文語轉換（Text-To-Speech），簡稱TTS，簡單理解就是“讓機器說人話”。

語音合成用在哪里

別看語音合成技術近年來才被廣泛應用，實際它已經有兩百多年的歷史了。

那么語音合成都在我們生活中的哪些地方出現過呢？我總結了三個方面：

第一個是APP，比如QQ閱讀這樣的讀書應用，滴滴出行高德導航這種導航播報類的app；還有以siri為代表的語音助手，都是語音合成功能的常見載體；

另外一類是智能硬件產品，比如非常火的機器人領域，我們都希望機器人可以像真人一樣和我們進行交流，所以合成功能基本就是他們的必備能力。

還有一些特殊領域也非常需要語音合成，比如視障閱讀，對于視障人士來說，聽書比摸書要高效得多。

語音合成里的技術門派

將語音合成技術門派按武俠風格可以劃分為：氣宗和劍宗。想當年氣宗草創之初，創始人的想法很簡單，人怎么發聲的我就讓機器怎么發聲，基本就是山寨人體的思路。

但是有撥人認為，氣宗這么搞沒有前途，而且成效太慢，可操作性太差了，這撥人就是劍宗。劍宗表示，我們完全可以直接找人把語音里面所有的基礎片段都錄好，然后按照需要直接拼就行了。

技術門派之氣宗

先來看看氣宗具體是怎么玩的：他們用氣囊代替肺，接根管子代替氣管，管子末端再裝個氣門代替聲帶，氣門后面再裝個橡膠做的碗狀結構來模擬口腔。

這套系統的操作非常簡單，一只手掐住脖子就是氣門，控制基頻高低；另一只手操作口腔就是那個橡膠碗，控制發什么音；剩下的那個用來模擬肺的氣囊就只能用腳來踩了。

基頻又是什么呢？讓我們舉個簡單的例子，漢語普通話除輕聲以外有四種聲調，2聲的基頻就是前低后高，4聲的前高后低，3聲是先高后低再高。掐氣門的手捏得越緊，聲道越窄，振動的基頻就越高。不過這當個發明愛好還可以，實際用起來肯定不靠譜。但是隨著科學的發展，計算機技術開始出現，逐漸普及，給很多領域都帶來了全新的變化，語音合成當然也不例外。

技術門派之劍宗

劍宗表示，我們完全可以直接找人把語音里面所有的基礎片段都錄好，按照需要直接拼就行了。這個基礎片段可長可短，可以是音素，可以是音節，甚至是聲韻母的拼音。這種方法對人的要求就簡單多了，基本上會拼圖就能操作，所以也比較速成。

但是在沒有計算機的時代，大量單元的管理和拼接是很麻煩的工作，所以每個基礎單元一般只保存了較少的樣例供選擇。那么在合成千變萬化的句子的時候，語音的起承轉合難免就有些生硬和突兀，拼出來的語音雖然能讓人聽懂，但很難做到自然流暢。

計算機出現后這個問題得到有效的解決，有了計算和存儲能力更大的計算機，他們就可以進行超大規模音庫的制作，包括語料設計、音庫錄制、精細切分、韻律標注；同時進行規則統計，以此來針對不同發音人進行細致調整。這樣合成出來的音頻音質比較好，一般句子的自然度也不錯。

所以在此后很長一段時間，劍宗對氣宗在合成音的音質上占據了絕對優勢，氣宗只在嵌入式的小系統上保留著一小塊領地。這種狀況直到后來氣宗成功引入了在語音識別領域大放異彩的HMM（隱馬爾科夫模型）才得到根本改善。

語音合成技術痛點是什么

從合成的發展歷史來看，表現力、音質、復雜度和自然度一直是合成技術所追求的四點。其中隨著技術的演進，復雜度、自然度、音質三個方面都已經取得了非常不錯的成績。目前各大技術提供商更多的是在研究如何提高合成音的表現力，特別是語氣和情感方面。

一條音頻是如何合成出來的

這里其實包括了兩個過程，一個是語音庫的制作過程，一個是使用語音庫將文本變成音頻的過程。語音庫的制作首先需要收集客戶的需求，確定音色、風格、使用領域、產品特性、角色要求；然后找到配音員試音，根據需求設計試音文本，收集錄音，通過實驗分析確定發音人是否合適做音庫；然后和客戶確認實驗效果是否能接受；最后投入音庫生產線，錄音腳本設計、錄音資源訓練、效果優化。

然后看一下真正的合成過程：輸入文本后首先需要按照詞典規則對文本進行語言處理，主要模擬人對自然語言的理解過程，包括文本規整、詞的切分、語法語義分析，使計算機對輸入的文本能完全理解，并給出后續步驟所需要的各種發音提示。然后是韻律處理，就是為合成語音規劃出音段特征，如音高、音長和音強等，使合成語音能正確表達語意，聽起來更加自然。最后根據前兩部分處理結果的要求輸出語音，即合成語音。

語音合成優秀案例解析

QQ閱讀演示視頻

小程序：AI隨身聽演示視頻

訊飛開放平臺的語音合成技術

訊飛開放平臺目前以SDK的形式提供語音合成能力

目前提供支持8個平臺的合成SDK，免費開放36個在線發音人，還有15個離線發音人可供購買使用，其中發音人xiaoyuan更是支持中英文混合合成。支持各種語言方言13種。另外對于有特殊要求的產品，我們還提供特色發音人的定制服務，例如很多小伙伴比較熟悉的高德地圖林志玲的聲音，還有之前PPT出現龍泉寺賢二的發音人。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

計算機

計算機

+關注

關注
19

文章
7807

瀏覽量
93204
語音合成

語音合成

+關注

關注
2

文章
94

瀏覽量
16781
大數據

大數據

+關注

關注
64

文章
9063

瀏覽量
143761

搜索歷史

關于語音合成的類別以及應用分析

評論