国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

語音識別技術的原理及研究難點

工程師鄧生 ? 來源:蘇寧金融研究院 ? 作者:蘇寧金融研究院 ? 2020-01-26 17:54 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在我們的生活中,語言是傳遞信息最重要的方式,它能夠讓人們之間互相了解。人和機器之間的交互也是相同的道理,讓機器人知道人類要做什么、怎么做。交互的方式有動作、文本或語音等等,其中語音交互越來越被重視,因為隨著互聯網上智能硬件的普及,產生了各種互聯網的入口方式,而語音是最簡單、最直接的交互方式,是最通用的輸入模式。

在1952年,貝爾研究所研制了世界上第一個能識別10個英文數字發音的系統。1960年英國的Denes等人研制了世界上第一個語音識別(ASR)系統。大規模的語音識別研究始于70年代,并在單個詞的識別方面取得了實質性的進展。上世紀80年代以后,語音識別研究的重點逐漸轉向更通用的大詞匯量、非特定人的連續語音識別。

90年代以來,語音識別的研究一直沒有太大進步。但是,在語音識別技術的應用及產品化方面取得了較大的進展。自2009年以來,得益于深度學習研究的突破以及大量語音數據的積累,語音識別技術得到了突飛猛進的發展。

深度學習研究使用預訓練的多層神經網絡,提高了聲學模型的準確率。微軟的研究人員率先取得了突破性進展,他們使用深層神經網絡模型后,語音識別錯誤率降低了三分之一,成為近20年來語音識別技術方面最快的進步。

另外,隨著手機等移動終端的普及,多個渠道積累了大量的文本語料或語音語料,這為模型訓練提供了基礎,使得構建通用的大規模語言模型和聲學模型成為可能。在語音識別中,豐富的樣本數據是推動系統性能快速提升的重要前提,但是語料的標注需要長期的積累和沉淀,大規模語料資源的積累需要被提高到戰略高度。

今天,語音識別在移動端和音箱的應用上最為火熱,語音聊天機器人、語音助手等軟件層出不窮。許多人初次接觸語音識別可能歸功于蘋果手機的語音助手Siri。

Siri技術來源于美國國防部高級研究規劃局(DARPA)的CALO計劃:初衷是一個讓軍方簡化處理繁重復雜的事務,并具備認知能力進行學習、組織的數字助理,其民用版即為Siri虛擬個人助理。

Siri公司成立于2007年,最初是以文字聊天服務為主,之后與大名鼎鼎的語音識別廠商Nuance合作實現了語音識別功能。2010年,Siri被蘋果收購。2011年蘋果將該技術隨同iPhone 4S發布,之后對Siri的功能仍在不斷提升完善。現在,Siri成為蘋果iPhone上的一項語音控制功能,可以讓手機變身為一臺智能化機器人。通過自然語言的語音輸入,可以調用各種APP,如天氣預報、地圖導航、資料檢索等,還能夠通過不斷學習改善性能,提供對話式的應答服務。

語音識別(ASR)原理

語音識別技術是讓機器通過識別把語音信號轉變為文本,進而通過理解轉變為指令的技術。目的就是給機器賦予人的聽覺特性,聽懂人說什么,并作出相應的行為。語音識別系統通常由聲學識別模型和語言理解模型兩部分組成,分別對應語音到音節和音節到字的計算。一個連續語音識別系統(如下圖)大致包含了四個主要部分:特征提取、聲學模型、語言模型和解碼器等。

語音識別技術的原理及研究難點

(1)語音輸入的預處理模塊

對輸入的原始語音信號進行處理,濾除掉其中的不重要信息以及背景噪聲,并進行語音信號的端點檢測(也就是找出語音信號的始末)、語音分幀(可以近似理解為,一段語音就像是一段視頻,由許多幀的有序畫面構成,可以將語音信號切割為單個的“畫面”進行分析)等處理。

(2)特征提取

在去除語音信號中對于語音識別無用的冗余信息后,保留能夠反映語音本質特征的信息進行處理,并用一定的形式表示出來。也就是提取出反映語音信號特征的關鍵特征參數形成特征矢量序列,以便用于后續處理。

(3)聲學模型訓練

聲學模型可以理解為是對聲音的建模,能夠把語音輸入轉換成聲學表示的輸出,準確的說,是給出語音屬于某個聲學符號的概率。根據訓練語音庫的特征參數訓練出聲學模型參數。在識別時可以將待識別的語音的特征參數與聲學模型進行匹配,得到識別結果。目前的主流語音識別系統多采用隱馬爾可夫模型HMM進行聲學模型建模。

(4)語言模型訓練

語言模型是用來計算一個句子出現概率的模型,簡單地說,就是計算一個句子在語法上是否正確的概率。因為句子的構造往往是規律的,前面出現的詞經常預示了后方可能出現的詞語。它主要用于決定哪個詞序列的可能性更大,或者在出現了幾個詞的時候預測下一個即將出現的詞語。它定義了哪些詞能跟在上一個已經識別的詞的后面(匹配是一個順序的處理過程),這樣就可以為匹配過程排除一些不可能的單詞。

語言建模能夠有效的結合漢語語法和語義的知識,描述詞之間的內在關系,從而提高識別率,減少搜索范圍。對訓練文本數據庫進行語法、語義分析,經過基于統計模型訓練得到語言模型。

(5)語音解碼和搜索算法

解碼器是指語音技術中的識別過程。針對輸入的語音信號,根據己經訓練好的HMM聲學模型、語言模型及字典建立一個識別網絡,根據搜索算法在該網絡中尋找最佳的一條路徑,這個路徑就是能夠以最大概率輸出該語音信號的詞串,這樣就確定這個語音樣本所包含的文字了。所以,解碼操作即指搜索算法,即在解碼端通過搜索技術尋找最優詞串的方法。

連續語音識別中的搜索,就是尋找一個詞模型序列以描述輸入語音信號,從而得到詞解碼序列。搜索所依據的是對公式中的聲學模型打分和語言模型打分。在實際使用中,往往要依據經驗給語言模型加上一個高權重,并設置一個長詞懲罰分數。

語音識別本質上是一種模式識別的過程,未知語音的模式與已知語音的參考模式逐一進行比較,最佳匹配的參考模式被作為識別結果。當今語音識別技術的主流算法,主要有基于動態時間規整(DTW)算法、基于非參數模型的矢量量化(VQ)方法、基于參數模型的隱馬爾可夫模型(HMM)的方法、以及近年來基于深度學習和支持向量機等語音識別方法。

站在巨人的肩膀上:開源框架

目前開源世界里提供了多種不同的語音識別工具包,為開發者構建應用提供了很大幫助。但這些工具各有優劣,需要根據具體情況選擇使用。下表為目前相對流行的工具包間的對比,大多基于傳統的 HMM 和N-Gram 語言模型的開源工具包。

對于普通用戶而言,大多數人都會知道 Siri 或 Cortana 這樣的產品。而對于研發工程師來說,更靈活、更具專注性的解決方案更符合需求,很多公司都會研發自己的語音識別工具。

(1)CMU Sphinix是卡內基梅隆大學的研究成果。已有 20 年歷史了,在 Github和 SourceForge上都已經開源了,而且兩個平臺上都有較高的活躍度。

(2)Kaldi 從 2009 年的研討會起就有它的學術根基了,現在已經在 GitHub上開源,開發活躍度較高。

(3)HTK 始于劍橋大學,已經商用較長時間,但是現在版權已經不再開源軟件了。它的最新版本更新于 2015 年 12 月。

(4)Julius起源于 1997 年,最后一個主版本發布于2016 年 9 月,主要支持的是日語。

(5)ISIP 是第一個最新型的開源語音識別系統,源于密西西比州立大學。它主要發展于 1996 到 1999 年間,最后版本發布于 2011 年,遺憾的是,這個項目已經不復存在。

語音識別技術研究難點

目前,語音識別研究工作進展緩慢,困難具體表現在:

(1)輸入無法標準統一

比如,各地方言的差異,每個人獨有的發音習慣等,如下圖所示,口腔中元音隨著舌頭部位的不同可以發出多種音調,如果組合變化多端的輔音,可以產生大量的、相似的發音,這對語音識別提出了挑戰。除去口音參差不齊,輸入設備不統一也導致了語音輸入的不標準。

(2)噪聲的困擾

噪聲環境的各類聲源處理是目前公認的技術難題,機器無法從各層次的背景噪音中分辨出人聲,而且,背景噪聲千差萬別,訓練的情況也不能完全匹配真實環境。因而,語音識別在噪聲中比在安靜的環境下要難得多。

目前主流的技術思路是,通過算法提升降低誤差。首先,在收集的原始語音中,提取抗噪性較高的語音特征。然后,在模型訓練的時候,結合噪聲處理算法訓練語音模型,使模型在噪聲環境里的魯棒性較高。最后,在語音解碼的過程中進行多重選擇,從而提高語音識別在噪聲環境中的準確率。完全消除噪聲的干擾,目前而言,還停留在理論層面。

(3)模型的有效性

識別系統中的語言模型、詞法模型在大詞匯量、連續語音識別中還不能完全正確的發揮作用,需要有效地結合語言學、心理學及生理學等其他學科的知識。并且,語音識別系統從實驗室演示系統向商品的轉化過程中還有許多具體細節技術問題需要解決。

智能語音識別系統研發方向

今天,許多用戶已經能享受到語音識別技術帶來的方便,比如智能手機的語音操作等。但是,這與實現真正的人機交流還有相當遙遠的距離。目前,計算機對用戶語音的識別程度不高,人機交互上還存在一定的問題,智能語音識別系統技術還有很長的一段路要走,必須取得突破性的進展,才能做到更好的商業應用,這也是未來語音識別技術的發展方向。

在語音識別的商業化落地中,需要內容、算法等各個方面的協同支撐,但是良好的用戶體驗是商業應用的第一要素,而識別算法是提升用戶體驗的核心因素。目前語音識別在智能家居、智能車載、智能客服機器人方面有廣泛的應用,未來將會深入到學習、生活、工作的各個環節。許多科幻片中的場景正在逐步走入我們的平常生活。

責任編輯:wv

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 語音識別
    +關注

    關注

    39

    文章

    1812

    瀏覽量

    116047
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    瑞芯微(EASY EAI)RV1126B 語音識別

    1.語音識別簡介語音識別技術,也被稱為自動語音識別
    的頭像 發表于 01-21 10:43 ?834次閱讀
    瑞芯微(EASY EAI)RV1126B <b class='flag-5'>語音</b><b class='flag-5'>識別</b>

    語音識別IC分類,語音識別芯片的工作原理

    語音識別芯片,也叫語音識別集成電路,是一種集聲音存儲、播放、錄音及語音識別功能于一體的專用芯片。
    的頭像 發表于 01-14 15:22 ?239次閱讀
    <b class='flag-5'>語音</b><b class='flag-5'>識別</b>IC分類,<b class='flag-5'>語音</b><b class='flag-5'>識別</b>芯片的工作原理

    國產32位MCU語音識別方案

    在智能家居、工業控制及便攜設備領域,語音交互正成為人機界面的重要發展方向。針對離線語音識別需求,基于國產32位MCU的解決方案日益成熟,其中以CH32V307等為代表的32位MCU芯片,憑借高集成度與專用優化,為嵌入式設備提供了
    的頭像 發表于 12-04 15:11 ?541次閱讀

    語音識別芯片有哪些(語音識別芯片AT680系列)

    在人工智能技術飛速發展的今天,語音識別芯片作為人機交互的重要橋梁,正逐漸成為各類智能設備不可或缺的核心部件。與傳統的語音芯片不同,語音
    的頭像 發表于 11-14 17:11 ?1368次閱讀

    什么是離線語音識別芯片(離線語音識別芯片有哪些優點)

    離線語音識別芯片,是一種集成了語音信號采集、前端處理和本地識別功能的專用集成電路,無須聯網也可以進行語音控制。它內設先進的數字信號處理模塊及
    的頭像 發表于 10-31 15:27 ?506次閱讀

    如何選擇合適的語音識別芯片型號

    語音識別芯片(又稱語音識別IC)是現代智能設備的核心組件,與傳統語音芯片相比,其最大特點是能夠主動識別
    的頭像 發表于 10-30 16:32 ?611次閱讀

    廣州唯創電子WTK6900H-32N語音識別芯片:AI降噪算法助力抽油煙機精準語音控制 | 語音IC廠家

    在現代智能家居快速發展的大背景下,廚房作為家庭生活的重要場景,其智能化程度卻一直受到環境噪音的制約。抽油煙機作為廚房核心電器,其運行產生的噪音往往使得傳統語音識別技術難以發揮效用。廣州唯創電子憑借其
    的頭像 發表于 10-30 09:17 ?378次閱讀
    廣州唯創電子WTK6900H-32N<b class='flag-5'>語音</b><b class='flag-5'>識別</b>芯片:AI降噪算法助力抽油煙機精準<b class='flag-5'>語音</b>控制 | <b class='flag-5'>語音</b>IC廠家

    語音識別系統的技術核心:從聲音到文字的智能轉換

    ? ? ? 語音識別技術,也稱為自動語音識別(ASR),其核心目標是將人類語音信號轉換為對應的文
    的頭像 發表于 09-05 14:04 ?837次閱讀

    基于開源鴻蒙的語音識別語音合成應用開發樣例

    本期內容由AI Model SIG提供,介紹了在開源鴻蒙中,利用sherpa_onnx開源三方庫進行ASR語音識別與TTS語音合成應用開發的流程。
    的頭像 發表于 08-25 14:26 ?4115次閱讀
    基于開源鴻蒙的<b class='flag-5'>語音</b><b class='flag-5'>識別</b>及<b class='flag-5'>語音</b>合成應用開發樣例

    瑞芯微RK3576語音識別算法

    1.語音識別簡介語音識別技術,也被稱為自動語音識別
    的頭像 發表于 08-15 15:13 ?2184次閱讀
    瑞芯微RK3576<b class='flag-5'>語音</b><b class='flag-5'>識別</b>算法

    語音識別---大家怎么看呢?

    語音識別是一門交叉學科。近二十年來,語音識別技術取得顯著進步,開始從實驗室走向市場。人們預計,未來10年內,
    發表于 08-09 10:54

    語音識別芯片選型有哪些技術參數要注意

    語音識別芯片的使用場景越來越多涉及的范圍也越來越廣!那么語音芯片的選型就很重要了,選型不對直接影響產品的使用體驗,下面小編從不同的維度來給大家介紹語音
    的頭像 發表于 06-23 17:31 ?868次閱讀
    <b class='flag-5'>語音</b><b class='flag-5'>識別</b>芯片選型有哪些<b class='flag-5'>技術</b>參數要注意

    明遠智睿SSD2351開發板:語音機器人領域的變革力量

    源的開發資料為開發者提供了深入研究和定制語音機器人功能的基礎,開發者可以根據不同的應用需求,對語音識別算法、語音合成引擎等進行優化和改進。一
    發表于 05-28 11:36

    普強信息入選2024語音識別技術公司TOP30榜單

    普強憑借在語音識別領域多年的技術積淀與持續的創新突破,成功入選“2024語音識別技術公司TOP3
    的頭像 發表于 04-18 17:25 ?1208次閱讀

    廠家芯資訊|廣州唯創電子語音識別芯片技術解析

    ?一、公司及產品概述作為國內領先的語音芯片研發企業,深耕語音技術領域25年,其產品以高穩定性、低功耗和多場景適應性著稱。公司推出的語音識別
    的頭像 發表于 03-19 08:46 ?800次閱讀
    廠家芯資訊|廣州唯創電子<b class='flag-5'>語音</b><b class='flag-5'>識別</b>芯片<b class='flag-5'>技術</b>解析