国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

基于神經網絡的多音區語音喚醒

智能感知與物聯網技術研究所 ? 來源:通信信號處理研究所 ? 作者:通信信號處理研究 ? 2021-01-02 11:32 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

1. 概述

人工智能技術迅猛發展,人機語音交互更加自然,搭載語音喚醒、識別技術的智能設備也越來越多。語音喚醒在學術上稱為 keyword spotting(簡稱 KWS),即在連續語流中實時檢測出說話人特定片段(比如:叮當叮當、Hi Siri 等),是一種小資源的關鍵詞檢索任務,也可以看作是一類特殊的語音識別,應用在智能設備上起到了保護用戶隱私、降低設備功耗的作用,經常扮演一個激活設備、開啟系統的入口角色,在手機助手、車載、可穿戴設備、智能家居機器人等運用得尤其普遍。

喚醒效果好壞的判定指標主要有召回率 (recall,俗稱喚醒率)、虛警率 (false alarm,俗稱誤喚醒)、響應時間和功耗四個指標。召回率表示正確被喚醒的次數占總的應該被喚醒次數的比例。虛警率表示不該被喚醒卻被喚醒的概率,工業界常以 12 或者 24 小時的誤喚醒次數作為系統虛警率的評價指標。響應時間是指用戶說出喚醒詞后,設備的反應時間,過大的響應時間會造成較差的用戶體驗。功耗是指喚醒系統的耗電情況,多數智能設備都是電池供電,且需要保證長時續航,要求喚醒系統必須是低耗能的。一個好的喚醒系統應該保證較高的召回率、較低的虛警率、響應延時短、功耗低。

喚醒技術落地的難點是要求在低功耗下達到高性能要求。一方面是目前很多智能設備為了控制成本,搭載的都是一些低端芯片,計算能力有限,需要喚醒模塊盡可能的減少計算計算量以減少能源消耗;一方面用戶使用場景多種多樣,設備也常沒有經過專業聲學設計,遠場、大噪聲、強干擾、高回聲、高混響等情況下仍然面臨召回率低、虛警率高的問題。

針對此問題,騰訊 AI Lab 近期發表一篇論文,針對復雜聲學環境,特別是噪聲和干擾人聲場景,對送給喚醒模型的聲學信號進行前處理,以提升其語音信號質量。本論文已被 Interspeech 2020 接收。

很多智能設備安裝有多個麥克風,因此多通道的前端處理技術被應用到喚醒的前端信號處理中。當目標說話人與干擾聲源分布在不同方向時,多通道的語音增強技術,例如波束形成 (beamformer), 能夠有效的增強目標說話人,抑制其它干擾聲源。但是這一做法依賴較準確的目標說話人方向定位。在實際環境中,由于有干擾聲源的存在,使得很難從帶噪數據中準確估計目標說話人的方位,特別是當有多人在同時說話時,也無法判斷哪一個是目標說話人。因此本文采用“耳聽八方” (多音區) 的思路,在空間中設定若干待增強的方向(look direction),然后區別于傳統的波束形成做法(這個做法已發表于 ICASSP 2020 [1]),本文提出了一個基于神經網絡的多音區(multi-look)語音增強模型,可同時增強多個指定的方向聲源。這些多個方向增強輸出的信號再通過注意力機制進行特征融合送予喚醒模型。由于前端的增強是通過神經網絡處理的,這樣多音區的增強模型與喚醒模型可以進行聯合優化,實現真正的前后端一體的多音區語音喚醒。

基于神經網絡的多音區語音增強模型是首個完全基于神經網絡的多音區語音增強模型。相比于特定方向的語音增強,本文提出的模型可同時增強多個方向聲源。同時這種基于神經網絡的方法,在性能上顯著優于基于傳統的波束形成做法。完全基于神經網絡的多音區前端,與喚醒模型聯合訓練,前后一體的做法進一步提升模型的魯棒性和穩定性。此模型適用于多麥克風設備的語音喚醒。

以下為方案詳細解讀。

2. 方案詳解

傳統的多音區語音處理的思路,是在空間中設定若干待增強的方向(look direction),每個方向分別應用一個波束形成,增強這個方向的聲源,最終本文將每個方向增強輸出的信號輪流送給喚醒模塊,只要有一個方向觸發喚醒,則喚醒成功。這種基于多音區的多波束喚醒技術大大提高了噪聲下的喚醒性能,然而需要多次調用喚醒模塊,因此計算量較單路喚醒也成倍增加,功耗變大制約了應用。針對這一情況,作者在早前一點的工作中 [1] 將注意力 (attention) 機制引入到喚醒框架下,如圖 1 所示,多個 look-direction 增強的信號提取特征后通過 attention 層映射成單通道輸入特征,再送入單路喚醒網絡層,與單路喚醒相比僅僅增加了一層網絡,既保證了喚醒性能,計算量又大大降低。

057c3e98-4458-11eb-8b86-12bb97331649.png

圖 1:基于多波束特征融合的喚醒模型 [1]

以上介紹的基于波束形成的多音區喚醒 [1],前端的信號處理(波束形成)和喚醒模塊還沒有做到聯合調優。因此本文提出了一個基于神經網絡的多音區語音增強模型。該模型讀取單個通道的語譜特征和多通道的相位差特征,同時根據預設的若干音區方向(look direction),作者分別提取對應的方向特征 (directionalfeature)。這些方向特征表征每個時頻點是否被特定音區方向的聲源信號占據,從而驅動網絡在輸出端增強距離每個音區方向最近的那個說話人。為了避免因為音區和說話人的空間分布導致目標說話人經過多音區增強模型處理后失真,實驗中使用一個原始麥克風信號與多個方向增強輸出的信號一起通過注意力機制進行特征融合送予喚醒模型,由于前端的增強是通過神經網絡處理的,這樣多音區的增強模型與喚醒模型可以進行聯合優化,實現真正的前后端一體的多音區語音喚醒。完整的模型結構在圖 2 中描述。

05ff7c04-4458-11eb-8b86-12bb97331649.png

圖 2: 本文提出的基于神經網絡的多音區語音增強和喚醒模型 [2]

圖 3 是一個多音區增強的實例。兩個說話人分別位于圖 (a) 所示位置,麥克風采集的兩人同時說話信號譜如圖 (b). 作者設定了 4 個待增強的方向(0 度,90 度,180 度和 270 度)。多音區增強模型將會在 0 度和 90 度方向增強藍色說話人,180 度和 270 度方向將會增強黑色說話人, 增強后的 4 個方向語譜如圖 (c)。

06514aca-4458-11eb-8b86-12bb97331649.png

圖 3: 多音區增強網絡輸出實例

在圖 4 中,作者對比了基于神經網絡的多音區增強喚醒模型與基于波束形成的多音區增強喚醒模型和基線的單通道喚醒模型。可以看出特別是在小于 6dB 的信干比聲學環境下,本文提出的做法顯著超越其它方法。不同方法喚醒率測試均在控制誤喚醒為連續 12 小時干擾噪聲下 1 次的條件下進行的。

078bea08-4458-11eb-8b86-12bb97331649.png

圖 4: 多音區喚醒模型的性能對比

3.總結及展望

本文提出的多音區語音增強和喚醒的做法,大幅降級了喚醒前端語音增強與喚醒結合使用的計算量,在未知目標聲源方位的情形下,同時增強的多個方向聲源信號的特征融合可保證目標語音得到增強,給準確的喚醒提供了保障。在論文中測試的多說話人帶噪聲的復雜聲學環境下,喚醒率達到 95%。

多音區的語音增強模型已經與聲紋模型結合,形成多音區的說話人驗證,提升聲紋系統在復雜遠場聲學環境下的魯棒性。未來這一工作可與語音識別等其它語音任務相結合。

原文標題:論文解讀丨基于神經網絡的多音區語音喚醒

文章出處:【微信公眾號:通信信號處理研究所】歡迎添加關注!文章轉載請注明出處。

責任編輯:haq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 神經網絡
    +關注

    關注

    42

    文章

    4838

    瀏覽量

    107748
  • 人工智能
    +關注

    關注

    1817

    文章

    50094

    瀏覽量

    265275

原文標題:論文解讀丨基于神經網絡的多音區語音喚醒

文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯網技術研究所】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    神經網絡的初步認識

    日常生活中的智能應用都離不開深度學習,而深度學習則依賴于神經網絡的實現。什么是神經網絡神經網絡的核心思想是模仿生物神經系統的結構,特別是大腦中神經
    的頭像 發表于 12-17 15:05 ?323次閱讀
    <b class='flag-5'>神經網絡</b>的初步認識

    自動駕駛中常提的卷積神經網絡是個啥?

    在自動駕駛領域,經常會聽到卷積神經網絡技術。卷積神經網絡,簡稱為CNN,是一種專門用來處理網格狀數據(比如圖像)的深度學習模型。CNN在圖像處理中尤其常見,因為圖像本身就可以看作是由像素排列成的二維網格。
    的頭像 發表于 11-19 18:15 ?2072次閱讀
    自動駕駛中常提的卷積<b class='flag-5'>神經網絡</b>是個啥?

    NMSIS神經網絡庫使用介紹

    NMSIS NN 軟件庫是一組高效的神經網絡內核,旨在最大限度地提高 Nuclei N 處理器內核上的神經網絡的性能并最??大限度地減少其內存占用。 該庫分為多個功能,每個功能涵蓋特定類別
    發表于 10-29 06:08

    在Ubuntu20.04系統中訓練神經網絡模型的一些經驗

    本帖欲分享在Ubuntu20.04系統中訓練神經網絡模型的一些經驗。我們采用jupyter notebook作為開發IDE,以TensorFlow2為訓練框架,目標是訓練一個手寫數字識別的神經網絡
    發表于 10-22 07:03

    CICC2033神經網絡部署相關操作

    在完成神經網絡量化后,需要將神經網絡部署到硬件加速器上。首先需要將所有權重數據以及輸入數據導入到存儲器內。 在仿真環境下,可將其存于一個文件,并在 Verilog 代碼中通過 readmemh 函數
    發表于 10-20 08:00

    液態神經網絡(LNN):時間連續性與動態適應性的神經網絡

    1.算法簡介液態神經網絡(LiquidNeuralNetworks,LNN)是一種新型的神經網絡架構,其設計理念借鑒自生物神經系統,特別是秀麗隱桿線蟲的神經結構,盡管這種微生物的
    的頭像 發表于 09-28 10:03 ?1197次閱讀
    液態<b class='flag-5'>神經網絡</b>(LNN):時間連續性與動態適應性的<b class='flag-5'>神經網絡</b>

    神經網絡的并行計算與加速技術

    隨著人工智能技術的飛速發展,神經網絡在眾多領域展現出了巨大的潛力和廣泛的應用前景。然而,神經網絡模型的復雜度和規模也在不斷增加,這使得傳統的串行計算方式面臨著巨大的挑戰,如計算速度慢、訓練時間長等
    的頭像 發表于 09-17 13:31 ?1122次閱讀
    <b class='flag-5'>神經網絡</b>的并行計算與加速技術

    基于神經網絡的數字預失真模型解決方案

    在基于神經網絡的數字預失真(DPD)模型中,使用不同的激活函數對整個系統性能和能效有何影響?
    的頭像 發表于 08-29 14:01 ?3471次閱讀

    無刷電機小波神經網絡轉子位置檢測方法的研究

    摘要:論文通過對無刷電機數學模型的推導,得出轉角:與三相相電壓之間存在映射關系,因此構建了一個以三相相電壓為輸人,轉角為輸出的小波神經網絡來實現轉角預測,并采用改進遺傳算法來訓練網絡結構與參數,借助
    發表于 06-25 13:06

    神經網絡專家系統在電機故障診斷中的應用

    摘要:針對傳統專家系統不能進行自學習、自適應的問題,本文提出了基于種經網絡專家系統的并步電機故障診斷方法。本文將小波神經網絡和專家系統相結合,充分發揮了二者故障診斷的優點,很大程度上降低了對電機
    發表于 06-16 22:09

    神經網絡RAS在異步電機轉速估計中的仿真研究

    眾多方法中,由于其結構簡單,穩定性好廣泛受到人們的重視,且已被用于產品開發。但是MRAS仍存在在低速區速度估計精度下降和對電動機參數變化非常敏感的問題。本文利用神經網絡的特點,使估計更為簡單、快速
    發表于 06-16 21:54

    基于FPGA搭建神經網絡的步驟解析

    本文的目的是在一個神經網絡已經通過python或者MATLAB訓練好的神經網絡模型,將訓練好的模型的權重和偏置文件以TXT文件格式導出,然后通過python程序將txt文件轉化為coe文件,(coe
    的頭像 發表于 06-03 15:51 ?1194次閱讀
    基于FPGA搭建<b class='flag-5'>神經網絡</b>的步驟解析

    AI神經網絡降噪算法在語音通話產品中的應用優勢與前景分析

    隨著人工智能技術的快速發展,AI神經網絡降噪算法在語音通話產品中的應用正逐步取代傳統降噪技術,成為提升語音質量的關鍵解決方案。相比傳統DSP(數字信號處理)降噪,AI降噪具有更強的環境適應能力、更高
    的頭像 發表于 05-16 17:07 ?1501次閱讀
    AI<b class='flag-5'>神經網絡</b>降噪算法在<b class='flag-5'>語音</b>通話產品中的應用優勢與前景分析

    NVIDIA實現神經網絡渲染技術的突破性增強功能

    近日,NVIDIA 宣布了 NVIDIA RTX 神經網絡渲染技術的突破性增強功能。NVIDIA 與微軟合作,將在 4 月的 Microsoft DirectX 預覽版中增加神經網絡著色技術,讓開
    的頭像 發表于 04-07 11:33 ?1163次閱讀

    神經網絡壓縮框架 (NNCF) 中的過濾器修剪統計數據怎么查看?

    無法觀察神經網絡壓縮框架 (NNCF) 中的過濾器修剪統計數據
    發表于 03-06 07:10