国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

針對設(shè)備上使用的Voice Filter的更新

LiveVideoStack ? 來源:LiveVideoStack ? 作者:LiveVideoStack ? 2020-12-07 13:48 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

語音輔助技術(shù)使用戶能夠使用語音命令與他們的設(shè)備進(jìn)行交互,并且依靠準(zhǔn)確的語音識別來確保對特定用戶的響應(yīng)。但是在許多實際的使用案例中,這類技術(shù)的輸入一般由重疊的語音組成,這給許多語音識別算法帶來了巨大的挑戰(zhàn)。

2018年,我們推出了VoiceFilter系統(tǒng),該系統(tǒng)利用了谷歌的Voice Match,通過允許用戶注冊和登記自己的語音,實現(xiàn)與輔助技術(shù)的個性化交互。

雖然VoiceFiltr的方法很成功,并且實現(xiàn)了比傳統(tǒng)方法更好的信噪比(SDR),但高效的設(shè)備上流媒體語音識別需要解決模型大小、CPU、內(nèi)存限制和電池使用注意事項和延遲最小化等的限制。

在“Voice Filter-lite方面:針對面向設(shè)備上語音識別的流媒體目標(biāo)語音分離”中,我們推出了針對設(shè)備上使用的Voice Filter的更新,該更新可以通過利用選定發(fā)言人的注冊語音來達(dá)到顯著提高和改善重疊語音的語音識別。重要的是,該模型可以很容易地與現(xiàn)有的設(shè)備語音識別應(yīng)用程序集成,允許用戶在極其嘈雜的條件下訪問語音輔助功能,即使互聯(lián)網(wǎng)連接不可用。我們的實驗表明,一個2.2MB的voice filer-lite模型在重疊語音上可以使誤詞率(WER) 改善25.1% 。

改進(jìn)設(shè)備上的語音識別

雖然最初的VoiceFilter系統(tǒng)非常成功地將目標(biāo)發(fā)言人的語音信號從其他重疊的信號源中分離出來,但它的模型大小、計算成本和延遲,對于移動設(shè)備上的語音識別是不可行的。

新的Voice Filter-Lite系統(tǒng)經(jīng)過精心設(shè)計,與設(shè)備上的應(yīng)用程序相適應(yīng)。Voice Filter-Lite不需要處理音頻波形,而是采用與語音識別模型完全相同的輸入特征功能(stacked log Mel-filterbanks堆疊的對數(shù)Mel濾波器組) , 并通過實時過濾掉不屬于目標(biāo)說話者的組成部分來直接增強(qiáng)這些特征。加上對網(wǎng)絡(luò)拓?fù)涞亩囗梼?yōu)化,運(yùn)行時操作的數(shù)量大大減少。在使用Tensor Flow Lite庫對神經(jīng)網(wǎng)絡(luò)進(jìn)行量化后,模型大小只有2.2MB,適合大多數(shù)設(shè)備上的應(yīng)用程序。

為了訓(xùn)練Voice Filter-Lite模型,將帶噪聲語音的濾波器組與代表目標(biāo)發(fā)言人身份的嵌入向量(i.e.ad-vector d矢量)一起被輸進(jìn)網(wǎng)絡(luò)。該網(wǎng)絡(luò)預(yù)測了一個掩碼,將其與輸入逐元素相乘,從而產(chǎn)生增強(qiáng)的過濾庫。在訓(xùn)練過程中,我們定義了一個損失函數(shù)來最小化增強(qiáng)濾波器組和干凈語音的濾波器組之間的差異。

Voice Fliter-Lite系統(tǒng)的模型架構(gòu)

Voice Filter-Lite是一種即插即用的模型,它允許實如果說話者沒有登記他們的聲音,那么實現(xiàn)它的應(yīng)用程序可以輕松地繞過它。這也意味著語音識別模型和Voice Filer-Lite模型可以分別進(jìn)行訓(xùn)練和更新,這在很大程度上降低了部署過程中的工程復(fù)雜性。

作為即插即用模型,如果發(fā)言人沒有注冊他們的聲音,Voice Fliter-Lite可以很輕易地被忽略。

應(yīng)對過度抑制的挑戰(zhàn)

當(dāng)使用語音分離模型來改進(jìn)語音識別時,可能會出現(xiàn)兩種類型的錯誤:抑制不足,即模型無法濾除信號中的噪聲成分;以及過度抑制,當(dāng)模型不能保留有用的信號時,導(dǎo)致一些單詞從識別的文本中丟失。過度抑制問題尤其嚴(yán)重,因為現(xiàn)代語音識別模型通常已經(jīng)使用大量的增強(qiáng)數(shù)據(jù)(如房間模擬和SpecAugment) 進(jìn)行訓(xùn)練,因此對抑制不足更有魯棒性。

Voice Filter-Lite通過兩種新方法解決了過度抑制的問題。首先,它在訓(xùn)練過程中使用了非對稱性損失,使得模型對過度抑制的容忍度低于抑制不足的。其次,它對運(yùn)行時的噪聲類型進(jìn)行預(yù)測,并根據(jù)預(yù)測結(jié)果自適應(yīng)地調(diào)整抑制強(qiáng)度。

當(dāng)檢測重疊語音時,Voice Filter-Lite自適應(yīng)地應(yīng)用更強(qiáng)的抑制強(qiáng)度。

通過這兩種解決方案,Voice Filter-Lite模型在其他場景(如安靜或各種噪聲條件下的單揚(yáng)聲器語音)的流媒體語音識別方面保持了出色的性能,同時在重疊語音方面仍然提供了顯著的改進(jìn)。從我們的實驗中,我們觀察到將2.2MB Voice Filter-Lite模型應(yīng)用于附加性重疊語音后,單詞錯誤率改善了25.1%。對于混響重疊語音,模擬遠(yuǎn)場設(shè)備(如智能家庭揚(yáng)聲器)是一項更具挑戰(zhàn)性的任務(wù), 我們還觀察到使用Voice Filter-Lite可以改善14.7%的單詞錯誤率。

未來的工作

雖然Voice-Filter Lite在各種設(shè)備語音應(yīng)用程序中顯示出了巨大的潛力,但我們也在探索其他幾個方向,以使Voice-Filter Lite更有用。首先,我們目前的模型只用英語語音進(jìn)行訓(xùn)練和評估。我們很高興能夠采用同樣的技術(shù)來改進(jìn)更多語言的語音識別。其次,我們想在訓(xùn)練Voice Filter-Lite的過程中直接優(yōu)化語音識別損失,這可能會進(jìn)一步提高語音識別,而不僅僅是重疊語音。

感謝

本文所描述的研究代表了谷歌中多個團(tuán)隊的共同努力。貢獻(xiàn)者包括Quan Wang, Ignacio Lopez Moreno, Mert Saglam, Kevin Wilson, Alan Chiao, Renjie Liu, Yanzhang He, Wei Li, Jason Pelecanos, Philip Chao, Sinan Akay, John Han, Stephen Wu, Hannah Muckenhirn, Ye Jia, Zelin Wu, Yiteng Huang, Marily Nika, Jaclyn Konzelmann, Nino Tasca, and Alexander Gruenstein.Share on Twitter Share on Facebook在Twitter上的分享,在Facebook上的分享。

責(zé)任編輯:lq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 流媒體
    +關(guān)注

    關(guān)注

    1

    文章

    200

    瀏覽量

    17192
  • 語音識別
    +關(guān)注

    關(guān)注

    39

    文章

    1812

    瀏覽量

    116058
  • 應(yīng)用程序
    +關(guān)注

    關(guān)注

    38

    文章

    3344

    瀏覽量

    60262

原文標(biāo)題:使用VoiceFliter-Lite改進(jìn)設(shè)備上的語音識別

文章出處:【微信號:livevideostack,微信公眾號:LiveVideoStack】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    ulog_tag_lvl_filter_set()函數(shù)無法實現(xiàn)按照文檔說明那樣實現(xiàn)按模塊過濾,怎么解決?

    ulog_tag_lvl_filter_set()函數(shù)無法實現(xiàn)按照文檔說明那樣實現(xiàn)按模塊過濾,比如過濾掉所有drv.xxx的日志
    發(fā)表于 10-10 07:30

    如何更新 NuMaker IoT 板的 Wi-Fi 模塊固件?

    更新 NuMaker IoT 板的 Wi-Fi 模塊固件
    發(fā)表于 09-04 08:28

    電能質(zhì)量在線監(jiān)測裝置認(rèn)證標(biāo)準(zhǔn)的更新頻率是怎樣的?

    )的更新周期差異顯著。以下是具體分析和典型案例: 一、國內(nèi)標(biāo)準(zhǔn)(GB/DL/T)的更新規(guī)律 1. 核心標(biāo)準(zhǔn)更新周期 通用技術(shù)標(biāo)準(zhǔn) :如 GB/T 19862《電能質(zhì)量監(jiān)測設(shè)備通用要求》
    的頭像 發(fā)表于 09-03 16:31 ?880次閱讀
    電能質(zhì)量在線監(jiān)測裝置認(rèn)證標(biāo)準(zhǔn)的<b class='flag-5'>更新</b>頻率是怎樣的?

    請問新唐提供的ISP代碼(USB接口)如何判斷開機(jī)后是否需要ISP更新程序?

    新唐科技提供的ISP代碼(USB接口)可以參考一個I/O引腳的邏輯,通過硬件判斷是否需要ISP更新。 開發(fā)人員通常會在產(chǎn)品留下更新的路徑。但是,是否需要 ISP 更新將由軟件或硬
    發(fā)表于 08-27 07:13

    SM[HW]:CLOCK:PLL_GLITCH_FILTER 是否需要由SW激活?

    我想問一下,SM[HW]:CLOCK:PLL_GLITCH_FILTER 是否需要由 SW 激活,或者它是 HW 設(shè)計的一部分并且不能被禁用?詢問,正確制定安全要求。
    發(fā)表于 07-31 07:32

    HOLTEK發(fā)布HT68RV036 Voice OTP MCU

    在智能家庭的應(yīng)用場景中,聲音能賦予產(chǎn)品更多價值。Holtek針對Voice MCU HT68RV032、033/034/035語音應(yīng)用系列推出更大容量的HT68RV036,最大特點為內(nèi)建32Mbit
    的頭像 發(fā)表于 07-28 18:15 ?1367次閱讀

    Android 16更新亮點介紹

    Android 近期在整個平臺上推出了一系列更新,包括:發(fā)布 Android 16 并為開發(fā)者和用戶提供詳細(xì)信息,推出改進(jìn)外接顯示設(shè)備 Android 桌面體驗的開發(fā)者預(yù)覽版,為 Google
    的頭像 發(fā)表于 07-05 11:37 ?3760次閱讀

    請問刪除“wiced_voice_path.a”并繼續(xù)開發(fā) HFP 和 A2DP 功能可以接受嗎?

    在藍(lán)牙產(chǎn)品的軟件開發(fā)中,是否可以刪除“wiced_voice_path.a”并繼續(xù)進(jìn)行HFP和A2DP功能的開發(fā)? 我們正在開發(fā)軟件以使用 CYBT-353027 實現(xiàn) HFP(AG/HF
    發(fā)表于 06-30 06:43

    工廠設(shè)備更新時會遇到哪些問題?如何解決?

    2024年,國務(wù)院印發(fā)了《推動大規(guī)模設(shè)備更新和消費(fèi)品以舊換新行動方案》,明確提出推動工業(yè)設(shè)備更新和技術(shù)改造,以促進(jìn)產(chǎn)業(yè)升級和經(jīng)濟(jì)高質(zhì)量發(fā)展。其中重點支持智能制造、數(shù)字化轉(zhuǎn)型、綠色生產(chǎn)等
    的頭像 發(fā)表于 06-04 11:09 ?856次閱讀
    工廠<b class='flag-5'>設(shè)備</b><b class='flag-5'>更新</b>時會遇到哪些問題?如何解決?

    NVIDIA Isaac Sim與NVIDIA Isaac Lab的更新

    在 COMPUTEX 2025 ,NVIDIA 宣布了機(jī)器人仿真參考應(yīng)用 NVIDIA Isaac Sim 和機(jī)器人學(xué)習(xí)框架 NVIDIA Isaac Lab 的更新,以加速各種形態(tài)機(jī)器人的開發(fā)。
    的頭像 發(fā)表于 05-28 10:06 ?2131次閱讀

    CY4500閃爍10次,然后在插入時停止,固件更新程序仍然提示設(shè)備未連接,為什么?

    10 次并停止。 以管理員身份安裝了適用于 Windows 的 EZ-PD 協(xié)議分析器 4.0.0。 運(yùn)行此命令表示需要固件更新。 按照管理員的指示運(yùn)行固件更新工具,設(shè)備未連接。 使用 EZ-PD
    發(fā)表于 05-27 06:13

    DevEco重大更新快來體驗吧

    2in1設(shè)備,app可以限制窗口大小,避免用戶托動窗口時,窗口過小或過大,導(dǎo)致界面顯示異常。 AR Engine新增深度估計 AR Engine提供的深度估計功能通過算法輸出深度圖數(shù)據(jù)(物體表面離相機(jī)
    發(fā)表于 05-17 20:59

    CY7113的Uart DFU閃爍使用DFU工具更新不起作用怎么解決?

    我在通過 dfu 主機(jī)工具通過 uart、i2c 更新 dfu blinky 程序時遇到問題, 我已經(jīng)完成的配置 1. makefile 修改TRANSPORT_OPT --&gt
    發(fā)表于 05-14 07:13

    FX3作為從屬設(shè)備中是否有針對每個GPIF設(shè)置進(jìn)行API調(diào)用?

    我想知道 FX3 作為從屬設(shè)備中是否有針對每個 GPIF 設(shè)置進(jìn)行 API 調(diào)用? 喜歡使用 API 調(diào)用而不是使用設(shè)計器。
    發(fā)表于 05-12 08:00

    如何將CCG3的“啟用固件更新”部分設(shè)置為“是”?

    /Common-Errors-while-Programming-CCG3PA-usi... 如果我遇到這種情況,我應(yīng)該將“啟用固件更新”部分設(shè)置為“是”。 但是 CCG3 配置表沒有“啟用固件更新”部分。 我應(yīng)該如何將 CCG3
    發(fā)表于 05-12 07:52