国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

來自語障人士的語音數(shù)據(jù)集合

Tensorflowers ? 來源:TensorFlow ? 作者:TensorFlow ? 2021-10-12 17:09 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

語言障礙癥狀影響著數(shù)百萬人的生活,其產(chǎn)生原因很多,包括神經(jīng)或遺傳疾病、身體缺陷、腦損傷或聽力喪失等,而由此導致的癥狀也各不相同,如口吃、構音障礙 (Dysarthria)、失用癥 (Apraxia) 等,這些癥狀對患者的自我表達、社會生活參與,以及使用語音技術,都會產(chǎn)生不利影響。

自動語音識別 (ASR, Automatic Speech Recognition) 技術可以通過提升設備的聽寫和家居自動化能力以及溝通能力,來幫助語言障礙人士克服上述問題。然而,盡管隨著深度學習系統(tǒng)計算能力的提升,以及有大型訓練數(shù)據(jù)集可供使用,ASR 系統(tǒng)在準確率方面有所提升,但是對于許多具有語言障礙的人而言,系統(tǒng)的性能仍有所欠缺,導致許多本應受益良多的患者無法有效利用這項技術。

2019 年,我們推出了 Euphonia 項目,探討如何通過個性化的識別語言障礙 ASR 模型,實現(xiàn)在典型語音上與通用 ASR 模型相同水平的準確率。今天我們?yōu)榇蠹曳窒韮身椩?Interspeech 2021 上發(fā)布的研究成果,這兩項研究目的在于讓更多用戶群體可以利用個性化 ASR 模型。在“無序語音數(shù)據(jù)集合:從 Euphonia 項目 100 萬條語音中總結的經(jīng)驗 (Disordered Speech Data Collection: Lessons Learned at 1 Million Utterances from Project Euphonia)”中,我們介紹了一個涵蓋范圍廣泛的無序語音數(shù)據(jù)集合,其中包含的語音數(shù)據(jù)超過 100 萬條。在“自動識別無序語音:在短語方面?zhèn)€性化模型較人類表現(xiàn)更佳 (Automatic Speech Recognition of Disordered Speech: Personalized models outperforming human listeners on short phrases) ”中,我們討論了在基于該語料庫生成個性化 ASR 模型上所開展的工作。與利用典型語音訓練的開箱即用的語音模型相比,這種方法可以產(chǎn)生準確率更高的模型,在特定的語境中,字錯誤率 (WER, Word error rate) 可降低高達 85% 。

Euphonia

https://blog.google/outreach-initiatives/accessibility/impaired-speech-recognition/

無序語音數(shù)據(jù)集合:從 Euphonia 項目 100 萬條語音中總結的經(jīng)驗

https://www.isca-speech.org/archive/interspeech_2021/macdonald21_interspeech.html

自動識別無序語音:在短語方面?zhèn)€性化模型較人類表現(xiàn)更佳

https://www.isca-speech.org/archive/interspeech_2021/green21_interspeech.html

來自語障人士的語音數(shù)據(jù)集合

自 2019 年起,不少語障人士為支持 Euphonia 項目的研究工作提供了語音樣本。他們的嚴重程度不同,癥狀也不一樣。這項工作將 Euphonia 項目的語料庫擴展至超過 100 萬條語音,包括了來自 1330 名說話者的 1400 多小時語音記錄(截至 2021 年 8 月)。

基于超過 300 條錄制的語音數(shù)據(jù),繪制出的所有說話者的語言障礙嚴重程度和所患病癥分布圖。在病癥方面,僅顯示患病人數(shù)超過 5 人的病癥,否則統(tǒng)一記入“其他”以滿足 k 匿名性 (k-anonymity)

ALS 代表肌萎縮性脊髓側索硬化癥;DS 代表唐氏綜合癥;PD 代表帕金森病;CP 代表腦癱;HI 代表聽力障礙;MD 代表肌肉萎縮癥;MS 代表多發(fā)性硬化癥

Euphonia 項目的研究工作

https://sites.research.google/euphonia/about/

為簡化數(shù)據(jù)收集流程,參與者在筆記本電腦或者手機等個人硬件上(使用或者不使用頭戴式耳機)通過家用錄音系統(tǒng)收集語音,而不是在類似實驗室這樣的理想環(huán)境中收集錄音棚品質的語音。

為降低轉錄成本,同時保持較高的轉錄一致性,我們優(yōu)先采取了按照文本朗讀的方式。參與者根據(jù)瀏覽器端錄音工具上顯示的提示語進行朗讀。這些提示語涵蓋家居自動化(“打開電視。”)、與看護者對話(“我餓了。”)以及非正式對話(“你好嗎?你今天過得愉快嗎?”)等語境。大部分參與者會朗讀 1500 條提示語,其中包含 1100 個只出現(xiàn)一次的短語以及 100 個重復出現(xiàn) 4 次的短語。

語音專家在傾聽每位說話者部分語音的同時,進行了全面的聽覺感知和語音評估,以便根據(jù)多種為說話者分級的元數(shù)據(jù),來判定語言障礙類型(例如口吃、構音障礙、失用癥等),對如鼻音過重(Hypernasal speech)、發(fā)音失準和言語聲律障礙(Dysprosody)等 24 種異常語音特征進行評定,同時對技術問題(例如信號丟失、分割問題)和聲學問題(例如環(huán)境噪音、次級揚聲器串擾)進行錄音質量評估。

個性化 ASR 模型

這個擴展的語音障礙數(shù)據(jù)集也是我們生成無序語音個性化 ASR 模型新方法的基礎。每個定制模型都使用標準的端對端 RNN-傳感器 (RNN-T) ASR 模型,該模型僅對目標說話者的數(shù)據(jù)進行微調。

RNN-傳感器架構。在示例中,編碼器網(wǎng)絡由 8 層組成,而預測器網(wǎng)絡由 2 層單向 LSTM (Long short-term memory) 單元組成

為此,我們重點調整了編碼器網(wǎng)絡,也就是模型中處理說話者特定聲學數(shù)據(jù)的部分,因為語音障礙是我們語料庫中最常見的現(xiàn)象。我們發(fā)現(xiàn),只更新 8 個編碼器層中最底層的 5 個,而凍結最上面的 3 個編碼器層(以及連接層和解碼器層),可以得到最好的結果,并能夠有效避免過度擬合。為了讓這些模型在處理背景噪聲和其他聲學效應方面更具魯棒性,我們采用了專門針對無序語音為主要特征進行調整的 SpecAugment 配置。

SpecAugment

https://ai.googleblog.com/2019/04/specaugment-new-data-augmentation.html

結果

我們訓練了約 430 名說話者的個性化 ASR 模型,他們每人至少錄制了 300 條語音。我們把其中 10% 的語音作為測試集(訓練和測試間沒有短語重疊),在此基礎上,計算了個性化模型以及未調適的基礎模型的 WER。

總的來說,無論是何種嚴重程度還是病癥,我們提供的個性化方法都取得了顯著效果。即便是存在嚴重語言障礙的語音,家居自動化語境短語的 WER 中位數(shù)從 89% 左右降到了 13%。在如與看護者對話等其他語境中,準確率也有顯著提高。

在未調適與個性化 ASR 模型中使用居家自動化短語的 WER

為了解個性化模型何時不適用,我們對以下幾個子組進行了分析:

HighWER 與 LowWER:將說話者按照具有基于 WER 分布的第 1 和第 5 個五分位數(shù)的高和低劃分個性化模型。

SurpHighWER:具有超高 WER 的說話者(在 HighWER 組中典型或具有輕度語言障礙的參與者)。

不同的病癥以及語言障礙表現(xiàn)形式對 ASR 產(chǎn)生的影響是不一致的。根據(jù) HighWER 組中語言障礙類型的分布表明,由于腦癱(Cerebral palsy)引起的構音障礙特別難以建模。不出意外,該組中語言障礙嚴重程度的中位數(shù)也更高。

為了識別影響 ASR 準確率的特定說話者以及技術因素,我們檢查了 ASR 表現(xiàn)較差 (HighWER) 和優(yōu)秀 (LowWER) 的參與者之間元數(shù)據(jù)的差異 (Cohen‘s D)。和預期一樣,LowWER 組中整體語言受損程度顯著低于HighWER組 (p 《 0.01)。HighWER 組中最突出的非典型語音特征是清晰度以及受損程度,同時包含其他較為突出的語音特征,如異常的韻律(Prosody )、發(fā)音及發(fā)聲(Phonation)。眾所周知,這些語音特征也會降低語音的整體清晰度。

與 LowWER 組 (p 《 0.01) 相比,SurpHighWER 組中的訓練語音更少,且 SNR 更低,進而導致較大(負)的效應量,而其他因素的效應量則較小(快速性除外)。相比之下,HighWER 組在所有因素中都表現(xiàn)出了較大差異。

語音障礙和技術元數(shù)據(jù)效應量對比結果:HighWER 組與 LowWER 組對比;SurpHighWER 組和 LowWER 組對比。正值結果表明 HighWER 組的組值大于 LowWER 組的組值

之后,我們將個性化 ASR 模型和人類聽眾進行了比較。三位語音專家分別為每位說話者轉錄了 30 條語音。我們發(fā)現(xiàn),與人類聽眾的 WER 相比,個性化 ASR 模型的 WER 平均而言更低,并且隨語言受損嚴重程度的增加而表現(xiàn)的更好。

個性化 ASR 模型 WER 與人類聽眾 WER 之間的增量。負值表明個性化 ASR 模型的表現(xiàn)優(yōu)于人類(專家)聽眾

結論

Euphonia 語料庫擁有超過 100 萬條語音,是最大、最多樣的無序語音語料庫之一(就無序類型與受損程度而言),這一語料庫大大提升了非典型語音類型中的 ASR 準確率。我們的研究結果證明,個性化 ASR 模型在識別各種語言障礙以及受損程度方面十分有效,而且具備了讓更多用戶使用 ASR 的潛力。

責任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    91

    文章

    39793

    瀏覽量

    301395
  • 語音識別
    +關注

    關注

    39

    文章

    1812

    瀏覽量

    116047

原文標題:個性化語音識別模型,幫助語言障礙人士正常交流

文章出處:【微信號:tensorflowers,微信公眾號:Tensorflowers】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    WTN6170-8S語音芯片:如何憑SOP8封裝與170秒長時播放重塑產(chǎn)品設計?

    在追求極致集成與功能豐富的電子產(chǎn)品設計領域,空間與性能的博弈從未停止。工程師們不斷尋求在有限的PCB面積內(nèi),實現(xiàn)更強大、更持久的語音功能。在這一背景下,來自語音IC廠家廣州唯創(chuàng)電子
    的頭像 發(fā)表于 01-26 08:29 ?362次閱讀
    WTN6170-8S<b class='flag-5'>語音</b>芯片:如何憑SOP8封裝與170秒長時播放重塑產(chǎn)品設計?

    多模態(tài)大模型驅動的復雜環(huán)境精準導航避系統(tǒng)平臺的應用

    多模態(tài)大模型驅動的復雜環(huán)境精準導航避系統(tǒng)平臺的應用
    的頭像 發(fā)表于 12-22 13:15 ?281次閱讀
    多模態(tài)大模型驅動的復雜環(huán)境精準導航避<b class='flag-5'>障</b>系統(tǒng)平臺的應用

    端到端語音交互數(shù)據(jù) 精準賦能語音大模型進階

    語音大模型從“能識別”向“懂語境”跨越的關鍵階段,高質量場景化語音數(shù)據(jù)已成為制約技術突破的核心瓶頸。傳統(tǒng)語音識別數(shù)據(jù)集采用孤立標注,在
    的頭像 發(fā)表于 09-11 17:17 ?740次閱讀

    【項目實戰(zhàn)】基于Hi3861的鴻蒙智能小車(循跡、超聲波避、遠程控制、語音控制、4G定位)有教程代碼

    入門鴻蒙物聯(lián)網(wǎng)找不到“落地”項目——要么功能簡單練不到核心,要么資料零散易半途而廢。本次【項目實戰(zhàn)】聚焦基于Hi3861的鴻蒙智能小車,整合了循跡、超聲波避、遠程控制、語音交互和4G定位等功能
    的頭像 發(fā)表于 09-10 17:13 ?1307次閱讀
    【項目實戰(zhàn)】基于Hi3861的鴻蒙智能小車(循跡、超聲波避<b class='flag-5'>障</b>、遠程控制、<b class='flag-5'>語音</b>控制、4G定位)有教程代碼

    推進一款實用型的OTP語音芯片

    的操作引導和狀態(tài)提示,幫助用戶更高效、輕松地完成存件與取件,大幅優(yōu)化使用體驗。這一功能不僅加快了取件流程,也方便了視人士或手部操作不便的用戶群體。YCV系列語音芯片運行穩(wěn)定,適合長時間工作,還能
    發(fā)表于 08-26 11:32

    廣州唯創(chuàng)電子WT588F02B-8S語音芯片:開啟電壓力鍋智能語音交互新時代

    革命性的智能語音交互體驗,尤其為視人士與老年用戶提供了前所未有的操作便利。一、核心引擎:WT588F02B-8S語音芯片簡介WT588F02B-8S是一款集高性
    的頭像 發(fā)表于 08-18 08:20 ?844次閱讀
    廣州唯創(chuàng)電子WT588F02B-8S<b class='flag-5'>語音</b>芯片:開啟電壓力鍋智能<b class='flag-5'>語音</b>交互新時代

    語音輸出模塊是什么?自控語音播報

    :接收來自云平臺(如單片機/PLC/電腦)的指令,輸入可能是:文本數(shù)據(jù)(例如:"溫度過高")、預存語音編碼(如MP3/WAV文件的數(shù)字信號)、控制指令(觸發(fā)預置語音片段) 2.
    的頭像 發(fā)表于 08-13 15:20 ?915次閱讀

    智能語音交互升級,九芯語音識別芯片來助力

    卓越、適配多元場景且能為產(chǎn)品帶來顯著競爭力提升的芯片,成為了企業(yè)和開發(fā)者面臨的關鍵問題。今天,我們要為大家介紹的,正是來自廣州九芯電子科技有限公司的一系列語音識別芯
    的頭像 發(fā)表于 08-11 14:08 ?959次閱讀
    智能<b class='flag-5'>語音</b>交互升級,九芯<b class='flag-5'>語音</b>識別芯片來助力

    廣州唯創(chuàng)電子WTN6/WT588F/WTV系列語音芯片:賦能電磁爐行業(yè)智能化升級與人機交互新體驗

    隨著科技融入生活,電磁爐已成為現(xiàn)代廚房核心電器。然而,其傳統(tǒng)按鍵操作界面對老人、視人士及識字困難群體構成了顯著使用壁壘。廣州唯創(chuàng)電子憑借深厚技術積累,推出WTN6、WT588F、WTV三大系列語音
    的頭像 發(fā)表于 07-22 08:47 ?564次閱讀
    廣州唯創(chuàng)電子WTN6/WT588F/WTV系列<b class='flag-5'>語音</b>芯片:賦能電磁爐行業(yè)智能化升級與人機交互新體驗

    也能預判?視覺黑科技讓掃地機器人開啟“先知”模式

    從被動避到主動預判,視覺避技術比預想的更快實現(xiàn)。
    的頭像 發(fā)表于 06-18 14:09 ?1208次閱讀

    如何破解GPU集群集合通信路徑的“黑盒”難題?

    集合通信庫(如NCCL、HCCL)的運行細節(jié)用戶完全無感知,形成“黑盒”狀態(tài)。EPS通過實時解析集合通信庫的底層運行狀態(tài),將隱蔽的通信路徑、GPU與網(wǎng)卡狀態(tài)等信息可視化,并提供智能路由推薦,幫助用戶快速優(yōu)化集群性能。
    的頭像 發(fā)表于 05-22 10:13 ?925次閱讀
    如何破解GPU集群<b class='flag-5'>集合</b>通信路徑的“黑盒”難題?

    智能語音賦能健康監(jiān)測:NV128H芯片重塑血壓管理新范式

    智能血壓計語音芯片開發(fā)在人口老齡化加劇和慢性病高發(fā)的雙重壓力下,血壓,作為反映人體健康狀態(tài)的重要指標之一,更是需要我們時刻關注。傳統(tǒng)血壓測量設備存在操作復雜、讀數(shù)不便等痛點,尤其對老年群體和視人士
    的頭像 發(fā)表于 05-06 11:49 ?1103次閱讀
    智能<b class='flag-5'>語音</b>賦能健康監(jiān)測:NV128H芯片重塑血壓管理新范式

    藍牙語音遙控國產(chǎn)適用芯片HS6621

    長亮,用戶開始錄音同時將語音數(shù)據(jù)上傳給智能電視或者機頂盒。而智能電視或者機頂盒,接收到 HID 編碼后,打開語音識別軟件,開始識音并把語音數(shù)據(jù)
    發(fā)表于 04-30 16:21

    大模型時代的新燃料:大規(guī)模擬真多風格語音合成數(shù)據(jù)

    以大模型技術為核心驅動力的人工智能變革浪潮中,語音交互領域正迎來廣闊的成長空間,應用場景持續(xù)拓寬與延伸。 其中,數(shù)據(jù)作為驅動語音大模型進化的關鍵要素,重要性愈發(fā)凸顯。豐富多樣的高質量數(shù)據(jù)
    的頭像 發(fā)表于 04-30 16:17 ?675次閱讀

    RDK加持的導盲眼鏡:視人士的“眼睛外掛”

    我國有超1700萬視人士,如何讓他們更安全、自主地出行?別擔心,智能瞳行來啦!這是一款“自帶外掛”的導航神器,集成了高精度視覺傳感和YOLO算法,實時識別障礙物、行人、交通標志,并通過語音播報精準
    的頭像 發(fā)表于 03-14 19:43 ?1429次閱讀
    RDK加持的導盲眼鏡:視<b class='flag-5'>障</b><b class='flag-5'>人士</b>的“眼睛外掛”