国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

了解獨特的文本轉語音應用

NVIDIA英偉達 ? 來源:未知 ? 2023-06-28 21:10 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

虛擬助手在用戶發出命令后就會作出語音回復。而生成語音回復的技術被稱為文本轉語音(TTS)

TTS 應用能夠讓輔助器具使用者訪問更多內容,因此非常實用。最新的 TTS 技術可以從一段幾分鐘的音頻數據中生成合成聲音,非常適合僅留存了有限錄音的失音者。

事實上,TTS 的應用正在因技術進步而不斷增長:

  • 在幾毫秒內運行端到端 TTS 流程,以實現自然互動。

  • 在推斷時自定義 AI 模型和流程,以產生具有表現力的合成語音。

  • 部署在所有云、數據中心、邊緣或嵌入式設備上。

本文將說明語音合成系統如何運作,然后介紹 TTS 技術的常見用途和新用途。

語音合成系統如何工作

顧名思義,文本轉語音或語音合成是將書面文本轉換成自然、類似人類的語音音頻的過程。在端到端 TTS 流程中用于實現這一轉換的關鍵模型和模塊包括:

  • 文本規范化和預處理:將數字和縮略語變成文字。

  • 文本編碼:將文本轉換為輸入到聲譜圖生成器的編碼向量。

  • 聲譜圖生成器:從編碼文本向量中生成聲譜圖。

  • 語音編碼器模型:輸入聲譜圖并生成一個人們可以聽到的合成語音。

一般來說,TTS 是虛擬助手、數字人和服務機器人等應用的最終階段。

常見的 TTS 應用

2021 年 IDC 對話式 AI 采用情況調查共調研了 251 家公司,其中 74.5% 在語音對話式 AI 解決方案中使用 TTS,68.5% 在無障礙解決方案中使用 TTS(圖 1)。

9681e75a-15b4-11ee-962d-dac502259ad0.png

圖 1. IDC 關于常見 TTS 用例的調查

語音合成的功能用途正得到許多行業的認可,人們可能已經看到過以下 TTS 技術用例。

虛擬網紅

虛擬網紅正在改變未來與企業或名人溝通的方式。虛擬網紅也稱為虛擬品牌大使或品牌代言人,它們可以協助公司推廣產品和服務,名人也可以通過它們與粉絲保持全天候的聯系。

在這些用例中 TTS 技術生成了自定義聲音,然后被整合到動畫虛擬網紅或數字大使身上。

文本敘述

文本敘述能夠大聲朗讀所有類型的文本。這項 TTS 功能可用于網站及閱讀類應用,為喜歡音頻類節目的人帶來了福音。有視覺障礙的人也可以使用文字敘述聽到他們喜歡的內容。

TTS 用于在這些應用程序上將文本轉換成語音并朗讀出來。但這項工作并不像表面上那么簡單。為了提升收聽體驗,此類應用的聲音必須抑揚頓挫、富有節奏和表現力。

常見的語音轉文本準確性問題

對于生活在現代社會的人來說,最流行和具有吸引力的媒介莫過于音頻和視頻內容。TTS 技術可以幫助內容創作者為視頻配音或創建播客。

為了獲得更多的受眾,創作者還可以使用 TTS 技術將博客、新聞文章等文本內容轉換成音頻。

TTS 的使用十分靈活,用戶可以在變聲器等應用中改變語音的音調、節奏和音量,使聲音變得更具表現力。

獨特的 TTS 應用

除了這些日常應用外,企業家們正在探索各種新穎的 TTS 應用。下文將介紹開發獨特語音合成技術的公司。

用于智慧醫院的語音通知亭:Artisight

Artisight 是一個應用于醫院的物聯網傳感器網絡,可改善醫院的運營、財務業績和患者體驗。該公司幫助美國許多頂尖醫院提高運營效率,同時通過任務自動化給患者帶來更好的體驗,比如呼叫患者到掛號窗口和化驗等。

醫院可以使用 TTS 技術與患者和訪客分享有關醫院服務、設施位置和一般健康公告的信息。該技術也可以使用多種語言幫助可能不會說醫院當地語言的人。

視頻 1. Artisight “診所協調員”解決方案演示

上面的視頻演示了醫院通知亭的文字轉語音技術如何讀出患者排隊單上的號碼。

挑戰和解決方案

過去,醫院接待人員需要手動登記患者信息并在輪到患者就診時通知他們。這種耗時的登記流程降低了醫院的效率和患者的滿意度。

Artisight 開發的語音簽到、通知亭等智慧醫院解決方案可提升患者的體驗。

Artisight 和 NVIDIA Riva 賦能的通知亭實現了有效、快速的患者登記流程,將等待時間縮短了一半并避免了數據輸入錯誤,最終提高了員工的工作效率和患者的滿意度。

為數字虛擬形象提供類似人類聲音:NVIDIA

TTS 技術使計算機能夠將書面文字轉換成語音,進而讓數字人能夠“開口說話”并以更加自然、有代入感的方式與用戶交流。

為了取得用戶的信任,數字人所說的話必須高度準確,尤其是當它們被用于教育、娛樂或其他互動用途時。使用 TTS 技術生成自然、類似人類的語音可以幫助數字人吸引用戶的注意力和興趣。

正如 NVIDIA Omniverse Avatar Cloud Engine(ACE)演示所示,AI 虛擬形象Toy Jensen 能夠理解黃仁勛的問題并作出自然的回答。Toy Jensen 的聲音使用 NVIDIA Riva 創建。

視頻 2. 用于構建實時、交互式 AI 助手的 NVIDIA Omniverse ACE 平臺

挑戰和解決方案

開發用于數字人的 TTS 可能有一定的難度,尤其是在創造自然、真實的語音方面,并且難度取決于地區和語言。這是因為使用傳統和統計算法創建的 TTS 系統可能導致語音聽起來像是機器人或機械發出的,而用戶對此可能不會“買賬”。

此外,由于 TTS 系統受數據集、所使用的模型和模塊類型等諸多因素影響,因此要為數字人應用創建靈活的自適應語音具有一定的難度。這使開發者難以生成具有細微差別和富有表現力的語音。

最后,數字人需要在不犧牲質量的情況下實時生成大量語音,因此創建高效、可擴展的 TTS 系統至關重要。

NVIDIA 為數字人和虛擬形象生成了自定義語音,比如使用 Riva 生成的 Toy Jensen 和 Violet。Riva 可幫助開發只需短短幾毫秒就能實時運行且精準的 TTS 流程,滿足實現自然語音的必要條件,還可以靈活調整音調、持續時間和音量等,使生成的聲音更具表現力。

開始使用語音合成

用戶現在就可以開始將 TTS 功能集成到應用中,例如閱讀內容或生成數字網紅獨特聲音等。NVIDIA Riva 等 SDK 可以幫助用戶開發出提供高準確度并進行高性能推理的應用。

點擊“閱讀原文”試用 NVIDIA Riva TTS。

掃描下方海報二維碼觀看 NVIDIA 創始人兼 CEO 黃仁勛在 COMPUTEX 2023 的主題演講直播回放,主題演講中文字幕版已上線,了解 AI、圖形及其他領域的最新進展!


原文標題:了解獨特的文本轉語音應用

文章出處:【微信公眾號:NVIDIA英偉達】歡迎添加關注!文章轉載請注明出處。


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 英偉達
    +關注

    關注

    23

    文章

    4087

    瀏覽量

    99188

原文標題:了解獨特的文本轉語音應用

文章出處:【微信號:NVIDIA_China,微信公眾號:NVIDIA英偉達】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    一文了解語音AI的運作方式

    語音 AI 是對話式 AI 的一個子集,包括可將人類語音轉換為文本的自動語音識別 (ASR) 和文本轉語
    的頭像 發表于 02-27 16:10 ?315次閱讀
    一文<b class='flag-5'>了解語音</b>AI的運作方式

    什么是語音芯片串口AT指令?實現智能語音交互的核心技術詳解

    什么是AT指令AT指令是一套基于串行通信接口的標準化指令集,專門用于聲音播放芯片與其他設備之間的數據傳輸和控制操作。這種通信協議通過簡單的文本命令格式,實現了對語音
    的頭像 發表于 11-10 12:53 ?445次閱讀
    什么是<b class='flag-5'>語音</b>芯片串口AT指令?實現智能<b class='flag-5'>語音</b>交互的核心技術詳解

    語音報警器:TTS語音播報,云平臺邏輯自控

    TTS語音播報報警器是一種集成了傳統報警器和TTS(文本轉語音)技術的智能設備。清晰、準確地用人類語言播報報警原因、位置、狀態等具體信息。 工作原理 文本
    的頭像 發表于 10-29 16:31 ?761次閱讀

    端到端語音交互數據 精準賦能語音大模型進階

    語音大模型從“能識別”向“懂語境”跨越的關鍵階段,高質量場景化語音數據已成為制約技術突破的核心瓶頸。傳統語音識別數據集采用孤立標注,在語音-文本
    的頭像 發表于 09-11 17:17 ?741次閱讀

    代碼即自由:開源TTS文本轉語音應用賦予開發者終極掌控權

    對于開發者而言,開源TTS應用的意義遠超工具本身——它提供完整的源代碼訪問權限,允許深度修改底層算法、優化語音質量、適配特殊硬件。代碼即自由,開發者可隨心所欲打造獨一無二的TTS引擎,滿足極致需求
    的頭像 發表于 08-15 14:03 ?538次閱讀
    代碼即自由:開源TTS<b class='flag-5'>文本</b><b class='flag-5'>轉語音</b>應用賦予開發者終極掌控權

    語音輸出模塊是什么?自控語音播報

    語音輸出模塊(VoiceOutputModule)是一種將數字信號或文本信息轉換為人類可聽語音的硬件/軟件組件。相當于設備的“嘴巴”,讓機器能夠通過聲音與人進行交互。 一、工作原理 1.輸入接收
    的頭像 發表于 08-13 15:20 ?916次閱讀

    飛書開源“RTV”富文本組件 重塑鴻蒙應用富文本渲染體驗

    近日,飛書正式將其自研的富文本組件庫?RichTextVista(簡稱“RTV”)開源,并上線OpenHarmony?三方庫中心倉。該組件以領先的性能、流暢的渲染體驗與高度的開放性,為鴻蒙生態提供了
    的頭像 發表于 07-11 15:20 ?640次閱讀
    飛書開源“RTV”富<b class='flag-5'>文本</b>組件 重塑鴻蒙應用富<b class='flag-5'>文本</b>渲染體驗

    Air8000 TTS開源,語音合成從此“零距離”!

    文本轉語音)——是一種將書面文本轉換為人類可聽語音的技術,通過算法和模型模擬人類發聲,實現機器“說話”。其核心目標是生成自然、流暢且富有表現力的語音
    的頭像 發表于 07-03 16:33 ?618次閱讀
    Air8000 TTS開源,<b class='flag-5'>語音</b>合成從此“零距離”!

    英語單詞學習頁面+單詞朗讀實現 -- 【2】單詞朗讀實現 ##HarmonyOS SDK AI##

    有網絡支持,但是在原生鴻蒙下,是支持通過端側AI,在本地進行文字轉語音的輸出的,這里使用到的是Core Speech Kit中的文本轉語音功能 官網的代碼很全,這里我也沒必要去貼代碼,只是分享一下開發
    發表于 06-29 23:26

    從代碼到聲音,Air8000 TTS開源應用開啟創作新紀元!

    轉語音)——是一種將書面文本轉換為人類可聽語音的技術,通過算法和模型模擬人類發聲,實現機器“說話”。其核心目標是生成自然、流暢且富有表現力的語音。 ? TTS可廣泛應用于各個領域,通過
    的頭像 發表于 06-27 17:06 ?575次閱讀
    從代碼到聲音,Air8000 TTS開源應用開啟創作新紀元!

    NRK3301 AI語音芯片:玩具語音交互革新方案

    玩具AI語音芯片開發在玩具智能化浪潮中,九芯電子的NRK3301AI語音芯片憑借卓越性能與獨特藍牙連接功能,為玩具行業帶來創新應用方案,重塑玩具與用戶的互動模式。一、NRK3301芯片核心優勢賦能玩
    的頭像 發表于 05-09 13:49 ?993次閱讀
    NRK3301 AI<b class='flag-5'>語音</b>芯片:玩具<b class='flag-5'>語音</b>交互革新方案

    大象機器人攜手進迭時空推出 RISC-V 全棧開源六軸機械臂產品

    、Qwen2.5-0.5B 以及 Qwen2.5-1.5B等豐富大模型資源,以及文本轉語音模型(melotts)、語音文本模型(paraformer)和視覺模型(yoloV8、byt
    發表于 04-25 17:59

    labview語音轉文字

    labview語音轉文字怎么實現,目前在論壇上找到了文字轉語音
    發表于 04-07 19:44

    【CW32模塊使用】語音合成播報模塊

    。SYN6288E 通過異步串 口(UART)通訊方式,接收待合成的文本數據,實現文本語音(或 TTS 語音)的轉換。
    的頭像 發表于 03-29 17:25 ?1215次閱讀
    【CW32模塊使用】<b class='flag-5'>語音</b>合成播報模塊

    把樹莓派打造成識別文本的“神器”!

    在許多項目中,RaspberryPi被用作監控攝像頭或執行機器學習任務。在這些場景中,圖像中經常包含應用程序感興趣的文本信息。我們希望提取這些信息并將其轉換,以便通過程序分析文本
    的頭像 發表于 03-25 09:30 ?981次閱讀
    把樹莓派打造成識別<b class='flag-5'>文本</b>的“神器”!