多說話人語音融合任務是 TTS 語音合成當中的一個子任務,它是指將兩個或者多個說話人的聲音進行融合,合成出新的語音的過程,而不需要做任何進一步的微調。多說話人語音融合可以通過插值的方式代替預訓練模型中原始說話人的語音。說話人語音融合技術可用于在語音合成系統(tǒng)中對語音進行個性化處理和生成具有特定語音特征的語音。同時允許開發(fā)者創(chuàng)建無限數(shù)量的說話人語音,合成出多樣性的語音,可以豐富用于訓練自動語音識別(ASR)和語音合成(TTS)模型的語音數(shù)據(jù)集,用于模型的訓練,進而實現(xiàn)不同的多方言或多情感的語音 AI 的應用。
NVIDIA NeMo 是一個用于構建先進的對話式 AI 模型的開源工具庫,它內置集成了自動語音識別(ASR)、自然語言處理(NLP)和語音合成(TTS)的模型及方法。NeMo 可以快速加載先進的預訓練模型 “開箱即用”,使用模型的配置文件 “化繁為簡”,進而快速完成包括多說話人語音合成在內的各類對話式 AI 子任務。
本次網(wǎng)絡研討會主要是開發(fā)人員 NLP 和語音人工智能發(fā)展的需求。
多說話人語音融合
NVIDIA NeMo 代碼解析

11 月 24 日 20:00 - 21:30
演講主題
-
多說話人語音融合的任務介紹
-
多說話人語音融合的任務的模型
-
多說話人語音嵌入的提取與合并
-
使用 NeMo 結合模型進行推理
演講嘉賓

李奕澎 | NVIDIA 企業(yè)開發(fā)者社區(qū)經(jīng)理
擁有多年數(shù)據(jù)分析建模、人工智能自然語言處理開發(fā)經(jīng)驗。在自動語音識別、自然語言處理、語音合成等對話式 AI 技術領域有豐富的實戰(zhàn)經(jīng)驗與見解。曾開發(fā)法律、金融、保險文檔中基于實體抽取的智能問答系統(tǒng),曾開發(fā)基于 NLP 知識抽取,KG 知識圖譜的建立的科研文檔智能檢索系統(tǒng)。
參與方式

掃描上方二維碼即刻報名
相關資料

了解 NVIDIA NeMo 的更多信息
原文標題:在線研討會預告 | 多說話人語音融合——NVIDIA NeMo 代碼解析
文章出處:【微信公眾號:NVIDIA英偉達】歡迎添加關注!文章轉載請注明出處。
-
英偉達
+關注
關注
23文章
4087瀏覽量
99174
原文標題:在線研討會預告 | 多說話人語音融合——NVIDIA NeMo 代碼解析
文章出處:【微信號:NVIDIA_China,微信公眾號:NVIDIA英偉達】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
特瑞仕電源架構解決方案網(wǎng)絡研討會問題解答(2)
特瑞仕電壓檢測器網(wǎng)絡研討會問題解答
活動預告|雅特力與您相約2025電機控制先進技術研討會
在線研討會 | @9/16 onsemi AI服務器與SiC技術融合的未來展望
報名開啟!2025 STM32 研討會:華清遠見邀工程師共話技術突破與項目實戰(zhàn)
安世半導體CCPAK1212 MOSFET在線研討會回顧
安世半導體汽車LED驅動方案在線研討會回顧
瑞豐光電亮相DVN東京國際汽車照明研討會
Rambus邀您相約Keysight設備安全研討會
2025年簡儀科技全國巡回研討會預告
易靈思2025 FPGA技術研討會北京站圓滿結束
華為2025智能光伏設計研討會圓滿結束
2025年星閃技術應用巡回研討會-深圳站火熱報名中
e絡盟與 Analog Devices 共同舉辦物聯(lián)網(wǎng)及醫(yī)療創(chuàng)新在線研討會
在線研討會預告 | 多說話人語音融合——NVIDIA NeMo 代碼解析
評論