今天,給大家介紹一個算法。
AI 算法 5 秒鐘,就能克隆你的聲音,你信嗎?
聽聽這段音頻,猜猜看是 AI 合成音,還是真人錄音?
答案是:AI 合成。
這個人的原始聲音在這里:
你給這個 AI 克隆聲音的算法打幾分?
錄制一段音頻,就可以根據輸入的文字,5s 即可自動生成對應的合成音。
突然有個大膽的想法,你說女朋友要是哪天突然不承認自己說過了某句話,我就給她造一份!
兄弟們,我做的對嗎?
MockingBird這個算法是基于比較著名的 Real Time Voice Cloning 實現的。
MockingBird 是最近開源的中文版。
論文的名字是:
Transfer Learning from Speaker Verification to Multispeaker Text-To-Speech Synthesis
簡單介紹下:
算法分為三個模塊:encoder模塊、systhesis模塊、vocoder模塊。
encoder模塊將說話人的聲音轉換成人聲的數字編碼(speaker embedding)
synthesis 模塊將文本轉換成梅爾頻譜(mel-spectrogram)
vocoder模塊將梅爾頻譜(mel-spectrogram)轉換成(波形)waveform
具體的算法原理,大家可以先看論文:
https://arxiv.org/pdf/1806.04558.pdf
今天主要聊聊,這個算法怎么玩。
項目地址:https://github.com/babysor/MockingBird
有深度學習基礎的話,這個應該不難。
就是部署環境,分四步:
Anaconda 配置 Pytorch 開發環境
根據項目 requirements.txt 安裝第三方庫依賴
下載權重文件
下載訓練集,這個幾十G,有點大
具體的配置方法,直接看這里:
https://github.com/babysor/MockingBird/blob/main/README-CN.md
環境搭建搞定后,就可以運行代碼了。
有兩種模式可以啟動,Web 模式和工具箱模式。
在項目根目錄運行:
python web.py
即可開啟 Web ,打開地址 http://localhost:8080 就能操作了。
這個界面比較簡陋,建議使用工具箱模式。
python demo_toolbox.py -d 《datasets_root》
datasets_root就是下載好的數據集的地址。
責任編輯:haq
-
語音
+關注
關注
3文章
405瀏覽量
39772 -
AI
+關注
關注
91文章
39755瀏覽量
301359
原文標題:危險!我克隆了女朋友的聲音
文章出處:【微信號:LinuxHub,微信公眾號:Linux愛好者】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
如何查看小智是否成功進入聲音設置?
歡迎使用中國香河英茂科工豆包智能體
使用NORDIC AI的好處
思必馳聲音轉換算法通過國家備案
【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI芯片的需求和挑戰
零基礎在智能硬件上克隆原神可莉實現桌面陪伴(提供人設提示詞、知識庫、固件下載)
思必馳聲音復刻算法獲得深度合成服務算法備案
AI的未來,屬于那些既能寫代碼,又能焊電路的“雙棲人才”
思必馳7月份大事件回顧
AP-0316 語音模組:不止是降噪神器,更是即插即用的 USB 聲卡全能王
為何時鐘晶振用32.768kHz怎么定義一秒鐘
聲紋解鎖個性化!啟明云端硅思物語AI平臺讓設備“認準你的聲音”
AI算法5秒鐘就能克隆你的聲音
評論