久久精品欧美日韩精品,97久久精品人人做人人爽,欧美色999

【導語】之前我們?yōu)榇蠹医榻B過一項非常酸爽的研究“Talking Face Generation”：給定音頻或視頻后（輸入），可以讓任意一個人的面部特征與輸入的音視頻信息保持一致，也就是說出輸入的這段話。當時就想到了“楊超越的聲音+高曉松的臉”這樣的神仙搭配。不過，近期一項新研究再度抓到了筆者的眼睛！在最新的研究中，研究者僅需要音頻信息就生成了人臉... ...如此鬼畜的操作，此乃頭一次見啊！接下來就為大家介紹一下這項工作！

音頻和圖像是人類最常用的兩種信號傳輸模式，圖像傳達的信息非常直觀，而語音包含的信息其實比我們想象的要更豐富，包括說話人的身份，性別和情緒狀態(tài)等等。從這兩個信號中提取的特征通常是高度相關(guān)的，可以讓人僅聆聽聲音就可以想象他的視覺外觀。WAV2PIX 的工作就是僅利用語音輸入，來生成說話者的人臉圖像。其實這就是一個跨模態(tài)的視覺生成任務。

談到這項研究的貢獻，主要有三點：

提出了一個能夠直接從原始的語音信號生成人臉的條件GAN：WAV2PIX；

提供了一個在語音和人臉兩方面綜合質(zhì)量很高的一個數(shù)據(jù)集：Youtubers；

實驗證明論文的方法可以生成真實多樣的人臉。

論文收集了大V用戶（Youtubers）上傳到 Youtube 的演講視頻，這些視頻通常具有高質(zhì)量的說話環(huán)境、表達方式、人臉特征等。Youtubers 數(shù)據(jù)集主要由兩部分組成：一個是自動生成的數(shù)據(jù)集和一個手動處理后的高質(zhì)量的子集。

主要的預處理工作：

音頻最初下載的是高級音頻編碼（AAC）格式，44100 Hz，立體聲。因此轉(zhuǎn)換為 WAV 格式，并重新采樣到 16 kHz，每個樣例占 16 位并轉(zhuǎn)換為單聲道。

采用基于 Haar 特征的人臉檢測器來檢測正臉。僅采納置信度高的幀

保存檢測出來的那幀圖像及前后兩秒的語音幀，以及一個標簽（identity）。

方法介紹

研究主要由三個模塊構(gòu)成：一個是語音編碼器，一個是圖片生成網(wǎng)絡(luò)，一個是圖片判別網(wǎng)絡(luò)。

語音編碼器（Speech Encoder）：已有的方法大多數(shù)是手工提取音頻特征，并不是針對生成網(wǎng)絡(luò)的任務進行優(yōu)化的，而 SEGAN 提出了一種在波形上用于語音處理的方法。因此作者在已有的工作 SEGAN 上進行修改。修改為具有 6 層一維網(wǎng)絡(luò)，并且每層的 kernel 大小是 15x15，步長為 4，然后每層卷積網(wǎng)絡(luò)后面使用 LeakyReLU 激活函數(shù)，網(wǎng)絡(luò)的輸入通道是 1。輸入 16kHZ 下1 秒的語音片段，上述的卷積網(wǎng)絡(luò)可以得到一個 4x1024 的張量，然后采用三個全連接網(wǎng)絡(luò)將特征數(shù)量從 4x1024 降到 128。作為生成器網(wǎng)絡(luò)的輸入。

圖片生成器（Image Generator Network）：輸入是語音編碼器的 128 向量。采用二維轉(zhuǎn)置卷積、插值、dropout 等方式將輸入轉(zhuǎn)為 64x64x3 或者 128x128x3 的張量。在 G 的損失函數(shù)中添加了一個輔助損失用于保持說話人的標簽（Identity）。

圖片判別器（Image Discriminator Network）：判別器由幾層步長為 2，kernel 大小是 4x4 的卷積網(wǎng)絡(luò)組成，并使用譜歸一化和 LeakyReLU 激活函數(shù)。當張量為 4x4 時，作者拼接了語音的輸入，并采用最后一層網(wǎng)絡(luò)來計算 D 網(wǎng)絡(luò)的分數(shù)。

實驗過程

訓練：將手動處理后的數(shù)據(jù)集作為訓練集，采用數(shù)據(jù)增強等手動。值得注意的是，在處理時將每張圖像復制了 5 次，并將其與 4 秒音頻里面隨機采樣的 5 個不同的1秒音頻塊進行匹配。因此總共有 24K 左右的圖像-音頻對用于模型訓練。其它超參數(shù)采用參考的文獻設(shè)置。

評估：下圖給出了可視化的結(jié)果，雖然生成的圖像都比較模糊，但基本可以觀察到人的面部特征，并且有不同的面部表情。

作者進一步微調(diào)了一個預訓練的 VGG-FACE Descriptor 網(wǎng)絡(luò)，用于量化測試結(jié)果，在作者提供的數(shù)據(jù)集上，可以達到 76.81% 的語音識別準確率和 50.08% 的生成圖像準確率。

為了評估模型生成圖像的真實程度，作者定義了一個 68 個人臉關(guān)鍵點的精度檢測分數(shù)。如下圖所示，測試結(jié)果精度可以達到 90.25%。表明在大多數(shù)情況下生成的圖像保留了基本的面部特征。

感興趣的小伙伴們可以下載閱讀研究一下~

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

語音

語音

+關(guān)注

關(guān)注
3

文章
405

瀏覽量
39794
AI

AI

+關(guān)注

關(guān)注
91

文章
39866

瀏覽量
301522

原文標題：僅用語音，AI 就能“腦補”你的臉！ | 技術(shù)頭條

文章出處：【微信號：mcuworld，微信公眾號：嵌入式資訊精選】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

搜索歷史

僅憑聲音,AI 就能“腦補”你的臉!測試結(jié)果精度可以達到 90.25%

評論