国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

關(guān)于語音驅(qū)動3D虛擬人性能介紹

lhl545545 ? 來源:與非網(wǎng) ? 作者:與非網(wǎng) ? 2020-11-25 16:26 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

Speech2Video 是一種從語音音頻輸入合成人體全身運(yùn)動(包括頭、口、臂等)視頻的任務(wù),其產(chǎn)生的視頻應(yīng)該在視覺上是自然的,并且與給定的語音一致。傳統(tǒng)的 Speech2Video 方法一般會使用專用設(shè)備和專業(yè)操作員進(jìn)行性能捕獲,且大多數(shù)語音和渲染任務(wù)是由動畫師完成的,定制使用的成本通常比較昂貴。

近年來,隨著深度神經(jīng)網(wǎng)絡(luò)的成功應(yīng)用,數(shù)據(jù)驅(qū)動的方法已經(jīng)成為現(xiàn)實(shí)。例如,SythesisObama 或 MouthEditing 通過使用 RNN 通過語音驅(qū)動嘴部運(yùn)動來合成說話的嘴部。泰勒 提出使用音頻來驅(qū)動高保真圖形模型,該模型不僅可以將嘴部動畫化,而且還可以對面部的其他部分進(jìn)行動畫處理以獲得更豐富的語音表達(dá)。

然而,嘴部運(yùn)動的合成大部分是確定性的:給定發(fā)音,在不同的人和環(huán)境中嘴部的運(yùn)動或形狀是相似的。但現(xiàn)實(shí)生活中,相同情況下的全身手勢運(yùn)動具有更高的生成力和更多的變異性,這些手勢高度依賴于當(dāng)前的上下文和正在執(zhí)行語音的人類。傳遞重要信息時,個性化的手勢會在特定時刻出現(xiàn)。因此,有用的信息僅稀疏地存在于視頻中,這為簡單的端到端學(xué)習(xí)算法 有限的錄制視頻中捕獲這種多樣性帶來了困難。

近日,百度提出了一種新的方法,將給定文字或音頻轉(zhuǎn)換為具有同步、逼真、富表現(xiàn)力的肢體語言的實(shí)感視頻。該方法首先使用遞歸神經(jīng)網(wǎng)絡(luò)(recursive neural network,RNN)從音頻序列生成 3D 骨骼運(yùn)動,然后通過條件生成對抗網(wǎng)絡(luò)(GAN)合成輸出視頻。

為了使骨骼運(yùn)動逼真并富有表現(xiàn)力,研究者將關(guān)節(jié) 3D 人體骨骼的知識和學(xué)習(xí)過的個性化語音手勢字典嵌入到學(xué)習(xí)和測試過程中。前者可以防止產(chǎn)生不合理的身體變形,而后者通過一些有意義的身體運(yùn)動視頻幫助模型快速學(xué)習(xí)。為了制作富有運(yùn)動細(xì)節(jié)的逼真高分辨率視頻,研究者提出一種有條件的 GAN,其中每個細(xì)節(jié)部分,例如頭和手,是自動放大過的以擁有自己的判別器。該方法與以前處理類似任務(wù)的 SOTA 方法相比效果更好。

方法

圖 1:Speech2Video 系統(tǒng) pipeline

如圖 1 所示,根據(jù)用于訓(xùn)練 LSTM 網(wǎng)絡(luò)的內(nèi)容,系統(tǒng)的輸入是音頻或文本。考慮到文本到語音(TTS)和語音到文本(STT)技術(shù)都已經(jīng)成熟并且可商用,此處假定音頻和 text 是可互換的。即使從最先進(jìn)的 STT 引擎中得到一些錯誤識別的單詞 / 字符,系統(tǒng)也可以容忍這些錯誤,LSTM 網(wǎng)絡(luò)的主要目的是將文本 / 音頻映射到身體形狀。錯誤的 STT 輸出通常是與真實(shí)發(fā)音相似的單詞,這意味著它們的拼寫也很可能是相似的。因此,它們最終將映射的身體形狀或多或少相似。

LSTM 的輸出是由 SMPL-X 參數(shù)化的一系列人體姿勢。SMPL-X 是一個人體、面部和手部的 3D 聯(lián)合模型,這一動態(tài)關(guān)節(jié) 3D 模型是由一個 2D 彩色骨架圖像序列可視化的。這些 2D 圖像被進(jìn)一步輸入到 vid2vid 生成網(wǎng)絡(luò)中,以生成最終的現(xiàn)實(shí)人物圖像。

在成功同步語音和動作的同時,LSTM 大部分時間只能學(xué)習(xí)重復(fù)的人類動作,這會使視頻看起來很無聊。為了使人體動作更具表現(xiàn)力和變化性,研究者在一些關(guān)鍵詞出現(xiàn)時將特定姿勢加入 LSTM 的輸出動作中,例如,巨大、微小、高、低等。研究者建立了一個字典,將這些關(guān)鍵詞映射到它們相應(yīng)的姿勢。

模特站在相機(jī)和屏幕的前面,當(dāng)他 / 她在屏幕上閱讀腳本時,研究者會捕獲這些視頻。最后再要求模特?cái)[一些關(guān)鍵詞的動作,例如巨大、微小、向上、向下、我、你等等。

人體模型擬合

研究者首先將這些 2D 關(guān)鍵點(diǎn)作為人體模型的表示,并訓(xùn)練了 LSTM 網(wǎng)絡(luò),但結(jié)果不能令人滿意。

最后采用了 SMPL-X,這是一種關(guān)節(jié)式 3D 人體模型。SMPL-X 使用運(yùn)動學(xué)骨架模型對人體動力學(xué)進(jìn)行建模,具有 54 個關(guān)節(jié),包括脖子、手指、手臂、腿和腳。

詞典構(gòu)建和關(guān)鍵姿勢插入

研究者從錄制的視頻中手動選擇關(guān)鍵姿勢,并建立一個單詞 - 姿勢查詢字典。同樣,該姿勢表示為 106 個 SMPL-X 參數(shù)。關(guān)鍵姿勢可以是靜止的單幀姿勢或多幀運(yùn)動,可以通過相同的方法將兩者插入到現(xiàn)有的人體骨骼視頻中。

訓(xùn)練視頻生成網(wǎng)絡(luò)

研究者采用 vid2vid 提出的生成網(wǎng)絡(luò),將骨架圖像轉(zhuǎn)換為真實(shí)的人像。

用于訓(xùn)練 vid2vid 的示例圖像對。雙手均帶有特殊的色環(huán)標(biāo)記。

運(yùn)行時間和硬件方面,系統(tǒng)中最耗時和最耗內(nèi)存的階段是訓(xùn)練 vid2vid 網(wǎng)絡(luò)。在 8 個 NVIDIA Tesla M40 24G GPU 集群上完成 20 個時期的訓(xùn)練大約需要一周;測試階段要快得多,在單個 GPU 上生成一幀僅需約 0.5 秒。

結(jié)果

評估與分析

研究者將使用用戶研究的結(jié)果與 4 種 SOTA 方法進(jìn)行比較,結(jié)果顯示,本文方法獲得了最佳的總體質(zhì)量得分。

此外,研究者使用 Inception 分?jǐn)?shù)評估圖像生成結(jié)果,包括兩個方面:圖像質(zhì)量和圖像多樣性。

為了評估最終輸出的視頻,研究者在 Amazon Mechanical Turk(AMT)上進(jìn)行了人類主觀測試,共有 112 名參與者。研究者向參與者展示了總共五個視頻,其中四個是合成視頻,兩個由真實(shí)人的音頻生成,兩個由 TTS 音頻生成;剩下的是一個真實(shí)人物的短片。參與者以李克特量表(從 1(強(qiáng)烈不同意)到 5(強(qiáng)烈同意))對這些視頻的質(zhì)量進(jìn)行評分。其中包括:1)人體的完整性(沒有遺漏的身體部位或手指);2)視頻中人臉清晰;3)視頻中的人體動作(手臂,手,身體手勢)看起來自然流暢。4)身體的動作和手勢與聲音同步;5)視頻的整體視覺質(zhì)量。

總結(jié)

Speech2Video 是一種新穎的框架,可以使用 3D 驅(qū)動的方法生成逼真的語音視頻,同時避免構(gòu)建 3D 網(wǎng)格模型。作者在框架內(nèi)建立了個性化關(guān)鍵手勢表,以處理數(shù)據(jù)稀疏性和多樣性的問題。更重要的是,作者利用 3D 骨骼約束來生成身體動力學(xué),從而保證其姿勢在物理上是合理的。
責(zé)任編輯:pj

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 3D
    3D
    +關(guān)注

    關(guān)注

    9

    文章

    3011

    瀏覽量

    115090
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4838

    瀏覽量

    107833
  • 數(shù)據(jù)驅(qū)動

    關(guān)注

    0

    文章

    170

    瀏覽量

    12789
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點(diǎn)推薦

    一文看懂3D打印材料構(gòu)成與性能差異

    本文系統(tǒng)介紹3D打印常用材料類型,包括熱塑性塑料、光敏樹脂、金屬、陶瓷及復(fù)合材料,分析其性能特點(diǎn)與適用場景,幫助讀者理解不同打印技術(shù)對應(yīng)的材料體系及選擇依據(jù)。
    的頭像 發(fā)表于 02-26 10:24 ?146次閱讀
    一文看懂<b class='flag-5'>3D</b>打印材料構(gòu)成與<b class='flag-5'>性能</b>差異

    常見3D打印材料介紹及應(yīng)用場景分析

    3D打印材料種類豐富,不同材料性能差異明顯。本文介紹PLA、ABS、PETG等常見3D打印材料的特點(diǎn)與應(yīng)用場景,幫助讀者了解3D打印用什么材
    的頭像 發(fā)表于 12-29 14:52 ?635次閱讀
    常見<b class='flag-5'>3D</b>打印材料<b class='flag-5'>介紹</b>及應(yīng)用場景分析

    簡單認(rèn)識3D SOI集成電路技術(shù)

    在半導(dǎo)體技術(shù)邁向“后摩爾時代”的進(jìn)程中,3D集成電路(3D IC)憑借垂直堆疊架構(gòu)突破平面縮放限制,成為提升性能與功能密度的核心路徑。
    的頭像 發(fā)表于 12-26 15:22 ?602次閱讀
    簡單認(rèn)識<b class='flag-5'>3D</b> SOI集成電路技術(shù)

    3D打印機(jī)的完美驅(qū)動芯片TMC2208,低成本,高性能,真靜音

    你是否曾為3D打印機(jī)的“嗡嗡”聲而煩惱?或者在深夜打印時,擔(dān)心噪音打擾到家人休息?今天,我們來聊聊一款能讓你的打印機(jī)安靜下來的小芯片——TMC2208。它以其低成本、高性能和真靜音的特點(diǎn),成為許多
    的頭像 發(fā)表于 12-18 15:18 ?382次閱讀
    <b class='flag-5'>3D</b>打印機(jī)的完美<b class='flag-5'>驅(qū)動</b>芯片TMC2208,低成本,高<b class='flag-5'>性能</b>,真靜音

    技術(shù)資訊 I 多板系統(tǒng) 3D 建模,提升設(shè)計(jì)精度和性能

    本文要點(diǎn)了解3D建模流程。洞悉多板系統(tǒng)3D建模如何提高設(shè)計(jì)精度、性能和成本效益。掌握3D建模在制造工藝中的優(yōu)勢。在PCBA領(lǐng)域,仿真與建模是實(shí)現(xiàn)精準(zhǔn)高效設(shè)計(jì)的基石。在量產(chǎn)前構(gòu)建并復(fù)用原
    的頭像 發(fā)表于 11-21 17:45 ?2521次閱讀
    技術(shù)資訊 I 多板系統(tǒng) <b class='flag-5'>3D</b> 建模,提升設(shè)計(jì)精度和<b class='flag-5'>性能</b>

    LMI Gocator 6300系列智能3D線激光輪廓傳感器介紹

    Gocator 6300系列是LMI的智能3D線激光輪廓傳感器,具有高速、高精度、寬視野的特點(diǎn),較高的X方向輪廓數(shù)據(jù)間隔使其在大視野下執(zhí)行高精確的測量任務(wù),擁有優(yōu)秀的2D/3D掃描性能
    的頭像 發(fā)表于 10-29 14:42 ?1235次閱讀
    LMI Gocator 6300系列智能<b class='flag-5'>3D</b>線激光輪廓傳感器<b class='flag-5'>介紹</b>

    微納尺度的神筆——雙光子聚合3D打印 #微納3D打印

    3D打印
    楊明遠(yuǎn)
    發(fā)布于 :2025年10月25日 13:09:29

    技術(shù)資訊 I 圖文詳解 Allegro X PCB Designer 中的 3D 模型映射

    空間,打通了電子(ECAD)和機(jī)械(MCAD)之間那堵看不見的墻。上期我們介紹了PCB的快速布局操作;本期將介紹元器件的3D模型以及PCB板的3D模型映射操作。應(yīng)用
    的頭像 發(fā)表于 10-17 16:16 ?1686次閱讀
    技術(shù)資訊 I 圖文詳解 Allegro X PCB Designer 中的 <b class='flag-5'>3D</b> 模型映射

    玩轉(zhuǎn) KiCad 3D模型的使用

    “ ?本文將帶您學(xué)習(xí)如何將 3D 模型與封裝關(guān)聯(lián)、文件嵌入,講解 3D 查看器中的光線追蹤,以及如何使用 CLI 生成 PCBA 的 3D 模型。? ” ? 在日常的 PCB 設(shè)計(jì)中,我們大部分
    的頭像 發(fā)表于 09-16 19:21 ?1.2w次閱讀
    玩轉(zhuǎn) KiCad <b class='flag-5'>3D</b>模型的使用

    索尼與VAST達(dá)成3D業(yè)務(wù)合作

    近日,索尼空間現(xiàn)實(shí)顯示屏與VAST旗下的3D大模型Tripo AI正式宣布達(dá)成業(yè)務(wù)合作:雙方將圍繞裸眼3D顯示技術(shù)、AI驅(qū)動3D內(nèi)容生成與交互創(chuàng)新展開深度協(xié)同,致力于通過索尼空間現(xiàn)實(shí)
    的頭像 發(fā)表于 08-28 17:32 ?1441次閱讀

    AD 3D封裝庫資料

    ?AD ?PCB 3D封裝
    發(fā)表于 08-27 16:24 ?7次下載

    3D打印能用哪些材質(zhì)?

    3D打印的材質(zhì)有哪些?不同材料決定了打印效果、強(qiáng)度、用途乃至安全性,本文將介紹目前主流的3D打印材質(zhì),幫助你找到最適合自己需求的材料。
    的頭像 發(fā)表于 07-28 10:58 ?3843次閱讀
    <b class='flag-5'>3D</b>打印能用哪些材質(zhì)?

    3D AD庫文件

    3D庫文件
    發(fā)表于 05-28 13:57 ?6次下載

    答疑|3D打印能打印立體字母嗎?

    最近有朋友留言問:3D打印能打印那種立體字母嗎?會不會很難實(shí)現(xiàn)? JLC3D小編來解答:當(dāng)然可以!無論是單獨(dú)的字母,還是組合成單詞或句子,3D打印都可以實(shí)現(xiàn)的。 以下是一些關(guān)于打印立體
    發(fā)表于 05-21 16:17

    3D閃存的制造工藝與挑戰(zhàn)

    3D閃存有著更大容量、更低成本和更高性能的優(yōu)勢,本文介紹3D閃存的制造工藝與挑戰(zhàn)。
    的頭像 發(fā)表于 04-08 14:38 ?2451次閱讀
    <b class='flag-5'>3D</b>閃存的制造工藝與挑戰(zhàn)