国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

麻省大學研發MakeItTalk:如何讓圖片開口“說話”

如意 ? 來源:新智元 ? 作者:佚名 ? 2020-10-20 16:21 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

最近,麻省大學Amherst分校的Yang Zhou博士和他的團隊提出了一種具有深度結構的新方法「MakeItTalk」。給定一個音頻語音信號和一個人像圖像作為輸入,模型便會生成說話人感知的有聲動畫圖。

富有表現力的動畫誰都想要!

面部動畫在很多領域都是一項關鍵技術,比如制作電影、視頻流、電腦游戲、虛擬化身等等。

盡管在技術上取得了無數的成就,但是創造逼真的面部動畫仍然是計算機圖形學的挑戰。

一是整個面部表情包含了完整面部各部分之間的相互關系,面部運動和語音之間的協同是一項艱巨的任務,因為面部動態在高維多重影像中占主導地位,其中頭部姿勢最為關鍵。

二是多個說話人會有不同的說話方式,控制嘴唇一致,不足以了解說話的人的性格,還要表達不同的個性。

針對上述問題,Yang Zhou博士和他的團隊提出了一種具有深度結構的新方法「 MakeItTalk」。

這是一種具有深度架構的新方法,只需要一個音頻和一個面部圖像作為輸入,程序就會輸出一個逼真的「說話的頭部動畫」。

下面,我們就來看看,MakeItTalk的是如何讓圖片「說話」的。

都給我開口說話!神奇的 MakeItTalk 是什么?

MakeItTalk是一個新的深度學習為基礎的架構,能夠識別面部標志、下巴、頭部姿勢、眉毛、鼻子,并切能夠通過聲音的刺激使嘴唇發生變化。

模型以LSTM 和 CNN 為基礎,可以根據說話人的音調和內容,讓面部表情和頭部產生隨動。

本質上, MakeItTalk將輸入音頻信號中的內容和說話人分離出來,從產生的抽象表示中提取出對應的動畫。

而嘴唇和相鄰面部的協同也尤為重要。說話者的信息被用來獲取其他面部表情和頭部動作,而這些對于生成富有表現力的頭部動畫是必需的。

MakeItTalk模型既可以生成逼真的人臉說話圖像,也可以生成非逼真的卡通說話圖像。

聲音+圖像=「開口說話」?MakeItTalk是如何做到的?

下面的圖表顯示了生成逼真的說話頭像的完整方法和途徑:

(1)一個音頻剪輯和一個單一的面部圖像可以制作一個與音頻協調的,能感知說話者的頭部動畫。

(2)在訓練階段,使用現成的人臉檢測器對輸入的視頻進行預處理,提取標記,從輸入的音頻中訓練基礎模型,實現語音內容轉動畫和標記的精確提取。

(3)為了獲得高精度的運動,通過對輸入音頻信號的分離內容和說話人嵌入來檢測標記點的估計。為此,采用語音轉換神經網絡對語音內容進行提取,發現語音內容。

(4)內容與說話者無關,并且捕獲了嘴唇和相鄰部位的常見運動,其中說話內容調節了動作的特征和說話者頭部動作的剩余部分。

(5)嘴唇的大小和形狀隨著眼睛、鼻子和頭部的運動而擴大,這取決于誰說了這個詞,也就是說話人身份。

(6)最后,為了生成轉換后的圖像,MakeItTalk采用了兩種算法進行標記到圖像的合成:

對于非真實感的圖像,如畫布藝術或矢量藝術,一個特定的畸變方法是在 Delaunay triangulation 的基礎上部署;

對于真實感圖像,構建一個圖像到圖像的轉換網絡(與 pix2pix 相同) ,直接轉換自然人臉。

最后,混合所有的圖像幀和音頻共同生成頭部動畫。

作者簡介

該項目的作者本科畢業于上海交通大學電子工程系,然后在喬治亞理工學院獲得了碩士學位,現在是馬薩諸塞大學阿默斯特分校計算機圖形學科學研究小組的一名計算機科學博士生。

Yang Zhou在計算機圖形學和機器學習領域工作。主要致力于用深度學習技術來幫助藝術家、造型師和動畫師做出更好的設計。

如果也想給你的設計加點AI的基因,Yang Zhou的論文列表絕對是個不錯的選擇,有很多關于動畫生成和多模態深度學習的研究。
責編AJX

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 音頻
    +關注

    關注

    31

    文章

    3188

    瀏覽量

    85599
  • 模型
    +關注

    關注

    1

    文章

    3755

    瀏覽量

    52124
  • 圖片
    +關注

    關注

    0

    文章

    203

    瀏覽量

    16553
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    給設備裝個 “麥克風”:沉默的機器開口說話,數據全采集

    工業數字化轉型的核心,從來不是追求復雜技術,而是數據產生價值。給設備裝“麥克風”,本質是打通設備與運維人員的溝通通道,沉默的機器主動傳遞運行信號,用精準數據替代經驗判斷。
    的頭像 發表于 01-16 10:50 ?197次閱讀
    給設備裝個 “麥克風”:<b class='flag-5'>讓</b>沉默的機器<b class='flag-5'>開口說話</b>,數據全采集

    設備運維管理平臺工廠設備高效運轉

    、停機損失大”的惡性循環。對此,數之能提供設備運維管理平臺解決方案,推動工廠運維從“被動救火”向“主動防控”全面升級。 從被動搶修到主動預防:設備"開口說話" 傳統運維依賴人工巡檢與經驗判斷,故障響應往往滯后。設備
    的頭像 發表于 01-06 14:02 ?170次閱讀
    設備運維管理平臺<b class='flag-5'>讓</b>工廠設備高效運轉

    釘釘正式開源HarmonyOS圖片編輯組件

    近日,由釘釘團隊自主研發的“HarmonyOS圖片編輯組件”正式上線OpenHarmony三方庫中心倉并開源。作為一款填補鴻蒙社區圖像處理領域空白的重量級組件,該方案基于HarmonyOS
    的頭像 發表于 01-05 09:58 ?505次閱讀

    芯知識|語音芯片是如何機器“開口說話”的?

    在智能音箱回應你的詢問、車載導航提示你轉彎、甚至醫療設備發出清晰提醒的瞬間,你是否曾好奇,這些機器是如何“開口說話”的?其背后的核心功臣,正是一枚枚精巧的語音芯片。它如同一個高度集成的“聲音翻譯官
    的頭像 發表于 12-29 09:05 ?315次閱讀
    芯知識|語音芯片是如何<b class='flag-5'>讓</b>機器“<b class='flag-5'>開口說話</b>”的?

    選擇開口式互感器時要考慮哪些因素?

    選擇開口式互感器需圍繞測量準確性、安裝適配性、環境耐受性三大核心,確保其既能精準采集數據,又能安全穩定運行。
    的頭像 發表于 10-27 18:15 ?1282次閱讀

    語音播報芯片:產品“開口說話”的秘密

    個語音播報,收款24元等等。不知道大家發現沒有會“說話”的產品越來越多了,不僅僅是聲音播放,還可以進行語音交互也就是大家說的AI對話芯片,下面小編將會帶大家一起了解語音播報背后的那些芯片。 ? 機器發出固定聲音
    的頭像 發表于 09-28 09:28 ?612次閱讀
    語音播報芯片:<b class='flag-5'>讓</b>產品“<b class='flag-5'>開口說話</b>”的秘密

    二次元玩具 “開口說話”!N9400 芯片為你的周邊注入靈魂

    還在為二次元周邊玩具缺乏互動感發愁?想手辦、盲盒、扭蛋自帶角色原聲卻被成本卡住?廣州九芯電子——深耕電子芯片15年的源頭工廠,帶著爆款語音播放芯片N9400來了!專為二次元玩具廠家量身定制,用硬核
    的頭像 發表于 08-13 14:03 ?711次閱讀
    <b class='flag-5'>讓</b>二次元玩具 “<b class='flag-5'>開口說話</b>”!N9400 芯片為你的周邊注入靈魂

    智能家居 “聲” 臨其境:NRK3301 芯片如何家電 “會說話” 更 “懂人心”?

    打造的芯片,不僅家電“會說話”,更能讓聲音交互精準觸達生活需求。一顆芯片藏著的交互智慧NRK3301雖采用8腳緊湊設計,卻搭載了超出同類產品的硬核配置:支持MP
    的頭像 發表于 08-08 09:05 ?841次閱讀
    智能家居 “聲” 臨其境:NRK3301 芯片如何<b class='flag-5'>讓</b>家電 “會<b class='flag-5'>說話</b>” 更 “懂人心”?

    協議轉換魔法師”:Modbus轉Profinet網關如何變頻器“開口說話

    登場!它就像一位精通多種語言的翻譯官,能夠把Modbus協議的“方言”準確地翻譯成Profinet協議的“官方語言”,變頻器和控制系統能夠愉快地交流起來。 想象一下,變頻器就像一個只會說中文的“技術宅
    發表于 07-25 15:31

    ##DevEco Studio##如何模擬器里有圖片?【圖片下載法】

    ? API9和API12在模擬器上,有一個巨大的區別,那就是API9(開發工具3的版本),他的模擬器里有一個拍照功能(再往前的版本里甚至還有瀏覽器,可以通過瀏覽器下載圖片),可以通過拍照功能讓相冊里
    發表于 06-29 22:51

    南京工業大學:仿生觸覺傳感系統機器人擁有“人類指尖”般的細膩感知

    宏博士,聯合南開大學、復旦大學、金陵科技學院等單位眾多合作者,在《Advanced Materials》發表重磅研究成果,研發出一種仿生紡織觸覺傳感器及系統,首次在單一器件中實現靜態力與動態振動的高精度同步感知,
    的頭像 發表于 06-14 17:32 ?891次閱讀
    南京工業<b class='flag-5'>大學</b>:仿生觸覺傳感系統<b class='flag-5'>讓</b>機器人擁有“人類指尖”般的細膩感知

    會“說話”的空氣管家:NRK3301加濕器音箱秒變智能生活中樞

    告別繁瑣操作,一句‘打開加濕器’就能享受舒適濕度,NRK3301語音模塊加濕器音箱秒懂你的需求,智能生活從此開口即來。
    的頭像 發表于 06-12 15:11 ?855次閱讀
    會“<b class='flag-5'>說話</b>”的空氣管家:NRK3301<b class='flag-5'>讓</b>加濕器音箱秒變智能生活中樞

    大模型“開口說話”,啟英泰倫重塑AI玩具交互新體驗!

    2025年,AI玩具已成為全球消費科技領域最炙手可熱的賽道之一。DeepSeek的崛起,顯著降低了大模型的部署成本和門檻,成功點燃了整個行業以及資本市場對端側AI落地的熱情,進一步推動了AI玩具的熱潮。接入大模型的AI玩具從市場需求來看,AI玩具正在重新定義兒童陪伴與教育的方式,不僅滿足“玩”的基本需求,而且,通過智能“擬人化”交互可為兒童提供豐富的情緒價值
    的頭像 發表于 04-11 18:31 ?1163次閱讀
    <b class='flag-5'>讓</b>大模型“<b class='flag-5'>開口說話</b>”,啟英泰倫重塑AI玩具交互新體驗!

    數傳終端:數據飛起來的 “空中快遞員”

    就像一位隱形的 “空中快遞員”,在看不見的電波中穿梭,把海量數據安全、快速地送到目的地。 它的核心使命 :將傳感器、設備、系統產生的數據,通過無線或有線網絡傳輸到云端或控制中心。簡單來說,就是 “啞巴” 設備開口說話
    的頭像 發表于 04-02 23:59 ?924次閱讀
    數傳終端:<b class='flag-5'>讓</b>數據飛起來的 “空中快遞員”

    光伏智慧運維系統電站自己說話和思考

    ?????? 光伏智慧運維系統電站自己說話和思考 ?????? 太陽能電站就像一個大家族,由成千上萬塊太陽能板、逆變器、線路等組成。過去,要管理這么大的家族,只能靠人工每天去現場檢查,效率低還容易
    的頭像 發表于 03-27 17:01 ?809次閱讀
    光伏智慧運維系統<b class='flag-5'>讓</b>電站自己<b class='flag-5'>說話</b>和思考