国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一款A(yù)I模型Foley Music,它可以根據(jù)演奏手勢完美還原樂曲原聲!

傳感器技術(shù) ? 來源:雷鋒網(wǎng) ? 2020-08-14 14:58 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

不會樂器也可以玩的很嗨 ”

會玩樂器的人在生活中簡直自帶光環(huán)!

不過,學(xué)會一門樂器也真的很難,多少人陷入過從入門到放棄的死循環(huán)。

但是,不會玩樂器,就真的不能演奏出好聽的音樂了嗎?

最近,麻省理工(MIT)聯(lián)合沃森人工智能實驗室(MIT-IBM Watson AI Lab)共同開發(fā)出了一款A(yù)I模型Foley Music,它可以根據(jù)演奏手勢完美還原樂曲原聲!

而且還是不分樂器的那種,小提琴、鋼琴、尤克里里、吉他,統(tǒng)統(tǒng)都可以。

只要拿起樂器,就是一場專業(yè)演奏會!如果喜歡不同音調(diào),還可以對音樂風(fēng)格進(jìn)行編輯,A調(diào)、F調(diào)、G調(diào)均可。

這項名為《Foley Music:Learning to Generate Music from Videos》的技術(shù)論文已被ECCV 2020收錄。

接下來,我們看看AI模型是如何還原音樂的?

1

會玩多種樂器的Foley Music

如同為一段舞蹈配樂需要了解肢體動作、舞蹈風(fēng)格一樣,為樂器演奏者配樂,同樣需要知道其手勢、動作以及所用樂器。

如果給定一段演奏視頻,AI會自動鎖定目標(biāo)對象的身體關(guān)鍵點(Body Keypoints),以及演奏的樂器和聲音。

身體關(guān)鍵點:由AI系統(tǒng)中的視覺感知模塊(Visual Perception Model)來完成。它會通過身體姿勢和手勢的兩項指標(biāo)來反饋。一般身體會提取25個關(guān)2D點,手指提起21個2D點。

樂器聲音提取:采用音頻表征模塊(Audio Representation Model),該模塊研究人員提出了一種樂器數(shù)字化接口(Musical Instrument Digital Interface,簡稱MIDI)的音頻表征形式。它是Foley Music區(qū)別于其他模型的關(guān)鍵。

研究人員介紹,對于一個6秒中的演奏視頻,通常會生成大約500個MIDI事件,這些MIDI事件可以輕松導(dǎo)入到標(biāo)準(zhǔn)音樂合成器以生成音樂波形。

在完成信息提取和處理后,接下來,視-聽模塊(Visual-Audio Model)將整合所有信息并轉(zhuǎn)化,生成最終相匹配的音樂。

我們先來看一下它完整架構(gòu)圖:主要由視覺編碼,MIDI解碼和MIDI波形圖輸出三個部分構(gòu)成。

視覺編碼:將視覺信息進(jìn)行編碼化處理,并傳遞給轉(zhuǎn)換器MIDI解碼器。從視頻幀中提取關(guān)鍵坐標(biāo)點,使用GCN(Graph-CNN)捕獲人體動態(tài)隨時間變化產(chǎn)生的潛在表示。

MIDI解碼器:通過Graph-Transfomers完成人體姿態(tài)特征和MIDI事件之間的相關(guān)性進(jìn)行建模。Transfomers是基于編解碼器的自回歸生成模型,主要用于機器翻譯。在這里,它可以根據(jù)人體特征準(zhǔn)確的預(yù)測MIDI事件的序列。

MIDI輸出:使用標(biāo)準(zhǔn)音頻合成器將MIDI事件轉(zhuǎn)換為最終的波形。

2

實驗結(jié)果

研究人員證實Foley Music遠(yuǎn)優(yōu)于現(xiàn)有其他模型。在對比試驗中,他們采用了三種數(shù)據(jù)集對Foley Music進(jìn)行了訓(xùn)練,并選擇了9中樂器,與其它GAN-based、SampleRNN和WaveNet三種模型進(jìn)行了對比評估。

其中,數(shù)據(jù)集分別為AtinPiano、MUSIC及URMP,涵蓋了超過11個類別的大約1000個高質(zhì)量的音樂演奏視頻。樂器則為風(fēng)琴,貝斯,巴松管,大提琴,吉他,鋼琴,大號,夏威夷四弦琴和小提琴,其視頻長度均為6秒。以下為定量評估結(jié)果:

可見,F(xiàn)oley Music模型在貝斯(Bass)樂器演奏的預(yù)測性能最高達(dá)到了72%,而其他模型最高僅為8%。

另外,從以下四個指標(biāo)來看,結(jié)果更為突出:

正確性:生成的歌曲與視頻內(nèi)容之間的相關(guān)性。

噪音:音樂噪音最小。

同步性:歌曲在時間上與視頻內(nèi)容最一致。

黃色為Foley Music模型,它在各項指標(biāo)上的性能表現(xiàn)遠(yuǎn)遠(yuǎn)超過了其他模型,在正確性、噪音和同步性三項指標(biāo)上最高均超過了0.6,其他最高不足0.4,且9種樂器均是如此。

另外,研究人員還發(fā)現(xiàn),與其他基準(zhǔn)系統(tǒng)相比,MIDI事件有助于改善聲音質(zhì)量,語義對齊和時間同步。

說明

GAN模型:它以人體特征為輸入,通過鑒別其判定其姿態(tài)特征所產(chǎn)生的頻譜圖是真或是假,經(jīng)過反復(fù)訓(xùn)練后,通過傅立葉逆變換將頻譜圖轉(zhuǎn)換為音頻波形。

SampleRNN:是無條件的端到端的神經(jīng)音頻生成模型,它相較于WaveNet結(jié)構(gòu)更簡單,在樣本級層面生成語音要更快。

WaveNet:是谷歌Deepmind推出一款語音生成模型,在text-to-speech和語音生成方面表現(xiàn)很好。

另外,該模型的優(yōu)勢還在于它的可擴(kuò)展性。MIDI表示是完全可解釋和透明的,因此可以對預(yù)測的MIDI序列進(jìn)行編輯,以生成AGF調(diào)不同風(fēng)格音樂。如果使用波形或者頻譜圖作為音頻表示形式的模型,這個功能是不可實現(xiàn)的。

最后研究人員在論文中表明,此項研究通過人體關(guān)鍵點和MIDI表示很好地建立視覺和音樂信號之間的相關(guān)性,實現(xiàn)了音樂風(fēng)格的可拓展性。為當(dāng)前研究視頻和音樂聯(lián)系拓展出了一種更好的研究路徑。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    39820

    瀏覽量

    301500
  • 人工智能
    +關(guān)注

    關(guān)注

    1817

    文章

    50102

    瀏覽量

    265523
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3755

    瀏覽量

    52124

原文標(biāo)題:只看手勢動作,就能完美復(fù)現(xiàn)音樂,MIT聯(lián)合沃森實驗室團(tuán)隊推出最新AI,多種高難度樂器信手拈來!

文章出處:【微信號:WW_CGQJS,微信公眾號:傳感器技術(shù)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    模型 ai coding 比較

    框架:llm-coding-bench v1.0 統(tǒng)代碼執(zhí)行超時:10秒 統(tǒng)隨機種子:42 統(tǒng)裁判模型:DeepSeek-Chat(第三方交叉驗證) ? 綜合評分公式: scss
    發(fā)表于 02-19 13:43

    使用NORDIC AI的好處

    × 在 CPU 上運行時可快 10×、更省電,平均模型體積 <5 KB。[Edge AI 軟件頁] Axon NPU 對同 TensorFlow Lite 模型:* 推理速度
    發(fā)表于 01-31 23:16

    小新AI語音互動禮盒上線啦!正版IP原聲對話!啟明云端樂鑫代理

    ,搭載智能AI,讓經(jīng)典IP以全新的方式,陪伴在你生活的每刻。經(jīng)典再現(xiàn),官方原聲我們獲得了《蠟筆小新》官方正版IP授權(quán),采用小新原聲進(jìn)行交互錄制。從開機問候到日常
    的頭像 發(fā)表于 01-06 18:03 ?533次閱讀
    小新<b class='flag-5'>AI</b>語音互動禮盒上線啦!正版IP<b class='flag-5'>原聲</b>對話!啟明云端樂鑫代理

    靈動微電子最新最火熱的一款芯片推薦

    希望找一款靈動微電子最新最火熱的一款芯片,我們想做個圖形化的界面配置,供大家以后直接創(chuàng)建工程,用國產(chǎn)工具M(jìn)cuStudio做,McuStudio支持任何內(nèi)核任何廠家的芯片,希望大家有推薦的型號
    發(fā)表于 10-29 17:15

    【飛凌OK-MX9596-C開發(fā)板試用】②體驗WIFI、藍(lán)牙、音頻、視頻,為AI應(yīng)用打下基礎(chǔ)

    大的一款板子,搭載了超強的多核處理器,非常適合開發(fā)工業(yè)互聯(lián)、AI應(yīng)用等,本篇體驗下開發(fā)板的WIFI、藍(lán)牙、音頻、視頻模塊,為后續(xù)開發(fā)AI應(yīng)用打下基礎(chǔ)。 第部分:WIFI功能 本機搭載
    發(fā)表于 10-21 18:17

    【技術(shù)討論】智能戒指手勢交互:如何優(yōu)化PCBA成本與實現(xiàn)<20ms低延遲?

    我們正在開發(fā)一款通過手勢實時控制音樂的嵌入式可穿戴設(shè)備(架構(gòu)如圖:nRF5340主控 + ICM-42607 IMU)。希望重構(gòu)聽眾與音樂之間的關(guān)系。在早期小批量生產(chǎn)中,我們面臨兩個核心挑戰(zhàn),希望
    發(fā)表于 10-18 13:04

    AI模型的配置AI模型該怎么做?

    STM32可以AI,這個AI模型怎么搞,知識盲區(qū)
    發(fā)表于 10-14 07:14

    傳統(tǒng)工業(yè)AP搞不定的PROFINET實時傳輸,為什么它可以

    在工業(yè)自動化、智慧礦山、綜合能源等領(lǐng)域,穩(wěn)定的工業(yè)通信是設(shè)備聯(lián)動、數(shù)據(jù)傳輸?shù)摹吧€”。隨著工業(yè)控制對實時性、可靠性要求的提升,PROFINET作為主流工業(yè)以太網(wǎng)協(xié)議,其應(yīng)用占比持續(xù)攀升——而一款完美適配PROFINET協(xié)議、兼顧高性能無線傳輸與工業(yè)級防護(hù)的設(shè)備,正成為
    的頭像 發(fā)表于 10-11 15:43 ?556次閱讀
    傳統(tǒng)工業(yè)AP搞不定的PROFINET實時傳輸,為什么<b class='flag-5'>它可以</b>?

    OpenAI開源模型登陸IBM watsonx.ai開發(fā)平臺

    OpenAI 已向公眾發(fā)布了兩 AI 模型,允許開發(fā)者和企業(yè)可自由下載、運行并進(jìn)行定制。其中一款模型現(xiàn)已部署在 IBM watsonx.
    的頭像 發(fā)表于 08-26 15:36 ?1023次閱讀

    新品上線|Maix4-HAT 大模型 AI 加速套件 ,鍵解鎖樹莓派多模態(tài) AI 力量!

    還在為邊緣端的大模型運行發(fā)愁?還在為算力不夠、模型太大束手無策?Maix4-HAT,一款專為端側(cè)大模型而生的高性能AI加速模塊,現(xiàn)已正式上線
    的頭像 發(fā)表于 07-18 18:35 ?1712次閱讀
    新品上線|Maix4-HAT 大<b class='flag-5'>模型</b> <b class='flag-5'>AI</b> 加速套件 ,<b class='flag-5'>一</b>鍵解鎖樹莓派多模態(tài) <b class='flag-5'>AI</b> 力量!

    AlphaEvolve:一款基于Gemini的編程Agent,用于設(shè)計高級算法

    構(gòu)思創(chuàng)新理念。如今,Google 進(jìn)步擴(kuò)展這些能力,將其應(yīng)用于解決數(shù)學(xué)基礎(chǔ)領(lǐng)域和現(xiàn)代計算中高度復(fù)雜的難題。 AlphaEvolve 是一款由大語言模型驅(qū)動的進(jìn)化式編程代理,致力于通用算法的發(fā)現(xiàn)與優(yōu)化。該平臺將 Gemini
    的頭像 發(fā)表于 05-19 11:19 ?1752次閱讀
    AlphaEvolve:<b class='flag-5'>一款</b>基于Gemini的編程Agent,用于設(shè)計高級算法

    首創(chuàng)開源架構(gòu),天璣AI開發(fā)套件讓端側(cè)AI模型接入得心應(yīng)手

    模型、通義千問、混元等多種先進(jìn)端側(cè)大模型,還包含視覺、語言、多模態(tài)等多種多樣的大模型,開發(fā)者可以通過Gen-AI Model Hub
    發(fā)表于 04-13 19:52

    如何基于Android 14在i.MX95 EVK上運行Deepseek-R1-1.5B和性能

    ://github.com/a-ghorbani/pocketpal-ai/releases/tag/v1.6.7 PocketPal AI一款開源的袖珍型 AI 助手,由直接運行
    發(fā)表于 04-04 06:59

    AI眼鏡大模型激戰(zhàn):多大模型協(xié)同、交互時延低至1.3S

    AI模型的深度融合,場技術(shù)演進(jìn)與場景革命正在悄然進(jìn)行。 ? ? 一款眼鏡搭載多個大模型AI
    的頭像 發(fā)表于 03-20 08:59 ?2733次閱讀
    <b class='flag-5'>AI</b>眼鏡大<b class='flag-5'>模型</b>激戰(zhàn):多大<b class='flag-5'>模型</b>協(xié)同、交互時延低至1.3S

    訓(xùn)練好的ai模型導(dǎo)入cubemx不成功怎么處理?

    訓(xùn)練好的ai模型導(dǎo)入cubemx不成功咋辦,試了好幾個模型壓縮了也不行,ram占用過大,有無解決方案?
    發(fā)表于 03-11 07:18