天天影视网天天综合色,国产成人久久一区二区不卡,久久精品亚洲视频

隨著近年來音視頻生成技術的不斷發展，“虛擬主播”逐漸走入人們視野，并以其在虛擬客服、遠程會議、電影剪輯等現實應用場景中的重要作用而獲得了社會各界的廣泛關注。該技術旨在對輸入的音頻預測相應口型，從而生成指定或任意人物的自然而準確的面部說話視頻。近日，中科院自動化所智能感知與計算研究中心為此提出了一種新穎的音視頻協同計算方法，并重點解決了此前難以達成的任意人物協同生成問題。

該方法一方面實現了利用語音驅動任意對象的高清視頻生成，另一方面在正臉、側臉等多種場景下均顯著提升了生成視頻質量。目前，該成果已被IJCAI 2020大會接收。

由于音視頻模態之間差異性等問題，這項技術目前仍然存在著眾多挑戰。以往的研究方法往往將重點放在了模態內之間，如只關注了視頻幀之間的損失約束，卻忽略了音視頻模態間最重要的問題之一：如何將音頻信息高效充分地表達入視頻模態？同時由于人物與人物之間的個體差異，將同一模型應用于任意人物視頻生成也存在較大的挑戰。

為解決上述問題，團隊精心設計了一個非對稱式互信息估計器（Asymmetric Mutual Information Estimator， AMIE），以構建音視頻模態間的約束。如圖1示，輸入一對音頻與人臉圖像數據，互信息估計器輸出預測的互信息值。在這里，該方法使用Jensen-Shannon表示形式來改善互信息計算方式，使其更好地應用于神經網絡。通過這樣的互信息估計方式，該方法最大化音頻與視頻模態之間的互信息，減少音頻向視頻模態表達的不確定性，并以此獲得音頻和視頻信息之間的跨模態一致性，使得生成視頻中人物的口型更加準確自然。

設計非對稱式互信息估計器減少音頻向視頻模態表達的不確定性