国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

擴散模型在視頻領域表現如何?

新機器視覺 ? 來源:機器之心 ? 作者:機器之心 ? 2022-04-13 10:04 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

擴散模型正在不斷的「攻城略地」。

擴散模型并不是一個嶄新的概念,早在2015年就已經被提出。其核心應用領域包括音頻建模、語音合成、時間序列預測、降噪等。

那么它在視頻領域表現如何?先前關于視頻生成的工作通常采用諸如GAN、VAE、基于流的模型。

在視頻生成領域,研究的一個重要里程碑是生成時間相干的高保真視頻。來自谷歌的研究者通過提出一個視頻生成擴散模型來實現這一里程碑,顯示出非常有希望的初步結果。本文所提出的模型是標準圖像擴散架構的自然擴展,它可以從圖像和視頻數據中進行聯合訓練,研究發現這可以減少小批量梯度的方差并加快優化速度。

為了生成更長和更高分辨率的視頻,該研究引入了一種新的用于空間和時間視頻擴展的條件采樣技術,該技術比以前提出的方法表現更好。

30908a38-ba83-11ec-aa7f-dac502259ad0.png

論文地址:https://arxiv.org/pdf/2204.03458.pdf

論文主頁:https://video-diffusion.github.io/

研究展示了文本條件視頻生成的結果和無條件視頻生成基準的最新結果。例如生成五彩斑斕的煙花:

30a02fc4-ba83-11ec-aa7f-dac502259ad0.gif

其他生成結果展示:

30c6b572-ba83-11ec-aa7f-dac502259ad0.gif

這項研究有哪些亮點呢?首先谷歌展示了使用擴散模型生成視頻的首個結果,包括無條件和有條件設置。先前關于視頻生成的工作通常采用其他類型的生成模型,如 GAN、VAE、基于流的模型和自回歸模型。

其次該研究表明,可以通過高斯擴散模型的標準公式來生成高質量的視頻,除了直接的架構更改以適應深度學習加速器的內存限制外,幾乎不需要其他修改。該研究訓練生成固定數量的視頻幀塊的模型,并且為了生成比該幀數更長的視頻,他們還展示了如何重新調整訓練模型的用途,使其充當對幀進行塊自回歸的模型。

方法介紹

圖像擴散模型中31a1e930-ba83-11ec-aa7f-dac502259ad0.png的標準架構是U-Net,它是一種被構造為空間下采樣通道的神經網絡架構,空間上采樣通道緊隨其后,其中殘差連接到下采樣通道激活。這種神經網絡由2D卷積殘差塊的層構建而成,并且每個這種卷積塊的后面是空間注意力塊。

研究者建議將這一圖像擴散模型架構擴展至視頻數據,給定了固定數量幀的塊,并且使用了在空間和時間上分解的特定類型的 3D U-Net。

首先,研究者通過將每個 2D卷積改成space-only 3D卷積對圖像模型架構進行修改,比如將每個3x3卷積改成了1x3x3卷積,即第一個軸(axis)索引視頻幀,第二和第三個索引空間高度和寬度。每個空間注意力塊中的注意力仍然為空間上的注意力,也即第一個軸被視為批處理軸(batch axis)。

其次,在每個空間注意力塊之后,研究者插入一個時間注意力塊,它在第一個軸上執行注意力并將空間軸視為批處理軸。他們在每個時間注意力塊中使用相對位置嵌入,如此網絡不需要絕對視頻時間概念即可區分幀的順序。3D U-Net 的模型架構可視圖如下所示。

31acf762-ba83-11ec-aa7f-dac502259ad0.png

我們都知道,得益于分解時空注意力的計算效率,在視頻transformers中使用它是一個很好的選擇。研究者使用的分解時空架構是自身視頻生成設置獨有的,它的一大優勢是可以直接 mask 模型以在獨立圖像而非視頻上運行,其中只需刪除每個時間注意力塊內部的注意力操作并修復注意力矩陣以在每個視頻時間步精確匹配每個鍵和問詢向量。

這樣做的好處是允許聯合訓練視頻和圖像生成的模型。研究者在實驗中發現,這種聯合訓練對樣本質量非常重要。

新穎的條件生成梯度方法

研究者的主要創新是設計了一種新的、用于無條件擴散模型的條件生成方法,稱之為梯度方法,它修改了模型的采樣過程以使用基于梯度的優化來改進去噪數據上的條件損失。他們發現,梯度方法比現有方法更能確保生成樣本與條件信息的一致性。

研究者使用該梯度方法將自己的模型自回歸地擴展至更多的時間步和更高的分辨率。

下圖左為利用梯度方法的視頻幀,圖右為利用自回歸擴展基線替代(replacement)方法的幀。可以看到,使用梯度方法采用的視頻比基線方法具有更好的時間相干性。

31baddd2-ba83-11ec-aa7f-dac502259ad0.png

實驗結果

研究者對無條件、文本-條件視頻生成模型進行了評估。文本-條件視頻生成是在一個包含 1000 萬個字幕視頻數據集上進行訓練,視頻空間分辨率為 64x64 ;對于無條件視頻生成,該研究在現有基準 [36] 上訓練和評估模型。

無條件視頻建模該研究使用 Soomro 等人[36]提出的基準對無條件視頻生成模型進行評估。表 1 展示了該研究所提模型生成的視頻的感知質量得分,并與文獻中的方法進行了比較,發現本文方法大大提高了SOTA。

31d7767c-ba83-11ec-aa7f-dac502259ad0.png

視頻、圖像模型聯合訓練:表 2 報告了針對文本-條件的 16x64x64 視頻的實驗結果。

31eaf116-ba83-11ec-aa7f-dac502259ad0.png

無分類器指導的效果:表3 表明無分類器指導 [13] 在文本-視頻生成方面的有效性。正如預期的那樣,隨著指導權重的增加,類 Inception Score 的指標有明顯的改進,而類 FID 的指標隨著引導權重的增加先改善然后下降。

表 3 報告的結果驗證了無分類器指導 [13] 在文本-視頻生成方面的有效性。正如預期的那樣,隨著引導權重的增加,類 Inception Score (IS)的指標有明顯的改進,而類 FID 的指標隨著引導權重的增加先改善然后下降。這一現象在文本-圖像生成方面也有類似的發現[23]。

31fa1d94-ba83-11ec-aa7f-dac502259ad0.png

圖 3 顯示了無分類器指導 [13] 對文本-條件視頻模型的影響。與在文本條件圖像生成 [23] 和類條件圖像生成 [13, 11] 上使用無分類器指導的其他工作中觀察到的類似,添加指導提高了每個圖像的樣本保真度。

3209e472-ba83-11ec-aa7f-dac502259ad0.png

針對較長序列的自回歸視頻擴展:3.1節提出了基于擴散模型的條件采樣梯度法,這是對[35]中替換方法的改進。表4展示了使用這兩種技術生成較長視頻的結果,由結果可得本文提出的方法在感知質量分數方面確實優于替換方法。

3237c806-ba83-11ec-aa7f-dac502259ad0.png

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 視頻
    +關注

    關注

    6

    文章

    2005

    瀏覽量

    74956
  • GaN
    GaN
    +關注

    關注

    21

    文章

    2366

    瀏覽量

    82258
  • 模型
    +關注

    關注

    1

    文章

    3752

    瀏覽量

    52099

原文標題:視頻生成無需GAN、VAE,谷歌用擴散模型聯合訓練視頻、圖像,實現新SOTA

文章出處:【微信號:vision263com,微信公眾號:新機器視覺】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    杭晶電子差分晶振產品視頻領域的應用

    隨著高清視頻、4K/8K顯示以及視頻會議、直播等應用的快速發展,視頻設備對時鐘信號的穩定性、低抖動和高頻率要求不斷提高。差分晶振因其獨特的技術優勢,逐漸
    的頭像 發表于 12-24 11:40 ?702次閱讀
    杭晶電子差分晶振產品<b class='flag-5'>在</b><b class='flag-5'>視頻</b><b class='flag-5'>領域</b>的應用

    Termux手機攝像頭采集圖像/視頻流 部署 YOLO 模型推理

    Termux手機攝像頭采集圖像/視頻流 部署 YOLO 模型推理
    的頭像 發表于 12-14 07:26 ?2846次閱讀

    探索RISC-V機器人領域的潛力

    SLAM等輕量級算法時表現出了不錯的性能,CPU占用率可接受范圍內。整個系統響應及時,證明了MUSE Pi Pro完全有能力作為小型移動機器人的“大腦”。 四、 其他功能淺嘗 ? AI模型部署
    發表于 12-03 14:40

    物質擴散與污染物監測系統軟件:多領域環境守護的智能中樞

    物質擴散與污染物監測系統
    的頭像 發表于 08-25 16:26 ?473次閱讀

    國產主板耐用性和可靠性上有哪些具體表現

    國產主板耐用性和可靠性上有著諸多令人矚目的具體表現不同領域發揮著關鍵作用。
    的頭像 發表于 07-22 18:21 ?1050次閱讀

    AI視頻分析化工領域的應用和開發

    AI視頻分析化工領域的應用正深刻改變這一高風險行業的安全生產模式,通過智能視覺技術實現從“人防”到“技防”的升級。以下是關鍵技術落地場景及實施案例: ? 一、核心應用場景 1. 人員安全管
    的頭像 發表于 07-22 11:47 ?877次閱讀

    百度重磅發布!全球首創中文音視頻模型

    電子發燒友網綜合報道 2025年7月2日,百度北京正式發布全球首個中文音視頻一體化生成模型——MuseSteamer,標志著其正式進軍圖生視頻領域
    的頭像 發表于 07-11 09:18 ?4390次閱讀

    一種基于擴散模型視頻生成框架RoboTransfer

    機器人操作領域,模仿學習是推動具身智能發展的關鍵路徑,但高度依賴大規模、高質量的真實演示數據,面臨高昂采集成本與效率瓶頸。仿真器雖提供了低成本數據生成方案,但顯著的“模擬到現實”(Sim2Real)鴻溝,制約了仿真數據訓練策略的泛化能力與落地應用。
    的頭像 發表于 07-09 14:02 ?833次閱讀
    一種基于<b class='flag-5'>擴散</b><b class='flag-5'>模型</b>的<b class='flag-5'>視頻</b>生成框架RoboTransfer

    無法使用OpenVINO? GPU 設備上運行穩定擴散文本到圖像的原因?

    OpenVINO? GPU 設備上使用圖像大小 (1024X576) 運行穩定擴散文本到圖像,并收到錯誤消息: RuntimeError: Exception from
    發表于 06-25 06:36

    模型半導體行業的應用可行性分析

    的應用,比如使用機器學習分析數據,提升良率。 這一些大模型是否真的有幫助 能夠解決工程師的知識斷層問題 本人純小白,不知道如何涉足這方面 應該問什么大模型比較好,或者是看什么視頻能夠
    發表于 06-24 15:10

    明遠智睿SSD2351開發板:視頻監控領域的卓越之選

    隨著安全防范意識的提高,視頻監控各個領域得到了廣泛應用。明遠智睿SSD2351開發板憑借其出色的性能和特性,成為視頻監控領域的卓越之選,為
    發表于 05-30 10:24

    奧松電子擴散硅壓力變送器的優勢

    快速發展的工業領域,精準的壓力測量與控制是保障生產安全、提升產品質量的關鍵。奧松電子傾力打造的擴散硅壓力變送器,憑借優良的性能和廣泛的應用領域,成為了眾多工業企業的信賴之選。這款變送
    的頭像 發表于 05-20 14:42 ?889次閱讀
    奧松電子<b class='flag-5'>擴散</b>硅壓力變送器的優勢

    基于Nanopaint壓感油墨系統的柔性傳感系統體育表現監測中的應用

    干擾運動員的表現。 Nanopaint壓阻式墨水在運動領域的關鍵特性 高靈敏度:可檢測極微小的壓力與應變變化,捕捉詳盡的生物力學數據。 柔韌性與貼合性:可適應人體運動,不限制動作。 耐久性:能承受
    發表于 05-14 13:18

    國產地物光譜儀“高光譜-機器學習”模型構建中的表現

    遙感應用和環境監測日益精細化的今天,“高光譜 + 機器學習”的組合已成為地物識別、礦產探測、農業監測等領域的重要技術手段。而作為獲取高光譜數據的前端工具,地物光譜儀的性能直接影響到后續模型的精度
    的頭像 發表于 04-18 16:15 ?741次閱讀
    國產地物光譜儀<b class='flag-5'>在</b>“高光譜-機器學習”<b class='flag-5'>模型</b>構建中的<b class='flag-5'>表現</b>

    DiffusionDrive首次端到端自動駕駛中引入擴散模型

    多樣性是提升自動駕駛魯棒性和安全性的關鍵,但現有方法往往受限于單一軌跡回歸或固定錨點采樣,難以全面建模駕駛決策空間。 擴散模型 (Diffusion Model) 憑借強大的多模態建模能力,已在機器人決策學習中得到驗證。其逐步去噪機制
    的頭像 發表于 03-08 13:59 ?1793次閱讀
    DiffusionDrive首次<b class='flag-5'>在</b>端到端自動駕駛中引入<b class='flag-5'>擴散</b><b class='flag-5'>模型</b>