国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

字節跳動推出一款顛覆性視頻模型—Boximator

jf_WZTOguxH ? 來源:Boximator論文 ? 2024-02-20 13:44 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

來源|AIGC開放社區

在 Sora 引爆文生視頻賽道之前,國內的字節跳動也推出了一款顛覆性視頻模型——Boximator。

與 Gen-2、Pink1.0 等模型不同的是,Boximator 可以通過文本精準控制生成視頻中人物或物體的動作。

例如,下雨天,大風把一位女生的雨傘吹走了。目前,很少有視頻模型能精準做到這一點。

Boximator 案例賞析

我們先看一下 Boximator 與 Gen-2、Pink1.0,在使用相同的文本提示詞、圖像生成的視頻,所表現出來的不同動作。

為了方便觀察,「AIGC 開放社區」將對比視頻整合在一起,最左邊的是 Boximator 生成的視頻。

一個可愛的 3D 男孩站著,然后走路

在這個案例中,Pika 1.0 生成的視頻男孩只是站著沒有走動,Gen-2 的視頻走動了但不明顯,只有 Boximator 產生了明顯的走動動作。

一位英俊的男人用他的右手從口袋里拿出一朵玫瑰,并且在看著這朵玫瑰

這個案例 Pika 1.0 和 Gen-2 表現的都非常不好,男士沒有掏出玫瑰花的動作。Boximator 再一次完美理解文本語義并做出了相應的動作。

往杯子里加紅酒

這個案例主要展示了控制物體動作的能力,Pika 1.0 和 Gen-2 都做出了倒酒的動作,但是杯子里的酒沒有明顯上升的動作。只有 Boximator 做到了倒酒 + 上升兩個動作。

看了這 3 個案例,能感受到 Boximator 對文本語義精準理解,以及對動作控制的強大功能了吧。

Boximator 模型介紹

為了實現對視頻中物體、人物的動作控制,Boximator 使用了“軟框”和“硬框”兩種約束方法。

硬框:可精確定義目標對象的邊界框。用戶可以在圖片中畫出感興趣的對象,Boximator 會將其視為硬框約束, 在之后的幀中精準定位該對象的位置。

22fcfe7e-cfb2-11ee-a297-92fbcf53809c.png

軟框:軟框定義一個對象可能存在的區域, 形成一個寬松的邊界框。對象需要停留在這個區域內, 但位置可以有一定變化,實現適度的隨機性。

兩類框都包含目標對象的 ID, 用于在不同幀中跟蹤同一對象。此外, 框還包含坐標、類型等信息的編碼。

控制模塊和訓練策略

控制模塊可以將框約束的編碼與視頻幀的視覺編碼結合,用來指導視頻的精準動作生成。包含框編碼器和自注意力層兩大塊。

框編碼器:將框的坐標、ID、類型等信息, 通過 Fourier 編碼和 MLP 映射為控制向量。

自注意力層:將框的控制向量與視頻幀的視覺向量通過自注意力建模其關系, 學習將框指導幀生成。

訓練策略方面,Boximator 主要分為兩個階段: 自跟蹤階段,訓練模型的同時生成視頻內容和對應的框,并簡化框與對象的關系學習。

正常訓練,訓練模型只生成視頻內容, 框的內在表達已經學會指導對象生成。此外, 訓練還使用多階段策略,逐步過渡從硬框到軟框的約束, 以及適當融合無框數據。

Boximator 實驗數據

為獲得視頻訓練數據, 研究人員從 WebVid-10M 數據集中,過濾出 110 萬段動態明顯的視頻片段, 并自動為其注釋了 220 萬個對象的邊界框。并在 PixelDance 和 ModelScope 這兩個模型上訓練了 Boximator。

實驗數據顯示,Boximator 在保持原模型視頻質量, 具有非常強大的動作控制能力。同時可以作為一種插件,幫助現有視頻擴散模型提升生成質量。

在 MSR-VTT 數據集上, 無論是視頻質量還是框與對象對齊精度方面,Boximator 都優于原模型。在人類評估中,Boximator 生成的視頻也在質量和運動控制上明顯超過原模型。

239eb6ce-cfb2-11ee-a297-92fbcf53809c.png

字節跳動的研究人員表示,目前該模型處于研發階段,預計 2-3 個月內發布測試網站。讓我們期待一下國內挑戰 Sora 的產品誕生吧!




審核編輯:劉清

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 字節跳動
    +關注

    關注

    0

    文章

    352

    瀏覽量

    10075
  • Sora
    +關注

    關注

    0

    文章

    86

    瀏覽量

    807

原文標題:字節跳動推出顛覆性文生視頻模型,可自由控制動作!

文章出處:【微信號:AI前線,微信公眾號:AI前線】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    探索THS8136:一款高性能的圖形與視頻DAC

    探索THS8136:一款高性能的圖形與視頻DAC 在電子設計領域,數字 - 模擬轉換器(DAC)是連接數字世界和模擬世界的關鍵橋梁。今天,我們將深入探討德州儀器(TI)的THS8136,一款專為圖形
    的頭像 發表于 12-25 14:10 ?271次閱讀

    工業制造顛覆性挑戰

    關于工業制造顛覆性挑戰及可能的戰略選擇。1.AI領域:生成式AI估值修正,泡沫不會全面破裂,工業AI需依托專業數據、流程與基礎設施,行業將迎來炒作退潮、價值回歸與應
    的頭像 發表于 12-17 22:09 ?423次閱讀
    工業制造<b class='flag-5'>顛覆性</b>挑戰

    恭賀!同星智能TSMaster項目榮獲2025全國顛覆性技術創新大賽優勝獎

    ,再次獲得的又重要榮譽。2025全國顛覆性技術創新大賽是由京津冀國家技術創新中心主辦,上海顛覆性技術創新中心、廣州顛覆性技術創新中心、黃埔創新學院承辦的全國
    的頭像 發表于 11-07 20:05 ?570次閱讀
    恭賀!同星智能TSMaster項目榮獲2025全國<b class='flag-5'>顛覆性</b>技術創新大賽優勝獎

    華秋四層板直降10%!以極致性價比賦能每一款產品

    讓高可靠的四層板,成為您的標準選擇!在成本與品質間尋找完美平衡,是每位電子工程師與采購的核心挑戰。今天,華秋PCB正式推出「四層板爆專項」,以顛覆性的¥400/㎡的價格,打破四層板
    的頭像 發表于 10-22 07:34 ?721次閱讀
    華秋四層板直降10%!以極致性價比賦能每<b class='flag-5'>一款</b>產品

    工業設備遠程監控的“顛覆性突破”:邊緣計算網關讓千里之外如在眼前

    工業設備遠程監控的“顛覆性突破”:邊緣計算網關讓千里之外如在眼前 隨著工業領域對智能化、數字化管理需求的不斷攀升,工業設備遠程監控成為提升生產效率、降低運維成本的重要手段,藍蜂網關憑借專業技術與豐富
    的頭像 發表于 08-05 15:37 ?599次閱讀

    研華科技攜手創新奇智推出多模態大模型AI體機

    這是一款基于研華高性能邊緣計算平臺MIC-733,深度集成創新奇智視覺小模型與多模態大模型的邊緣智能終端,通過創新的“視覺識別 + 深度語義理解”融合分析路徑,具備強大的本地視頻智能分
    的頭像 發表于 07-17 17:14 ?946次閱讀
    研華科技攜手創新奇智<b class='flag-5'>推出</b>多模態大<b class='flag-5'>模型</b>AI<b class='flag-5'>一</b>體機

    模型在半導體行業的應用可行分析

    的應用,比如使用機器學習分析數據,提升良率。 這些大模型是否真的有幫助 能夠在解決工程師的知識斷層問題 本人純小白,不知道如何涉足這方面 應該問什么大模型比較好,或者是看什么視頻能夠
    發表于 06-24 15:10

    4K、多模態、長視頻:AI視頻生成的下個戰場,誰在領跑?

    電子發燒友網報道(文/李彎彎) 6月11日,豆包App上線視頻生成模型豆包Seedance 1.0 pro。這是字節跳動最新視頻
    的頭像 發表于 06-16 00:13 ?7277次閱讀

    科而美正式推出新一代RDM線條燈

    在照明技術快速迭代的今天,科而美正式推出新一代RDM線條燈,以顛覆性的技術突破重新定義行業標準!
    的頭像 發表于 06-11 15:41 ?1302次閱讀

    邊緣計算如何顛覆人工智能變革

    2025年以來,DeepSeek發布的大模型熱度居高不下,再次點燃了全球對人工智能的無限熱情。深度學習模型以指數級速度膨脹,性能不斷突破極限,成本效益也在向著更低的趨勢發展,這為各行各業帶來了顛覆性
    的頭像 發表于 05-30 09:29 ?1033次閱讀

    AlphaEvolve:一款基于Gemini的編程Agent,用于設計高級算法

    構思創新理念。如今,Google 進步擴展這些能力,將其應用于解決數學基礎領域和現代計算中高度復雜的難題。 AlphaEvolve 是一款由大語言模型驅動的進化式編程代理,致力于通用算法的發現與優化。該平臺將 Gemini
    的頭像 發表于 05-19 11:19 ?1740次閱讀
    AlphaEvolve:<b class='flag-5'>一款</b>基于Gemini的編程Agent,用于設計高級算法

    賽思×火山引擎 | 高精度同步時鐘助力字節跳動華東地區首個算力中心落地

    賽思同步時鐘全方位賦能火山引擎長三角算力中心,助力字節跳動火山引擎打造“云上新宇宙”。
    的頭像 發表于 03-31 14:44 ?1114次閱讀
    賽思×火山引擎 | 高精度同步時鐘助力<b class='flag-5'>字節</b><b class='flag-5'>跳動</b>華東地區首個算力中心落地

    請問瑞芯微的soc芯片,有沒有尺寸小于10mm*10mm的? 找一款小尺寸的soc用于視頻處理

    請問瑞芯微的soc芯片,有沒有尺寸小于10mm*10mm的? 找一款小尺寸的soc用于視頻處理
    發表于 03-28 11:47

    賽思×字節跳動 高精度同步時鐘助力火山引擎打造“云上新宇宙”

    摘要: 賽思同步時鐘將對火山引擎長三角算力中心進行從基礎設施到業務引擎的全方位賦能,助力字節跳動旗下火山引擎打造“云上新宇宙”。 火山引擎長三角算力中心 — 蕪湖“東數西算”數據集群重點項目 火山云
    的頭像 發表于 03-28 09:11 ?876次閱讀
    賽思×<b class='flag-5'>字節</b><b class='flag-5'>跳動</b>  高精度同步時鐘助力火山引擎打造“云上新宇宙”

    新品發布|啟英泰倫聯合啟明云端推出離在線語音大模型方案

    當前,生成式大模型正以顛覆性姿態重塑人機交互的邊界,并逐漸向終端場景滲透。然而,云端大模型在落地終端場景時面臨兩大挑戰:1.在真實噪聲場景下容易聽不清、誤識別,影響交互準確;2.云端
    的頭像 發表于 03-11 14:07 ?1275次閱讀
    新品發布|啟英泰倫聯合啟明云端<b class='flag-5'>推出</b>離在線語音大<b class='flag-5'>模型</b>方案