谷歌研究院近日發布了一款名為Lumiere的文生視頻擴散模型,基于自家研發的Space-Time U-Net基礎架構,獨立生成具有高效、完整且動作連貫性的視頻效果。
該公司指出,當前眾多文生視頻模型普遍存在無法生成長時、高品質及動作連貫的問題。這些模型往往采用“分段生成視頻”策略,即先生成少量關鍵幀,再借助時間超級分辨率(TSM)技術生成其間的視頻文件。盡管此策略可減緩RAM負擔,但難以生成理想的連續視頻效果。
針對此問題,谷歌的Lumiere模型創新地引入了新型Space-Time U-Net基礎架構,這種架構能在空間和時間兩個維度同時降低信號采樣率,使其具備更高的計算效率,進而實現生成更具持續性、動作連貫的視頻效果。
此外,開發者們特別說明,Lumiere每次可生成80幀視頻(在16FPS模式下相當于5秒視頻,或在24FPS模式下為約3.34秒視頻)。盡管這一時光貌似短暫,然而他們強調,事實上,這段5秒視頻所包含的鏡頭時長已超出大多數媒體作品中單一鏡頭的平均時長。
除運用架構創新以外,作為AI構建基礎的預訓練文生圖像模型也得到了谷歌團隊的特別關注。該模型首次生成簡單像素草稿作為視頻分幀,然后借助空間超分辨率(SRM)模型,逐步提高分幀分辨率,同時引入通用生成框架Multi-Diffusion以增強模型穩定性,從而確保最終輸出的視頻效果一致且連續。
-
谷歌
+關注
關注
27文章
6254瀏覽量
111395 -
RAM
+關注
關注
8文章
1399瀏覽量
120568 -
AI
+關注
關注
91文章
39793瀏覽量
301408 -
模型
+關注
關注
1文章
3752瀏覽量
52111
發布評論請先 登錄
ZWS智慧儲能云平臺:讓多形式設備“一次上云,各顯其長”
谷歌正式推出Gemini 3 Flash模型
光伏一次調頻設備/一次調頻裝置|光伏一次調頻涉網試驗/光伏電站一次調頻建設改造方案
光伏一次調頻設備,光伏電站一次調頻建設改造方案
每年10億美元,蘋果與谷歌官宣合作,Gemini大模型注入Siri
解析一次消諧和二次消諧的差異與應用場景
HarmonyOSAI編程萬能卡片生成(一)
谷歌DeepMind重磅發布Genie 3,首次實現世界模型實時交互
一種基于擴散模型的視頻生成框架RoboTransfer
谷歌新一代生成式AI媒體模型登陸Vertex AI平臺
4K、多模態、長視頻:AI視頻生成的下一個戰場,誰在領跑?
一次消諧裝置與二次消諧裝置區別、一次消諧器與二次消諧器的區別
谷歌推出能一次生成完整視頻的擴散模型
評論