欧美亚洲精品一区二区久久,在线国产一区二区三区,幻星辰精品一区二区

剛剛過去的十一黃金周，大家一定沒少刷到Sora2生成的視頻，山姆·奧特曼到處給人送祝福，看得觀眾忍俊不禁。不過，等普通人真想用Sora做段自己的視頻才發(fā)現(xiàn)，AI視頻還是沒有想象中一樣簡(jiǎn)單。

我們看到的AI長(zhǎng)視頻，一般是由多個(gè)幾秒長(zhǎng)的短視頻拼接而成的。也就是說，用戶要先把完整創(chuàng)意拆成幾個(gè)分鏡，每一段劇情分別準(zhǔn)備獨(dú)立的圖片和Prompt提示詞描述，每一次生成都得碰運(yùn)氣，后期拼接時(shí)還容易跳幀、風(fēng)格斷裂，感覺不滿意想調(diào)整，只能重寫Prompt、重新生成。

這種創(chuàng)作模式，也被稱為“抽卡”，就像手游里氪重金抽 SSR，花了時(shí)間、Token、算力和錢，還不一定拿到想要的結(jié)果，再加上海外平臺(tái)高昂的訂閱費(fèi)，到底誰在說AI視頻的制作門檻被Sora打下來了？

其實(shí)，AI視頻技術(shù)的大眾普及這一塊兒，國內(nèi)視頻平臺(tái)早就走在了前面。最近我們就注意到，百度9月25日發(fā)布的“蒸汽機(jī)”最新版本，有兩個(gè)非常重要的升級(jí)：一是長(zhǎng)視頻流式生成的產(chǎn)品體驗(yàn)，二是模型支持實(shí)時(shí)交互。

前者可以用一張圖、一段視頻生成長(zhǎng)視頻突破5s、10s限制，并支持邊做邊改，創(chuàng)作AI視頻不用再一次次“抽卡”賭運(yùn)氣，可以在預(yù)覽中實(shí)時(shí)調(diào)整；后者則拓展了AI視頻的邊界，比如直播數(shù)字人這類需要實(shí)時(shí)推理會(huì)話的長(zhǎng)視頻，類sora模型還無法做到。

可以發(fā)現(xiàn)，在AI大眾化這件事上，deepseek、百度蒸汽機(jī)這樣的國內(nèi)科技企業(yè)，是真的悶聲干大事。而這，也是中國AI的本色之一。或許比起sora，國內(nèi)視頻平臺(tái)正在終結(jié)AI視頻的抽卡魔咒，才是更值得大家關(guān)注的AI大事件。

手游圈有一句話，玄不救非，氪能改命。指的是想抽到一張滿意的角色，要么靠玄學(xué)碰運(yùn)氣，要么靠氪金砸錢。現(xiàn)階段的大多數(shù)AI視頻工具，就是這么工作的。

常規(guī)的AI長(zhǎng)視頻生成流程，采用首尾幀續(xù)寫技術(shù)，或者簡(jiǎn)單續(xù)寫能力，雖然一次生成的視頻時(shí)長(zhǎng)更長(zhǎng)了，但前后頻缺乏連貫性，調(diào)整前后邏輯、對(duì)齊音畫等，比傳統(tǒng)拍攝后期還累人；畫質(zhì)和細(xì)節(jié)也容易不穩(wěn)定，比如人物一活動(dòng)，肢體和空間的關(guān)系就不符合物理規(guī)律了。想要調(diào)整，就得重新上傳圖片和“抽卡”，把流程再來一遍，而且花錢不討好，反復(fù)抽卡、多次生成，需要消耗大量計(jì)算資源，最終成本都要由用戶買單。

對(duì)于創(chuàng)作者和普通人來說，這樣的AI長(zhǎng)視頻能力是無法實(shí)現(xiàn)創(chuàng)作自由的，大多嘗鮮之后就棄之不用了。

為什么AI無法一次生成高質(zhì)量的長(zhǎng)視頻，而被迫陷入抽卡魔咒呢？行業(yè)普遍陷入了技術(shù)瓶頸：

瓶頸一，模型記不住，也就是長(zhǎng)時(shí)序連貫性建模難題。

傳統(tǒng)的擴(kuò)散模型，是一種固定窗口的生成模式，對(duì)長(zhǎng)視頻生成非常不友好，一方面窗口大小和生成成本是指數(shù)級(jí)關(guān)系，另外一方面通過簡(jiǎn)單反復(fù)續(xù)寫，會(huì)存在較為嚴(yán)重的全局一致性和連續(xù)性問題。生成時(shí)長(zhǎng)超過10秒，幀間累積誤差就會(huì)指數(shù)級(jí)增長(zhǎng)，就像一個(gè)記性不好的人，做事做到第十秒，基本把前面干過什么忘光了，所以長(zhǎng)視頻越做越亂，前后內(nèi)容不一致。

有的平臺(tái)為了緩解這個(gè)問題，支持用戶手動(dòng)上傳關(guān)鍵幀，這就意味著，30秒視頻得傳6組，操作復(fù)雜度直接翻了好幾倍，而且鏡頭切換可能不自然，并沒能發(fā)揮出AIGC提質(zhì)增效的效果。

瓶頸二，模型聽不懂、算不快，也就是實(shí)時(shí)交互受限。

在互動(dòng)視頻、直播等場(chǎng)景中，對(duì)視頻的持續(xù)時(shí)長(zhǎng)與實(shí)時(shí)生成能力提出了更高要求。但傳統(tǒng)視頻生成，只能靠抽卡和調(diào)整提示詞，來不斷試錯(cuò)，用戶無法在生成過程中就進(jìn)行修改和微調(diào)，是因?yàn)門ransformer架構(gòu)的二次計(jì)算復(fù)雜度很高，在生成長(zhǎng)視頻時(shí)要實(shí)時(shí)互動(dòng)，一是對(duì)GPU顯存與計(jì)算效率提出更高要求，需要軟硬件協(xié)同優(yōu)化來提升推理效率。還有成本考量，計(jì)算開銷隨生成時(shí)長(zhǎng)呈平方級(jí)增長(zhǎng)，為了控制成本，模廠只能限制時(shí)長(zhǎng)，還必須等全部算完才能輸出結(jié)果。

上述技術(shù)瓶頸，導(dǎo)致AI長(zhǎng)視頻不連貫、改不了、成本高，因此，目前這類短視頻生成技術(shù)主要應(yīng)用于工具層面，如視頻片段與素材制作，這顯然無法滿足C段和B端的復(fù)雜創(chuàng)作需求。

百度“蒸汽機(jī)”10.15版本的核心突破，就是把長(zhǎng)視頻變成流式生成、實(shí)時(shí)交互，整個(gè)過程中，用戶可以邊瀏覽邊生成，支持在幀數(shù)間改寫、續(xù)寫，隨時(shí)打斷并修改提示詞，就能實(shí)時(shí)生成想要的畫面，從而打破了傳統(tǒng)視頻生成的“抽卡”魔咒。

面對(duì)行業(yè)普遍的10秒局限，以及用戶反復(fù)抽卡的無力，百度蒸汽機(jī)靠四大技術(shù)突破，從根源上破解了長(zhǎng)視頻生成的效率、質(zhì)量與成本難題，終結(jié)“抽卡”模式。

突破一：基礎(chǔ)架構(gòu)改造，解決長(zhǎng)視頻生成難題，一張圖一段文字極簡(jiǎn)生成。

傳統(tǒng)模型生成超10秒視頻就會(huì)片段斷裂，還得補(bǔ)關(guān)鍵幀。百度蒸汽機(jī)引入自回歸擴(kuò)散模型，搭建流式滑窗架構(gòu)，通過階梯獨(dú)立噪聲構(gòu)造，為每一幀匹配精準(zhǔn)噪聲級(jí)別，配合動(dòng)態(tài)緩沖區(qū)管理，同步處理模糊草圖、半完成幀及高精度畫面等多狀態(tài)畫面，實(shí)現(xiàn)“邊生成邊調(diào)整”的實(shí)時(shí)交互生成流程。

我們上傳了一張騎在黑龍背上的視頻，自動(dòng)生成12秒視頻，全程無需補(bǔ)充任何素材，而且生成過程中，還可以隨時(shí)選擇繼續(xù)生成或修改提示詞。

突破二：訓(xùn)推偏差消除，解決累積誤差，告別 “越生越崩” 的質(zhì)量衰減。

AI生成的視頻前5秒正常，后面人物空間關(guān)系就扭曲變形了，這種情況經(jīng)常出現(xiàn)，本質(zhì)是傳統(tǒng)滑窗方法的誤差累積問題，導(dǎo)致生成的視頻質(zhì)量嚴(yán)重下降。

但我們用百度蒸汽機(jī)生成了一個(gè)長(zhǎng)鏡頭的雙人互動(dòng)，在長(zhǎng)達(dá)20秒的時(shí)間里，兩個(gè)人物都保持了一致性，即使是在近景互動(dòng)時(shí)也符合物理邏輯。

原來，百度蒸汽機(jī)通過歷史幀擾動(dòng)增強(qiáng)技術(shù)，在訓(xùn)練時(shí)故意加入幀誤差，讓模型具備自我糾錯(cuò)能力，變得更加魯棒，緩解自回歸模型的累積誤差問題。

突破三，一致性優(yōu)化，讓長(zhǎng)視頻像接力賽一樣絲滑。

行業(yè)普遍采用的片段拼接技術(shù)，經(jīng)常出現(xiàn)走路跳步、音畫脫節(jié)等情況，比如人物說話時(shí)唇形與聲音對(duì)不上。百度蒸汽機(jī)采用全局規(guī)劃與局部參考相結(jié)合的優(yōu)化方法，解決長(zhǎng)視頻連續(xù)性與一致性問題。其中，引入錨點(diǎn)幀引導(dǎo)，保障全局記憶，引入了key frame建立全局注意力錨點(diǎn)，保證模型的長(zhǎng)期記憶能力，引入歷史參考幀，作為上下文信息，使得模型具備短期記憶能力，保障連續(xù)生成。前后過渡像傳遞接力棒一樣流暢自然，多人對(duì)話等場(chǎng)景的AI視頻一次生成質(zhì)量更高。

突破四：實(shí)時(shí)流式計(jì)算，實(shí)現(xiàn)邊生成邊修改的創(chuàng)作自由。

以前生成3分鐘視頻得等40分鐘，而且生成后無法修改，一點(diǎn)就得重算。百度蒸汽機(jī)基于自回歸擴(kuò)散架構(gòu)，突破高壓縮比生成技術(shù)，大幅提升擴(kuò)散模型流式推理性能，保障效果和效率的極致平衡，滿足實(shí)時(shí)交互的推理需求。

比如我們用V2V模式，上傳一段賽車視頻，百度蒸汽機(jī)能夠在幾分鐘之內(nèi)，就將視頻拓展到10秒以上。如果想改寫結(jié)局，可以選擇續(xù)改，選中關(guān)鍵階段的幀，直接輸入其他結(jié)果的提示詞，比如“銀車加速超過黃車”或“黃車加速超過銀車”，就能生成新的結(jié)局，輕松搞定不同劇情。

也就是說長(zhǎng)視頻生成過程從黑箱變成了流式體驗(yàn)，模型推理出多少，用戶就能實(shí)時(shí)預(yù)覽多少，不需要等待全部生成完成。而且百度蒸汽機(jī)升級(jí)了窗口注意力機(jī)制，將計(jì)算復(fù)雜度降為線性，結(jié)合模型蒸餾技術(shù)，大幅提升計(jì)算效率，降低推理耗時(shí)，所以整個(gè)生成過程僅用時(shí)幾分鐘。整個(gè)制作過程既可控，又省力。

百度蒸汽機(jī)的四大突破，用技術(shù)把AI視頻的創(chuàng)作模式，從靠運(yùn)氣抽卡變成了按需創(chuàng)作。這會(huì)推動(dòng)行業(yè)發(fā)生至少兩個(gè)變化：

一是創(chuàng)作門檻進(jìn)一步降低。由于AI長(zhǎng)視頻的生成質(zhì)量和效率得到提高，不再需要用戶上傳多張圖和prompt，不再需要費(fèi)心描述和準(zhǔn)備關(guān)鍵幀，一次生成高可用，長(zhǎng)視頻生成真的走向了人人可用的簡(jiǎn)單時(shí)代。

二是應(yīng)用場(chǎng)景進(jìn)一步延伸。傳統(tǒng)長(zhǎng)視頻生成技術(shù)，難以承載復(fù)雜的創(chuàng)作需求，無法滿足數(shù)字人這類實(shí)時(shí)交互長(zhǎng)視頻的需求。百度蒸汽機(jī)全新的技術(shù)架構(gòu)實(shí)現(xiàn)長(zhǎng)視頻流式生成體驗(yàn)，支持實(shí)時(shí)互動(dòng)，可以拓展出AI導(dǎo)購、AI老師、AI陪伴等沉浸式數(shù)字人場(chǎng)景。支持開放世界的生成，比如游戲地圖、旅游景點(diǎn)體驗(yàn)、宇宙空間等，都可以任意創(chuàng)造，比如家長(zhǎng)可以用一張長(zhǎng)城或宇宙的圖片，為孩子生成虛擬長(zhǎng)城或虛擬宇宙，為教育、旅游、游戲打開新可能。

某個(gè)噱頭或爆款玩法，或許能在短時(shí)間內(nèi)帶火AI視頻的關(guān)注度，但一時(shí)熱度終會(huì)在門檻暴露后退潮。唯有扎扎實(shí)實(shí)的底層技術(shù)突破，才能為AI視頻生成的大眾化普及鋪平道路，真正降低使用門檻、拓展使用邊界，承接住不斷涌入的創(chuàng)作者和新用戶。

Sora2的科幻短片刷爆社交平臺(tái)時(shí)，不少人又開始感慨，“AI視頻創(chuàng)作的天花板在海外”。但真實(shí)體驗(yàn)過的創(chuàng)作者恐怕都會(huì)認(rèn)同，這些海外AI視頻創(chuàng)作與普通人仍有距離。百度蒸汽機(jī)為代表的國內(nèi)視頻平臺(tái)，更加普通人友好。

一方面，國內(nèi)平臺(tái)更早跳出了炫技式研發(fā)，不像sora這樣“憋個(gè)大招”，以更快的技術(shù)迭代速度，貼實(shí)用戶需求。

拿百度蒸汽機(jī)來說，迭代速度堪稱行業(yè)標(biāo)桿，可以說是“月月有突破”。今年3月首發(fā)即實(shí)現(xiàn)高精度圖生視頻，5月登頂VBench-I2V權(quán)威榜單，畫質(zhì)達(dá)專業(yè)影視級(jí)；7月推出全球首個(gè)中文音視頻一體化模型，8月實(shí)現(xiàn)多人對(duì)話生成，9月發(fā)布“通用AI長(zhǎng)視頻生成”功能……

這種應(yīng)用驅(qū)動(dòng)研發(fā)的路徑，背后是搜索、百家號(hào)等場(chǎng)景的真實(shí)需求直接反推模型升級(jí)，讓百度蒸汽機(jī)的技術(shù)突破始終貼合用戶痛點(diǎn)，解決普通人的使用難題。

此外，AI視頻生成的大規(guī)模、產(chǎn)業(yè)級(jí)應(yīng)用，國內(nèi)視頻平臺(tái)也別有優(yōu)勢(shì)。

相比不懂中文語境的Sora、sunway等，百度蒸汽機(jī)等國內(nèi)模型憑借億級(jí)中文多模態(tài)數(shù)據(jù)訓(xùn)練，不僅中文唇形和語音能精準(zhǔn)同步，還能生成方言，讓創(chuàng)作者的內(nèi)容更容易打開中文市場(chǎng)。

國內(nèi)平臺(tái)也更懂產(chǎn)業(yè)落地AI的成本難題，比如百度蒸汽機(jī)堅(jiān)持技術(shù)普惠，依托百度智能云“百舸”平臺(tái)與昆侖芯片，結(jié)合模型參數(shù)壓縮、算力動(dòng)態(tài)調(diào)度等技術(shù)，將推理效率提升3倍，刊例價(jià)較同類產(chǎn)品低至七成，并采用“按量后付+資源包”靈活計(jì)費(fèi)模式，不讓用戶白花冤枉錢。相較海外平臺(tái)的服務(wù)費(fèi)與訂閱費(fèi)，大幅降低了產(chǎn)業(yè)級(jí)使用成本，也為AI視頻生成的規(guī)模落地拆除了門檻。

從抽卡試錯(cuò)到按需創(chuàng)作，百度蒸汽機(jī)的技術(shù)突破不僅改變了AI視頻的創(chuàng)作邏輯，更展示了與海外平臺(tái)不同的技術(shù)產(chǎn)業(yè)化、技術(shù)普惠化之路。

正如大語言模型、對(duì)話式AI的普及歷程一樣，AI長(zhǎng)視頻的全民時(shí)代，將由國內(nèi)平臺(tái)開啟。

審核編輯黃宇

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

AI

AI

+關(guān)注

關(guān)注
89

文章
37814

瀏覽量
294915
Sora

Sora

+關(guān)注

關(guān)注
0

文章
86

瀏覽量
743

搜索歷史

別只盯著Sora，中國AI視頻的實(shí)時(shí)交互已悄悄領(lǐng)先

評(píng)論