超碰97人人做久久青草,久久美女老师被强奸,动漫精品一区二区三区在线观看

在數字人技術蓬勃發展的今天，生成效率仍是行業面臨的核心挑戰。商湯科技憑借在生成式AI 與多模態交互領域的深厚積累，推出了實時語音驅動數字人技術——SekoTalk。

通過多方面的創新技術，SekoTalk顯著提升了數字人視頻的生成效率，在8卡服務器上可以達到25 fps的生成速度，首幀延遲低至3.5s，在業內率先實現了實時生成。同時，SekoTalk還能支持多人、多語言的口型精準匹配，和超長時的穩定生成。這一技術突破了數字人發展的性能瓶頸，為數字人的大規模、實時應用打開更多可能。

SekoTalk今年8月上線，應用在商湯Seko、如影數字人等產品中，已助力用戶創作出數十萬部作品，并誕生了全網播放量超2000萬播放的爆款作品。

算法系統協同：

實現極致性價比突破

生成效率是數字人走向實用化的關鍵，而實時性又是生成效率的北極星。SekoTalk通過模型蒸餾，模型結構優化，以及模型與系統的協同設計，在保證生成質量的前提下，實現推理效率的跨越式提升。

與其它方案相比，SekoTalk展現出卓越的性價比優勢：開源模型生成一段5s視頻通常超過十分鐘，商用閉源模型生成5s的視頻通常也需1至10分鐘不等。相比之下，SekoTalk在8卡服務器上可以達到25 fps的生成速度，即便將SekoTalk與多模態模型相結合，整體系統的首幀延遲也可低至3.5s。

Phased DMD分布匹配蒸餾技術，無限逼近base模型效果：

以往的擴散模型蒸餾經驗發現，擴散模型低步數生成的質量受到等效模型容量的制約。而主流的SOTA視頻生成模型已經證明混合專家(MoE)技術在擴散模型領域的巨大潛力：不增加推理開銷的同時，增大等效模型容量，進而導致更強的性能表現。

然而，MoE技術在擴散模型蒸餾中的應用尚未得到探索。商湯科技團隊發現，簡單地將分布匹配蒸餾(DMD)應用到MoE模型中，會導致生成視頻的運動效果和指令遵循能力下降。

為了解決這一問題，研究團隊提出了Phased DMD技術，把去噪過程建模為多階段的MoE模型。Phased DMD不僅原生支持MoE模型，而且對于非MoE的教師模型，該技術也可以將之蒸餾為MoE學生模型。

這一技術顯著提升了蒸餾模型生成的動態效果和多樣性，使SekoTalk推理開銷在降低25倍的情況下，仍保持教師模型良好的肢體運動效果和情緒表現力。除了應用于SekoTalk，Phased DMD也對開源社區常用的基模型進行了蒸餾并貢獻回開源社區，相關優勢也得到開源社區的認可，進一步證明了Phased DMD的通用性和有效性。

LightX2V與模型協同設計，支持低資源部署：

LightX2V是商湯開源的行業首個能夠達到實時視頻生成的推理框架。在模型和系統設計之初，就讓它們融入低比特量化感知訓練、稀疏注意力等原生優化，配合自研“SPARSE+NVFP4+低比特通信”高效注意力算子，模型訓練完成后可直接低資源部署。

從測試數據來看，在不同GPU硬件環境下，LightX2V均能實現SekoTalk 的高效推理，為不同場景的落地提供靈活支撐。

聲形同步：

多語言+多人場景口型精準匹配

傳統數字人技術在處理多語言、多人交互的復雜場景時，常出現口型與語音匹配不準的問題。SekoTalk通過一系列創新設計，實現了從單人口形到多人互動的高度精準的聲形同步。

多語言高效同步：在2D數字人生成領域，一些工作沿用了早期的wav2vec2系列的預訓練語音編碼器來驅動角色。商湯團隊根據在3D數字人語音驅動(UniTalker)中積累的算法經驗，發現語音編碼器的選擇對于數字人驅動效果有極大影響。

為此，研究團隊探究了包含wav2vec2,hubert,wavlm,whisper等多種語音編碼器在2D數字人驅動中的性能表現，發現如果沿用wav2vec2系列的語音編碼器，即使是多語言預訓練的wav2vec2-large-xlsr-53，在英語口型驅動和多語言泛化性上的定量指標中也落后其他編碼器。

通過細致的消融實驗，SekoTalk使用了探究中表現最好的音頻編碼器，通過規模化的訓練，SekoTalk在中英文、多種小語種、日常講話、說唱等場景中上均取得了準確的驅動效果。

音視頻幀率解耦，杜絕細節丟失：主流視頻生成模型采用了“1+4N”時序壓縮機制，為實現與與視頻幀的嚴格同步，SekoTalk對音頻處理分支進行了精細優化。它創新地將視頻幀率(16-25fps）與語音特征幀率(50fps）解耦，避免了傳統下采樣放到帶來的口型細節丟失，使得音頻可以和任意幀率的視頻在時序上對齊，保證音頻與畫面的高質量同步。

可支持中文/法語/日語/葡萄牙語/韓語等多語種語音驅動

多人場景高度可控：借助良好的模型泛化能力和創新的掩碼注意力機制(Attention Mask)，SekoTalk可在多人對話場景中，獨立、精準地控制每個角色的口型與動作，輸出自然流暢的群組互動效果，拓展了技術的適用場景和應用潛力。

高效能、低成本的語音模塊：類似文生視頻中常常借助文本條件的Classifier-Free Guidance(CFG)來提升視頻生成質量，在數字人生成領域中，以往工作也借助這一做法，使用語音條件的CFG來提升口型驅動的準確性，然而這相比于單獨文本條件生成視頻又多出了50%的計算開銷。另一方面，類似于文本條件的CFG通常伴隨著生成畫面過飽和的問題，語音條件的CFG在提升口型驅動準確性的同時，通常也帶來夸張不自然的人臉畫面。商湯團隊認為，通過更好的語音注入模塊的設計，可以更本質地解決這一問題。結合DiT的設計經驗，研究團隊在語音模塊中也引入了Adaptive Layer Normalization(AdaLN)，并且使用可學習參數的注入方式代替了Linear Projection，在保持表現力的前提下降低了計算開銷。經過這些改進，SekoTalk模型無需借助語音條件的CFG，就可以達到準確的嘴形驅動。這一改進不僅降低了計算開銷，同時也避免了語音條件的CFG帶來的口型準確性和臉部畫面自然性之間的取舍。

超長時穩定生成：

告別畫面漂移與人物偏移

在生成長視頻時，畫面色彩漂移和人物ID不一致，一直是行業的重要挑戰。SekoTalk提出混合參考圖注入等方案，有效平衡動作多樣性與畫面穩定性。

混合參考圖注入策略，兼顧“段內穩定”與“段外泛化”：通過在訓練階段隨機選擇片段內、外的參考圖，并輔助標志位指示參考圖來源，使模型同時掌握了“段內穩定”與“段外泛化”兩種能力。在推理時靈活切換，有效兼顧了動作多樣性與畫面穩定性。

高低語義特征聯合注入，加快模型收斂速度：采用“高語義特征+低語義特征”的雙通道注入機制，利用不同層級的語義信息引導模型，這不僅加強了人物ID的一致性，還加速了模型的收斂。

分離式Patchify編碼，高保真條件注入：將加噪視頻、參考圖、前序幀等不同類型的特征交給獨立的Patchify分支處理，使模型注意力更容易區分并理解多源信息。這不僅增強了長視頻生成中的人物一致性，還提升了續寫的連續性與穩定性。

隱空間續寫優化效率，保障流暢續寫：在效率優化上，SekoTalk在時序維度上引入前序幀特征，通過直接取用上一生成片段末尾的隱空間特征，避免了傳統方案中“解碼-再編碼”的冗余流程，并結合層級化KV緩存與因果注意力機制，在確保續寫穩定性的同時，大幅提升了長視頻生成的推理效率。

SekoTalk的技術價值已在實踐中得到驗證。其在線體驗平臺作為首個支持2人以上對口型、生成2分鐘長視頻的免費技術體驗平臺，已生成大量作品，SekoTalk模型也集成進入Seko、如影數字人等產品中使用。此外，SekoTalk實時版在情感陪伴、在線教育、專業咨詢領域的實時交互案例，也展現了其推動數字人走向更自然、智能、實時的未來潛力。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

開源

開源

+關注

關注
3

文章
4284

瀏覽量
46356
商湯科技

商湯科技

+關注

關注
8

文章
616

瀏覽量
37631
數字人

數字人

+關注

關注
0

文章
159

瀏覽量
2585

原文標題：推理速度25fps，首幀延遲3.5s！商湯SekoTalk：讓實時語音數字人更近一步

文章出處：【微信號：SenseTime2017，微信公眾號：商湯科技SenseTime】歡迎添加關注！文章轉載請注明出處。

伦伦影院久久影视,天天操天天干天天射,ririsao久久精品一区 ,一本大道香蕉大久在红桃,999久久久免费精品国产色夜,色悠悠久久综合88,亚洲国产精品久久无套麻豆,亚洲香蕉毛片久久网站,一本一道久久综合狠狠老

搜索歷史

商湯科技推出實時語音驅動數字人技術SekoTalk

評論