国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

商湯科技推出實時語音驅動數字人技術SekoTalk

商湯科技SenseTime ? 來源:商湯科技SenseTime ? 2025-12-17 13:52 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在數字人技術蓬勃發展的今天,生成效率仍是行業面臨的核心挑戰。商湯科技憑借在生成式AI 與多模態交互領域的深厚積累,推出了實時語音驅動數字人技術——SekoTalk。

通過多方面的創新技術,SekoTalk顯著提升了數字人視頻的生成效率,在8卡服務器上可以達到25 fps的生成速度,首幀延遲低至3.5s,在業內率先實現了實時生成。同時,SekoTalk還能支持多人、多語言的口型精準匹配,和超長時的穩定生成。這一技術突破了數字人發展的性能瓶頸,為數字人的大規模、實時應用打開更多可能。

SekoTalk今年8月上線,應用在商湯Seko、如影數字人等產品中,已助力用戶創作出數十萬部作品,并誕生了全網播放量超2000萬播放的爆款作品。

算法系統協同:

實現極致性價比突破

生成效率是數字人走向實用化的關鍵,而實時性又是生成效率的北極星。SekoTalk通過模型蒸餾,模型結構優化,以及模型與系統的協同設計,在保證生成質量的前提下,實現推理效率的跨越式提升。

與其它方案相比,SekoTalk展現出卓越的性價比優勢:開源模型生成一段5s視頻通常超過十分鐘,商用閉源模型生成5s的視頻通常也需1至10分鐘不等。相比之下,SekoTalk在8卡服務器上可以達到25 fps的生成速度,即便將SekoTalk與多模態模型相結合,整體系統的首幀延遲也可低至3.5s。

Phased DMD分布匹配蒸餾技術,無限逼近base模型效果:

以往的擴散模型蒸餾經驗發現,擴散模型低步數生成的質量受到等效模型容量的制約。而主流的SOTA視頻生成模型已經證明混合專家(MoE)技術在擴散模型領域的巨大潛力:不增加推理開銷的同時,增大等效模型容量,進而導致更強的性能表現。

然而,MoE技術在擴散模型蒸餾中的應用尚未得到探索。商湯科技團隊發現,簡單地將分布匹配蒸餾(DMD)應用到MoE模型中,會導致生成視頻的運動效果和指令遵循能力下降。

為了解決這一問題,研究團隊提出了Phased DMD技術,把去噪過程建模為多階段的MoE模型。Phased DMD不僅原生支持MoE模型,而且對于非MoE的教師模型,該技術也可以將之蒸餾為MoE學生模型。

這一技術顯著提升了蒸餾模型生成的動態效果和多樣性,使SekoTalk推理開銷在降低25倍的情況下,仍保持教師模型良好的肢體運動效果和情緒表現力。除了應用于SekoTalk,Phased DMD也對開源社區常用的基模型進行了蒸餾并貢獻回開源社區,相關優勢也得到開源社區的認可,進一步證明了Phased DMD的通用性和有效性。

LightX2V與模型協同設計,支持低資源部署:

LightX2V是商湯開源的行業首個能夠達到實時視頻生成的推理框架。在模型和系統設計之初,就讓它們融入低比特量化感知訓練、稀疏注意力等原生優化,配合自研“SPARSE+NVFP4+低比特通信”高效注意力算子,模型訓練完成后可直接低資源部署。

從測試數據來看,在不同GPU硬件環境下,LightX2V均能實現SekoTalk 的高效推理,為不同場景的落地提供靈活支撐。

23455646-d501-11f0-8c8f-92fbcf53809c.png

聲形同步:

多語言+多人場景口型精準匹配

傳統數字人技術在處理多語言、多人交互的復雜場景時,常出現口型與語音匹配不準的問題。SekoTalk通過一系列創新設計,實現了從單人口形到多人互動的高度精準的聲形同步。

多語言高效同步:在2D數字人生成領域,一些工作沿用了早期的wav2vec2系列的預訓練語音編碼器來驅動角色。商湯團隊根據在3D數字人語音驅動(UniTalker)中積累的算法經驗,發現語音編碼器的選擇對于數字人驅動效果有極大影響。

23a87e10-d501-11f0-8c8f-92fbcf53809c.png

為此,研究團隊探究了包含wav2vec2,hubert,wavlm,whisper等多種語音編碼器在2D數字人驅動中的性能表現,發現如果沿用wav2vec2系列的語音編碼器,即使是多語言預訓練的wav2vec2-large-xlsr-53,在英語口型驅動和多語言泛化性上的定量指標中也落后其他編碼器。

通過細致的消融實驗,SekoTalk使用了探究中表現最好的音頻編碼器,通過規模化的訓練,SekoTalk在中英文、多種小語種、日常講話、說唱等場景中上均取得了準確的驅動效果。

音視頻幀率解耦,杜絕細節丟失:主流視頻生成模型采用了“1+4N”時序壓縮機制,為實現與與視頻幀的嚴格同步,SekoTalk對音頻處理分支進行了精細優化。它創新地將視頻幀率(16-25fps)與語音特征幀率(50fps)解耦,避免了傳統下采樣放到帶來的口型細節丟失,使得音頻可以和任意幀率的視頻在時序上對齊,保證音頻與畫面的高質量同步。

可支持中文/法語/日語/葡萄牙語/韓語等多語種語音驅動

多人場景高度可控:借助良好的模型泛化能力和創新的掩碼注意力機制(Attention Mask),SekoTalk可在多人對話場景中,獨立、精準地控制每個角色的口型與動作,輸出自然流暢的群組互動效果,拓展了技術的適用場景和應用潛力。

高效能、低成本的語音模塊:類似文生視頻中常常借助文本條件的Classifier-Free Guidance(CFG)來提升視頻生成質量,在數字人生成領域中,以往工作也借助這一做法,使用語音條件的CFG來提升口型驅動的準確性,然而這相比于單獨文本條件生成視頻又多出了50%的計算開銷。另一方面,類似于文本條件的CFG通常伴隨著生成畫面過飽和的問題,語音條件的CFG在提升口型驅動準確性的同時,通常也帶來夸張不自然的人臉畫面。商湯團隊認為,通過更好的語音注入模塊的設計,可以更本質地解決這一問題。結合DiT的設計經驗,研究團隊在語音模塊中也引入了Adaptive Layer Normalization(AdaLN),并且使用可學習參數的注入方式代替了Linear Projection,在保持表現力的前提下降低了計算開銷。經過這些改進,SekoTalk模型無需借助語音條件的CFG,就可以達到準確的嘴形驅動。這一改進不僅降低了計算開銷,同時也避免了語音條件的CFG帶來的口型準確性和臉部畫面自然性之間的取舍。

超長時穩定生成:

告別畫面漂移與人物偏移

在生成長視頻時,畫面色彩漂移和人物ID不一致,一直是行業的重要挑戰。SekoTalk提出混合參考圖注入等方案,有效平衡動作多樣性與畫面穩定性。

24067a88-d501-11f0-8c8f-92fbcf53809c.png

混合參考圖注入策略,兼顧“段內穩定”與“段外泛化”:通過在訓練階段隨機選擇片段內、外的參考圖,并輔助標志位指示參考圖來源,使模型同時掌握了“段內穩定”與“段外泛化”兩種能力。在推理時靈活切換,有效兼顧了動作多樣性與畫面穩定性。

高低語義特征聯合注入,加快模型收斂速度:采用“高語義特征+低語義特征”的雙通道注入機制,利用不同層級的語義信息引導模型,這不僅加強了人物ID的一致性,還加速了模型的收斂。

分離式Patchify編碼,高保真條件注入:將加噪視頻、參考圖、前序幀等不同類型的特征交給獨立的Patchify分支處理,使模型注意力更容易區分并理解多源信息。這不僅增強了長視頻生成中的人物一致性,還提升了續寫的連續性與穩定性。

隱空間續寫優化效率,保障流暢續寫:在效率優化上,SekoTalk在時序維度上引入前序幀特征,通過直接取用上一生成片段末尾的隱空間特征,避免了傳統方案中“解碼-再編碼”的冗余流程,并結合層級化KV緩存與因果注意力機制,在確保續寫穩定性的同時,大幅提升了長視頻生成的推理效率。

SekoTalk的技術價值已在實踐中得到驗證。其在線體驗平臺作為首個支持2人以上對口型、生成2分鐘長視頻的免費技術體驗平臺,已生成大量作品,SekoTalk模型也集成進入Seko、如影數字人等產品中使用。此外,SekoTalk實時版在情感陪伴、在線教育、專業咨詢領域的實時交互案例,也展現了其推動數字人走向更自然、智能、實時的未來潛力。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 開源
    +關注

    關注

    3

    文章

    4203

    瀏覽量

    46125
  • 商湯科技
    +關注

    關注

    8

    文章

    609

    瀏覽量

    37553
  • 數字人
    +關注

    關注

    0

    文章

    159

    瀏覽量

    2570

原文標題:推理速度25fps,首幀延遲3.5s!商湯SekoTalk:讓實時語音數字人更近一步

文章出處:【微信號:SenseTime2017,微信公眾號:商湯科技SenseTime】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    商湯科技商量AI講解大腦系統驅動的智能機器亮相

    對陣雙方實力懸殊卻又勢均力敵:一方,是以邏輯縝密、反應迅捷著稱的前武漢大學辯論隊隊長;另一方,則是首次以辯手身份亮相、由商湯科技“商量AI 講解大腦”系統驅動的智能機器
    的頭像 發表于 02-09 15:02 ?426次閱讀

    中科曙光與商湯科技、大曉機器達成戰略合作

    12月18日,在首屆光合組織人工智能創新大會(HAIC2025)主論壇上,中科曙光與商湯科技、大曉機器正式達成戰略合作。
    的頭像 發表于 12-23 15:10 ?408次閱讀

    商湯科技日日新Seko系列模型與寒武紀成功適配

    12月15日,商湯科技基于在生成式AI與多模態交互領域的技術積累,正式發布Seko2.0——行業首個多劇集生成智能體。該智能體在多劇集視頻生成的一致性方面展現出顯著優勢,其背后依托的是商湯自研的日日新Seko系列模型,包括Sek
    的頭像 發表于 12-17 14:06 ?455次閱讀

    商湯科技聯合創始王曉剛擔任大曉機器董事長

    大曉機器將于12月18日正式亮相,重磅發布多項全球領先的技術與產品陣列,并將推出首個國內開源且實現商業應用的“開悟”世界模型3.0,與行業伙伴一同構建自主可控、開放共贏的產業體系。商湯
    的頭像 發表于 12-08 11:31 ?634次閱讀

    商湯科技牽頭發布我國虛擬數字領域首項國家標準

    商湯科技作為牽頭單位,主導完成了我國虛擬數字領域首項國家標準——《信息技術客服型虛擬數字通用
    的頭像 發表于 11-21 10:55 ?500次閱讀
    <b class='flag-5'>商湯</b>科技牽頭發布我國虛擬<b class='flag-5'>數字</b><b class='flag-5'>人</b>領域首項國家標準

    商湯如影圖片數字技術閃耀央視舞臺

    依托商湯日日新大模型的多模態能力,只需上傳一張人物照片,輸入文字腳本或音頻文件,AI 就能自動生成人物動態視頻,并支持多種語言,實現了與真人幾乎無差別的口型匹配、動作呼應和情緒表達。
    的頭像 發表于 09-22 16:18 ?950次閱讀

    語音機器交互系統:核心技術與應用挑戰

    ? ? ? 語音機器交互系統是融合多學科技術的復雜工程,其核心目標是實現與機器間的自然、流暢語音對話。該系統已廣泛應用于智能客服、智能家
    的頭像 發表于 09-02 11:08 ?825次閱讀

    明遠智睿SSD2351開發板:語音機器領域的變革力量

    接口則讓語音機器可以連接到互聯網,實時獲取最新的信息,增強其智能性和交互能力。 在實際應用場景中,以智能客服語音機器人為例。SSD2351開發板可以
    發表于 05-28 11:36

    OBOO鷗柏丨AI數字觸摸屏查詢觸控人臉識別語音交互一體機上市

    OBOO鷗柏丨AI數字觸摸屏查詢觸控人臉識別語音交互一體機上市分析OBOO鷗柏品牌推出的AI數字
    的頭像 發表于 05-21 20:22 ?1211次閱讀
    OBOO鷗柏丨AI<b class='flag-5'>數字</b><b class='flag-5'>人</b>觸摸屏查詢觸控人臉識別<b class='flag-5'>語音</b>交互一體機上市

    詳細介紹機場智能指路機器的工作原理

    免與行人發生碰撞,為旅客提供安全、舒適的引導服務。 智能交互系統 語音識別與理解 :智能指路機器利用先進的語音識別技術,將旅客輸入的語音
    發表于 05-10 18:26

    大象機器攜手進迭時空推出 RISC-V 全棧開源六軸機械臂產品

    全球80多個國家和地區。 近日,大象機器聯合進迭時空推出全球首款RISC-V全棧開源六軸機器臂“myCobot 280 RISC-V”,為開發者打造全新的機器開源創新平臺。 “myCobot 280
    發表于 04-25 17:59

    商湯科技助力如影數字超級直播間全新升級

    作為數字全行業首創,如影數字超級直播間可實現多模態智能運營,依托“商湯日日新SenseNova”多模態大模型,直播間具備智能選品、直播間
    的頭像 發表于 04-23 16:31 ?984次閱讀

    商湯科技與松應科技達成戰略合作

    商湯科技2025技術交流日上,商湯科技與松應科技完成戰略合作簽約。
    的頭像 發表于 04-16 17:47 ?1125次閱讀

    商湯科技與麒麟軟件推出全國產化辦公智能助手一體機解決方案

    在4月10日的商湯技術交流日上,商湯科技聯合麒麟軟件正式推出基于商湯日日新V6大模型和銀河麒麟智算操作系統的全國產化“辦公智能助手一體機解決
    的頭像 發表于 04-15 16:48 ?1066次閱讀

    越南副總理一行到訪商湯科技

    近日,越南副總理阮志勇率代表團一行到訪商湯。深圳商湯總經理李廷波主介紹、商湯科技首席人力資源官張春娟及商湯科技聯合創始、元蘿卜智能科技有限
    的頭像 發表于 03-24 10:01 ?1043次閱讀