谷歌最新推出的VLOGGER AI技術(shù)引起了廣泛關(guān)注,這項(xiàng)創(chuàng)新的多模態(tài)模型能夠讓靜態(tài)肖像圖“活”起來并“說話”。用戶只需提供一張人物肖像照片和一段音頻內(nèi)容,VLOGGER AI就能讓圖片中的人物仿佛真的在朗讀這段音頻,面部表情豐富,栩栩如生。
VLOGGER AI作為一種專為虛擬肖像設(shè)計(jì)的多模態(tài)Diffusion模型,其強(qiáng)大能力得益于MENTOR數(shù)據(jù)庫的豐富資源。這個(gè)數(shù)據(jù)庫收錄了超過80萬名人物肖像,以及累計(jì)超過2200小時(shí)的影片,使得VLOGGER能夠生成各種種族、年齡、穿著和姿勢的肖像影片,極大增加了其適用性和實(shí)用性。
谷歌對(duì)VLOGGER AI寄予厚望,將其視為邁向“通用聊天機(jī)器人”的重要一步。未來,這種AI技術(shù)有望通過語音、手勢和眼神交流等方式,以更加自然和人性化的方式與人類進(jìn)行互動(dòng)。
這一技術(shù)的推出不僅展示了谷歌在人工智能領(lǐng)域的深厚實(shí)力,也為虛擬形象、影視制作等領(lǐng)域帶來了全新的可能性。未來,我們可以期待看到更多由VLOGGER AI生成的生動(dòng)、真實(shí)的虛擬人物形象,在娛樂、教育、廣告等多個(gè)領(lǐng)域大放異彩。
-
谷歌
+關(guān)注
關(guān)注
27文章
6254瀏覽量
111405 -
AI
+關(guān)注
關(guān)注
91文章
39793瀏覽量
301428 -
模型
+關(guān)注
關(guān)注
1文章
3752瀏覽量
52111
發(fā)布評(píng)論請(qǐng)先 登錄
格靈深瞳聯(lián)合氪信科技推出多模態(tài)AI金融安全一體機(jī)
涂鴉Omni AI Foundation V2.6發(fā)布:低代碼+多模態(tài),重塑AI硬件創(chuàng)新體驗(yàn)
集成端側(cè)AI的可穿戴多模態(tài)生理參數(shù)采集設(shè)備是腦機(jī)接口家用的未來?
【「AI芯片:科技探索與AGI愿景」閱讀體驗(yàn)】+AI芯片到AGI芯片
商湯科技多模態(tài)通用智能戰(zhàn)略思考
“端云+多模態(tài)”新范式:《移遠(yuǎn)通信AI大模型技術(shù)方案白皮書》正式發(fā)布
NVIDIA助力圖靈新訊美推出企業(yè)級(jí)多模態(tài)視覺大模型融合解決方案
愛芯通元NPU適配Qwen2.5-VL-3B視覺多模態(tài)大模型
海康威視發(fā)布多模態(tài)大模型AI融合巡檢超腦
安霸在ISC West上推出下一代前端多模態(tài)AI技術(shù)
移遠(yuǎn)通信智能模組全面接入多模態(tài)AI大模型,重塑智能交互新體驗(yàn)
移遠(yuǎn)通信智能模組全面接入多模態(tài)AI大模型,重塑智能交互新體驗(yàn)
谷歌推出多模態(tài)VLOGGER AI
評(píng)論