国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

上海AI lab提出VideoChat:可以與視頻對話啦

深度學習自然語言處理 ? 來源:夕小瑤科技說 ? 2023-05-15 09:31 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

視頻相比語言、圖像,是更復雜更高級的一類表征世界的模態,而視頻理解也同樣是相比自然語言處理與計算機視覺的常見工作更復雜的一類工作。在當下大模型的洪流中,自然而然的想法就是大規模語言模型(LLMs)可以基于語言訓練的強大理解推理能力,完成視頻理解的工作嗎?現在答案到來了,上海 AI Lab 提出了以 Chat 為中心的端到端的視頻理解系統 VideoChat,集成了視頻基礎模型與 LLMs,并且在如空間、時間推理,事件定位、因果推斷等多個方面都表現十分出色。

01aaedc8-f2b6-11ed-90ce-dac502259ad0.png

區別于現有多模態大模型針對視頻輸入的處理方法,即首先文本化視頻內容再接入大模型利用大模型自然語言理解的優勢,這篇論文從模型角度以可學習的方式集成了視頻和語言的基礎模型,通過構建視頻基礎模型與 LLMs 的接口,通過對接口進行訓練與學習從而完成視頻與語言的對齊。這樣一種方式可以有效的避免視覺信息、時空復雜性信息丟失的問題,第一次創立了一個高效、可學習的視頻理解系統,可以實現與 VideoChat 對視頻內容的有效交流。

論文題目:

VideoChat : Chat-Centric Video Understanding

論文鏈接:

https://arxiv.org/pdf/2305.06355.pdf

代碼地址:

https://github.com/OpenGVLab/Ask-Anything

如果要問大模型有什么樣的能力,那我們可能洋洋灑灑從理解推理到計算判斷都可以列舉許多,但是如果要問在不同場景下如何理解大模型的不同作用,那有可能就是一個頗為玄妙的“藝術”問題。在 VideoChat 中,論文作者將大模型理解為一個視頻任務的解碼器,即將視頻有關的描述或更進一步的嵌入理解為人類可理解的文本。這一過程可以被形式化的理解為:

這里 與 表示一個圖片或視頻的模型,通過將 I(圖像) 與 V(視頻)輸入到模型中,得到視頻或圖像的嵌入表示 E,而一個解碼的過程,就是:

其中 與 分別表示在第 t 輪中 LLM 的回答和在 t 輪前用戶提出的所有問題及答案, 即一個 LLM 模型。傳統上針對多模態大模型的解決方法,一般是一種將視頻信息文本化的方法,通過將視頻序列化為文本,構成 Video Description,再輸入到大模型之中,這種文本流可以很好的適應理解類的工作,但是卻對如時間、空間感知這類任務表現不佳,因為幾乎是必然的,將視頻信息文本化后很容易使得這類基礎信息出現丟失。而因此論文試圖完成一個端到端的一體化的方法,直接提取視頻的嵌入信息,如下圖對比所示:

01df4532-f2b6-11ed-90ce-dac502259ad0.png

通過整合這樣兩種視頻架構,即整合 VideoChat-Text 與 VideoChat-Embed 得到的 Video Context 輸入到大模型之中,以獲得更全面的視頻信息理解能力,如在上圖的任務中,用戶提問“他是在唱、跳和 Rap 嗎”,VideoChat 回復“不是,他是在打籃球(和跳舞)”

對于 VideoChat-Text 部分,論文作者詳細的解構了一個視頻包含的內容,比如動作、語音、對象及帶有位置注釋的對象等等,基于這些分析,VideoChat-Text 模塊綜合利用各種視頻與圖像模型獲得這些內容的表征,再使用 T5 整合模型輸出,得到文本化的視頻之中,使用如下圖所示的模板完成對 LLMs 的輸入:

0202b954-f2b6-11ed-90ce-dac502259ad0.png

而對于 VideoChat-Embed 則采用如下架構將視頻和大模型與可學習的 Video-Language Token Interface(VLTF)相結合,基于 BLIP-2 和 StableVicuna 來構建 VideoChat-Embed,具體而言,首先通過 GMHRA 輸入視頻,同時引入圖像數據進行聯合訓練并接入一個經過預訓練的 Q-Former,完成視頻的 Embedding。

0227a098-f2b6-11ed-90ce-dac502259ad0.png

整個訓練過程可以分為兩個階段,分別是對齊與微調。在對齊階段,作者引入了 25M 個視覺-文本對針對接口進行微調,整體的輸入提示如下:

023fe07c-f2b6-11ed-90ce-dac502259ad0.png

而在微調階段,論文自行構建并開源了包含 7k 個詳細的視頻描述與圖像描述以及 4k 個視頻對話,3k 個圖像描述,2k 個圖像對話,2k 個圖像推理的指令數據集對 VideoChat 完成微調。

025616f8-f2b6-11ed-90ce-dac502259ad0.png

對比 LLaVa、miniGPT-4 以及 mPLUG-owl,論文對 VideoChat 的多方面能力進行了定性研究。其中,在空間感知與分析中,VideoChat 可以識別日式服裝來推斷出相應的音樂,并且確定視頻中的人數。這即是證明了 VideoChat 識別捕獲視覺元素并給予視覺元素進行分析的能力。

02bb2cf0-f2b6-11ed-90ce-dac502259ad0.png

在時間感知與分析中,VideoChat 可以識別出視頻中做瑜伽的動作,甚至給出了它摔倒可能性的判斷并進行提醒了安全問題。

02d2de36-f2b6-11ed-90ce-dac502259ad0.png

在非正式推斷中,VideoChat 也可以解釋“為什么這個視頻是好笑的”這一問題,并且解釋的也符合我們對視頻好笑的一些抽象判斷,如不協調,突然性等等。

030494f8-f2b6-11ed-90ce-dac502259ad0.png

而對比最近的基于圖像的多模態對話系統,VideoChat 可以正確的識別場景,而其他系統則錯誤的將對話環境視為室內,這充分的體現了 Video-Chat 在空間感知方面非常強大的比較優勢。

032e5a04-f2b6-11ed-90ce-dac502259ad0.png

這樣一個開源的視頻理解框架可以為視頻理解這樣一個目前還沒有什么非常成熟的解決方案的問題鋪好道路,顯然,將視頻信息與文本信息對齊,大規模語音模型的優秀能力是可以允許他們理解視頻信息。而如果將大模型看作一個有推理、理解能力的黑盒,視頻理解的問題就變成了如何對視頻進行解碼以及與文本對齊的問題,這可以說是大模型為這一領域帶來的“提問方式”的改變。

但是針對我們期望的成熟的視頻理解器,這篇工作仍然具有局限性,比如 VideoChat 還是難以處理 1 分鐘以上的長視頻,當然這主要是來自于大模型上下文長度的限制,但是在有限的上下文長度中如何更好的壓縮視頻信息也成為一個復雜的問題,當視頻時長變長后,系統的響應時間也會對用戶體驗帶來負面影響。另外總的來說,這篇論文使用的數據集仍然不算大,因此使得 VideoChat 的推理能力仍然停留在簡單推理的層級上,還無法完成復雜一點的推理工作,總之,盡管 VideoChat 還不是一個盡善盡美的解決方案,但是已然可以為當下視頻理解系統增添重要一筆,讓我們期待基于它的更加成熟的工作吧!

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • Video
    +關注

    關注

    0

    文章

    197

    瀏覽量

    46539
  • 自然語言
    +關注

    關注

    1

    文章

    292

    瀏覽量

    13986

原文標題:上海AI lab提出VideoChat:可以與視頻對話啦

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    AI玩具:以多輪對話、情感陪伴等為賣點,多款方案優化角逐

    廠商入局。實際上,針對傳統玩具簡單地執行指令,生硬的聊天對話等,借助AI大模型的引入,AI玩具在多輪對話以及建立人物性格角色、情感陪伴等方面提升非常顯著。 涂鴉T5
    的頭像 發表于 04-28 00:12 ?6449次閱讀
    <b class='flag-5'>AI</b>玩具:以多輪<b class='flag-5'>對話</b>、情感陪伴等為賣點,多款方案優化角逐

    使用NORDIC AI的好處

    原始傳感器數據,可顯著降低功耗、延長電池壽命。[Edge AI 概述; Nordic Edge AI 技術頁] 降低云依賴與時延 直接在設備上做推理,很多決策可以“本地實時”完成,不必等云端響應
    發表于 01-31 23:16

    小新AI語音互動禮盒上線!正版IP原聲對話!啟明云端樂鑫代理

    “大家好,我是野原新之助!”這句熟悉的開場白,是否瞬間把你拉回放學后守著電視機的童年午后?那個調皮搗蛋卻又溫暖人心的小新,如今跨越次元,來到你的身邊。小新AI語音互動禮盒來了!官方正版授權,原聲錄制
    的頭像 發表于 01-06 18:03 ?491次閱讀
    小新<b class='flag-5'>AI</b>語音互動禮盒上線<b class='flag-5'>啦</b>!正版IP原聲<b class='flag-5'>對話</b>!啟明云端樂鑫代理

    AI教父Hinton對話云天勵飛陳寧

    ,圍繞算力效率、AI 向善與普惠未來展開了一場高密度對話。對話由硅谷著名計算機科學家、硅谷高創會大會主席吳軍博士主持。
    的頭像 發表于 12-03 14:04 ?693次閱讀

    拉夫勞倫攜手微軟推出對話AI應用購物助手Ask Ralph

    拉夫·勞倫攜手微軟,推出由Microsoft Azure OpenAl(國際版)驅動的對話AI應用購物助手“Ask Ralph”,旨在重塑數字購物體驗。該工具能理解用戶自然語言提問,提供高度個性化
    的頭像 發表于 10-13 15:45 ?672次閱讀

    對話|AI服務器電源對磁性元件提出的新需求

    編者按: 自ChatGPT、DeepSeek等大型AI模型應用爆發以來,市場對AI服務器的需求激增,其配套電源的發展前景已成為行業共識。目前,I服務器電源企業的出貨規模仍有限,AI服務器電源廠商差距
    的頭像 發表于 10-11 14:55 ?974次閱讀
    <b class='flag-5'>對話</b>|<b class='flag-5'>AI</b>服務器電源對磁性元件<b class='flag-5'>提出</b>的新需求

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+AI芯片的需求和挑戰

    AI的應用多種多樣。比如:DALL-E2、Midjourney、Stable Diffusion等,不僅包括對話功能,還包括生成圖像、視頻、語音和程序代碼等功能。 竟然連代碼都可以生成
    發表于 09-12 16:07

    AI視頻分析系統

    方案背景人工智能大時代背景下,視頻應用領域相關的行業應用方式已經發生了深刻的變化,各論安防監控還是各類垂直行業視頻應用,都需要AI視覺分析與識別技術助力,而且需求廣泛而迫切。在應用層面,以AI
    的頭像 發表于 08-06 14:39 ?929次閱讀
    <b class='flag-5'>AI</b><b class='flag-5'>視頻</b>分析系統

    NVIDIA Isaac Sim 4.5.0與lsaac Lab 2.0的安裝教程

    Isaac Sim 和 Isaac Lab 目前開放下載的版本是 Isaac Sim 4.5.0 以及 Isaac Lab 2.0,本篇文章將為大家帶來這兩個軟件的安裝教程。
    的頭像 發表于 06-19 15:00 ?2870次閱讀
    NVIDIA Isaac Sim 4.5.0與lsaac <b class='flag-5'>Lab</b> 2.0的安裝教程

    小智AI移植到ESP32P4-Fucntion-EV-Board實機演示

    最近參加論壇的五一活動,獲得一套小智AI的套件。當時正好在嘗試移植小智AI到ESP32P4-Fucntion-EV-Board上。最近完成了大部分功能的移植,以及可以對話了,話說屏幕大確實是有優勢,看著舒服,
    發表于 05-10 12:40

    正點原子 AI BOX0 智能伴侶,1.54寸高清屏+長效續航,語音暢聊,情景對話,知識科普,多色可選,隨身攜帶!

    品非它莫屬! 為什么選擇小智AI? 真人級交互體驗 ① AI情感對話:不止問答,更能陪你聊心事、講笑話,像朋友一樣懂你! ② 10+音色百變:溫柔御姐、萌趣童聲、磁性男神… 每天換一種聲音陪伴
    發表于 04-24 16:11

    芯資訊|WT2605C藍牙語音芯片:AI對話大模型賦能的智能交互新引擎

    引言:AI技術驅動智能交互新趨勢在萬物互聯的智能時代,用戶對產品的交互體驗提出了更高要求——從“被動響應”向“主動對話”升級。如何將AI大模型的強大語義理解與語音交互能力輕量化集成至硬
    的頭像 發表于 04-09 08:35 ?1177次閱讀
    芯資訊|WT2605C藍牙語音芯片:<b class='flag-5'>AI</b><b class='flag-5'>對話</b>大模型賦能的智能交互新引擎

    單次、多次對話與RTC對話AI交互模式,如何各顯神通?

    和RTC對話這三種常見的AI交互模式,各自在不同場景中發揮著關鍵作用,為我們帶來了不同的使用體驗。對話視頻三種AI交互模式單次
    的頭像 發表于 04-02 18:18 ?2313次閱讀
    單次、多次<b class='flag-5'>對話</b>與RTC<b class='flag-5'>對話</b><b class='flag-5'>AI</b>交互模式,如何各顯神通?

    能和Ai-M61模組對話了?手搓一個ChatGPT 語音助手

    起猛了, 安信可的Ai-M61模組能說話了! 超低延遲實時秒回 ,對話超絲滑的那種,先來看一段VCR: 小安派+ChatGPT語音實測:對話絲滑到忘記對面是AI_ 人工智能的應用日益廣
    的頭像 發表于 03-12 11:57 ?1.2w次閱讀
    能和<b class='flag-5'>Ai</b>-M61模組<b class='flag-5'>對話</b>了?手搓一個ChatGPT 語音助手

    科技云報到:從鸚鵡學舌到靈魂對話,AI的「人話革命」

    科技云報到:從鸚鵡學舌到靈魂對話,AI的「人話革命」
    的頭像 發表于 03-11 14:26 ?693次閱讀