国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

基于視頻語言模型LiteVL的無參的特征池化方法

CVer ? 來源:CVer ? 作者:CVer ? 2022-12-05 10:54 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

沿著從大規模圖文多模態預訓練遷移適配到視頻多模態任務的思路,我們提出了模型LiteVL,它利用圖文預訓練模型BLIP來初始化參數,可以直接在下游任務上微調而不需要進行額外的昂貴的視頻文本預訓練。并且為了增強圖像語言模型中缺乏的時間建模,我們提出在BLIP的Image encoder中增加具有動態時間縮放(dynamic temporal scaling)的時間注意力模塊。除了模型方面的這一適配之外,我們還提出了一種非參數池化text-dependent pooling,以自適應地重新加權以文本為條件的細粒度視頻嵌入。我們選取了兩個具有代表性的下游任務,即文本-視頻檢索和視頻問答,來驗證所提出方法的有效性。實驗結果表明,所提出的LiteVL在沒有任何視頻文本預訓練的情況下,甚至明顯優于以前的視頻文本預訓練模型。

1. Motivation

近期許多Video-language modeling的工作往往基于大規模video-text數據集 (WebVid2M,CC-3M,HowTo100M) 上進行預訓練,然后在下游任務的數據集上微調,而預訓練的成本往往十分昂貴。另一方面,學習細粒度的visual-language對齊往往需要利用離線的目標檢測器 (e.g., ActBERT) 來捕捉物體信息,但卻受限于檢測器有限的類別數量 (e.g., 在MSCOCO數據集上訓練的目標檢測器只能檢測出不到100個類別) 和昂貴的計算開銷。而且沒有充分利用來自文本數據的監督信息。此外,以往的稀疏幀采樣的video-text模型是利用image encoder在大規模圖文對上預訓練的,它忽略了視頻理解所需要的時序信息建模 (e.g., CLIPBERT)。最近,在單一視頻模態領域的研究上,基于預訓練的圖像編碼器ViT初始化而來的TimeSformer在許多下游的視頻任務上性能表現很好,它相比ViT僅僅插入了額外的一層用ViT的注意力層初始化來的時間注意力層。

2. Solution

我們提出了一種簡單且高效的視頻語言模型LiteVL,它是從近期的預訓練圖像語言模型BLIP初始化而來的,并且分別從模型層面和特征層面做了時域信息增強。

對于模型層面,我們提出用一組具有可學習scaling factor的時間注意層明確插入原始image backbone中,可以針對每個下游任務進行訓練調整(Dynamic Temporal Scaling):

7a92c294-73ed-11ed-8abf-dac502259ad0.png

對于特征層面,我們設計了一種無參的特征池化方法(Text-dependent Pooling),以學習基于文本描述的細粒度時間-空間視頻特征:

7aac5b3c-73ed-11ed-8abf-dac502259ad0.png

7ad75e68-73ed-11ed-8abf-dac502259ad0.png

模型框架和動態時序scaling

7b176832-73ed-11ed-8abf-dac502259ad0.png

Text-dependent Pooling

3. Experiments

在三個視頻文本檢索數據集上和BLIP的性能比較:

7b3ad5ba-73ed-11ed-8abf-dac502259ad0.png

我們提出的LiteVL由于在模型和特征方面的顯式時間建模,最終性能優于原始BLIP。

關于Dynamic Temporal Scaling和Text-dependent Pooling的消融實驗

7b5bba5a-73ed-11ed-8abf-dac502259ad0.png

通過提出的輕巧的動態時間縮放自適應地根據每個特定任務調整框架級別的重要性,使性能得到進一步提高。此外,與僅使用原始特征相比,使用其他空間或時間池化后的特征會更好。

逐層的平均temporal scaling可視化分析

7b8012a6-73ed-11ed-8abf-dac502259ad0.png

折線圖的變化趨勢顯示了video encoder的淺層更多地集中在理解每個幀的空間內容上,并更少注意不同幀之間的時間依賴性。當層的深度增加時,每個幀的空間特征變得更加全局,并且該模型逐漸尋求學習它們之間的時間依賴性。

Grad-CAM可視化分析

7b9bef08-73ed-11ed-8abf-dac502259ad0.png

上圖展示了Grad-CAM可視化,提出的LiteVL有效地捕捉了不同幀之間的細微差異。這也表明我們提出的text-dependent pooling為video-grounded text encoder提供了豐富的信息。

4. Conslusion

我們提出了LiteVL,這是一種視頻語言模型,它無需大量的視頻語言預訓練或目標檢測器。LiteVL從預先訓練的圖像語言模型BLIP中繼承了空間視覺信息和文本信息之間已經學習的對齊。然后,我們提出了具有動態時間縮放的額外時間注意力塊,以學習視頻幀中的時間動態。我們還引入了一種無參的text-denpendent pooling,該方法基于文本描述來對不同幀或者空間位置進行加權,從而實現了細粒度的視頻語言對齊。實驗結果表明,我們的LiteVL優于利用了視頻文本預訓練的最先進方法。

審核編輯:郭婷

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 檢測器
    +關注

    關注

    1

    文章

    931

    瀏覽量

    49933
  • 數據集
    +關注

    關注

    4

    文章

    1236

    瀏覽量

    26190

原文標題:EMNLP 2022 | LiteVL:具有增強時空建模的高效視頻-語言學習

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    華為榮獲算力服務商互聯能力成熟度模型編證書

    在2025算力互聯網大會期間,算力互聯網服務論壇在成都成功舉辦。論壇現場舉行了《算力服務商互聯能力成熟度模型編證書頒發儀式,華為憑借在算力互聯領域深厚的技術積累與豐富實踐經驗,作為核心編單位獲頒證書,充分彰顯其在行業標準制
    的頭像 發表于 12-31 11:50 ?651次閱讀

    C語言內存使用

    C語言的內存管理,從來都是一個讓人頭禿的問題。要想更自由地管理內存,就必須去堆中申請,然后還需要考慮何時釋放,萬一釋放不當,或者沒有及時釋放,造成的后果都是難以估量的。 當然如果就這些,那倒也還不
    發表于 12-11 07:57

    CNN卷積神經網絡設計原理及在MCU200T上仿真測試

    CNN算法簡介 我們硬件加速器的模型為Lenet-5的變型,網絡粗略分共有7層,細分共有13層。包括卷積,最大層,激活層,扁平層,全連接層。下面是各層作用介紹: 卷積層:提取特征
    發表于 10-29 07:49

    數據全復用高性能層設計思路分享

    大家好,本團隊此次分享的內容為可實現數據全復用高性能層設計思路,核心部分主要由以下3個部分組成; 1.SRAM讀取模塊;——使用的存儲為SRAM 基于SRAM讀與寫時序,約束
    發表于 10-29 07:10

    在Ubuntu20.04系統中訓練神經網絡模型的一些經驗

    , batch_size=512, epochs=20)總結 這個核心算法中的卷積神經網絡結構和訓練過程,是用來對MNIST手寫數字圖像進行分類的。模型將圖像作為輸入,通過卷積和層提取圖像的
    發表于 10-22 07:03

    MSCMG刷直流電機改進的I_f位置起動方法

    針對磁懸浮控制力矩陀螺刷直流電機電阻、電感值極小的特點和已有的位置傳感器 I/f 起動算法加速階段換相精度不高且算法復雜的問題,通過分析電磁轉矩和換相時刻的關系,提出了一種改進的 I/f起動方法
    發表于 08-06 14:27

    MSCMG刷直流電機改進的I_f位置起動方法

    方法。該方法在電磁轉矩恒定的情況下,結合電機模型,精確計算出電機換相的具體時刻。為保證電磁轉矩恒定確保換相時刻的準確性,采用神經網絡法估計反電勢系數,并設計了基于三相繞組不對稱補償的改進的電流環。仿真
    發表于 07-23 13:19

    軸承異步電機轉子徑向位移白檢測

    訓練構建轉子位移預測模型,利用位移預測模型的泛能力,進行轉子位移估計。仿真結果表明,提出的位移估計方法能夠準確檢測轉子徑向位移信號,并且能實現電機
    發表于 07-14 17:45

    速度傳感器感應電機控制系統轉速辨識方法研究

    摘 要:速度傳感器感應電機控制技術已成為近年的研究熱點,轉逸估計是速度傳感器感應電機控制技術的核心問題。在此對速度傳感器感應電機轉速辦識技術進行了介紹,分析了幾種比較典型的轉速解識方法
    發表于 07-09 14:23

    刷直流電機模糊PI控制系統建模與仿真

    摘 要:從無刷直流電機(BIDCM)的工作原理和結構出發,在分析了 BLDCM數學模型的基礎上,采用模塊方法,在Matlab/Simulink 中建立了 BLDCM 轉速、電流雙閉環控制系統
    發表于 07-07 18:25

    刷直流電機調速系統轉矩脈動抑制方法研究

    摘 要:通過對刷直流電機開通期間的相電流和關斷期間的相電流分析,經過實際計算得到電磁轉矩的表達式,得到相應的電磁轉矩脈動曲線。基于電流預測方法通過將預測模型分為模型建立、反饋調整和性
    發表于 06-26 13:49

    模型自適應控制在永磁同步電機轉速中的仿真研究

    摘要:針對永磁同步電機非線性、時變不確定性及難以建立精確的數學模型等問題,不同于動態線性時變模型替代一般非線性系統,提出一種基于模糊過程和系統輸出誤差的模型控制器。基于反饋線性
    發表于 06-25 13:01

    改進電壓模型的異步電機速度傳感器矢量控制

    速度傳感器矢量控制技術能夠有效提高交流傳動系統的可靠性,降低系統成本。該技術的核心問題是準確獲取電機轉子轉速,并將其反饋到速度閉環控制環節。介紹一種采用改進模型參考自適應轉速估計方法的異步電機矢量
    發表于 05-28 15:43

    小白學大模型:從零實現 LLM語言模型

    在當今人工智能領域,大型語言模型(LLM)的開發已經成為一個熱門話題。這些模型通過學習大量的文本數據,能夠生成自然語言文本,完成各種復雜的任務,如寫作、翻譯、問答等。https
    的頭像 發表于 04-30 18:34 ?1305次閱讀
    小白學大<b class='flag-5'>模型</b>:從零實現 LLM<b class='flag-5'>語言</b><b class='flag-5'>模型</b>

    ?VLM(視覺語言模型)?詳細解析

    視覺語言模型(Visual Language Model, VLM)是一種結合視覺(圖像/視頻)和語言(文本)處理能力的多模態人工智能模型
    的頭像 發表于 03-17 15:32 ?8823次閱讀
    ?VLM(視覺<b class='flag-5'>語言</b><b class='flag-5'>模型</b>)?詳細解析