国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

復旦&微軟提出?OmniVL:首個統一圖像、視頻、文本的基礎預訓練模型

CVer ? 來源:CVer ? 作者:CVer ? 2022-12-14 15:26 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

引言

基礎模型 (Foundation model) 指的是在大量數據上訓練出來的、可以適應一系列下游任務的模型[1],它被看作是邁向通用人工智能的重要一步。近些年來,隨著CLIP的橫空出世,視覺-文本預訓練 (Vision-Language Pretraining) 及其在各類任務的遷移學習成為了備受關注的研究方向,并被認為是建立視覺基礎模型的一個頗具前景的方向。

根據輸入數據和目標下游任務的不同,現有的VLP方法可以大致分為兩類:圖像-文本預訓練和視頻-文本預訓練。前者從圖像-文本對中學習視覺和語言表征的聯合分布,后者則從視頻-文本對中建立視頻幀和文本之間的語義關聯。然而,當前尚無工作探索將二者統一起來,這篇文章認為這主要因為現有的訓練方式無法發揮圖像-文本預訓練和視頻-文本預訓練之間的互補性,但單純地實現統一而在兩類下游任務上折損性能將是沒有意義的。盡管困難重重,對于基礎模型的追求使得這一問題依舊難以回避。

這促使這篇工作思考并最終提出了一個真正統一的視覺-語言基礎模型OmniVL以同時支持圖像-文本和視頻-文本的預訓練以及相應的下游任務,包括視覺任務(如圖像分類、視頻動作識別)、跨模態對齊任務(如圖像/視頻-文本檢索)以及多模態理解和生成任務(如圖像/視頻問答、字幕自動生成等)。OmniVL第一次探索出了圖像和視頻任務雙向互助的訓練范式,而不是以往的單一方向,即用圖像(圖像-語言)來幫助視頻(視頻-語言)。

方法

OmniVL實現了模態、功能和訓練數據三個維度的統一,本篇對方法的介紹也將圍繞著三個統一進行展開。

7fa457fa-7b7e-11ed-8abf-dac502259ad0.png

統一的模態.OmniVL采用了一個統一的基于Transformer的視覺編碼器來提取視覺表征,其中視頻與圖像輸入共享大部分網絡結構,對于視頻而言,OmniVL采用了3D patching embedding和時間注意力塊[4]。此外,OmniVL額外利用一個文本編碼器來提取語言表征。

統一的功能.OmniVL采用了編碼器-解碼器的結構,并具有兩個視覺引導的解碼器:跨模態對齊解碼器和文本生成解碼器,前者通過視覺-文本匹配(的二分類)損失進行監督以學習視覺和文本模態之間的對齊,后者則通過語言建模(的生成式回歸)損失進行監督以學習從視覺特征中生成文本的能力。這兩個解碼器與上述的兩個編碼器相互配合,賦予了OmniVL“理解“和“生成”的能力。

統一的數據.受到Florence[5]中使用的統一對比學習[6]的啟發,OmniVL統一了圖像-文本和圖像-標簽數據作為預訓練語料庫、并將其進一步擴展到視頻-文本和視頻-標簽數據上。這基于兩個方面的考慮:1)利用盡可能多的有監督(或無監督)的數據來豐富語料庫;2)人工標注的視覺-標簽數據(如ImageNet和Kinetics-400)可以幫助模型學習出更具辨別性的表征,這有助于分類相關的遷移學習任務,而從網絡爬取的視覺-語言數據 (如CC12M和WebVid) 涵蓋更廣泛的視覺概念,這有助于跨模態任務。這種簡單的擴展可以幫助OmniVL同時享有兩種優勢。

最后回到了上面提到的最重要的問題:如何實現圖像-文本和視頻-文本學習的相互促進。前文提到,現有工作往往只是單獨利用圖像-文本或者視頻-文本進行預訓練(如下圖2-3行),因此在另一類任務上的表現往往差強人意(多數情況被直接忽略)。尤其是如果只在視頻-文本上預訓練的話,受限于有限的數據規模、以及視頻數據本身的復雜性,在對應的視頻任務上表現也很糟糕。為了解決這一問題,一些工作如FiT[7]提出了將圖像看作單幀視頻、從而利用其和視頻數據進行聯合訓練(如下圖第4行),這一做法相較單純地利用視頻數據有顯著提升,但是直接從零學習圖像和視頻的表征以及跨模態的對齊顯然頗具挑戰性,這為網絡的學習和收斂增加了困難。Pretrain-then-finetuning是視覺領域一個常用的做法,它指的是首先在標準的圖像數據集上訓練骨干網絡如ResNet,然后將其在下游任務包括視頻動作識別上進行微調,這一方法在各類任務上都取得了顯著的成功。借鑒于此,一種簡單的做法是首先在圖像-文本上進行第一階段的預訓練、然后在視頻-文本上進行第二階段的預訓練(如下圖第5行)。這一做法是很有競爭力的一個baseline,但是在一方面在圖像任務上的性能有所下降、另一方面在視頻任務上的表現還不夠驚艷。

7fe9706a-7b7e-11ed-8abf-dac502259ad0.png

為了更加充分地利用圖像-文本和視頻-文本數據的互補性、進一步提升在不同下游任務上的表現,OmniVL提出了一個解藕的聯合訓練方式,即首先在圖像-文本上進行預訓練、然后結合視頻-文本進行聯合預訓練(如上圖第6行),這不僅可以防止對圖像表征的遺忘、甚至可以在二者對應的任務上繼續提高性能。這篇工作認為這是由于第一階段網絡可以專注在學習空間表征和其與文本模態的對齊上、第二階段則可以增益性地學習運動表征和跨模態的關系建模,這不僅使學習從空間維度到時間維度更加高效,而且還能使不同源的數據之間形成互補。

實驗

視覺任務

文章首先采用經典的圖像分類 (linear probing) 和視頻動作識別任務 (finetuning) 作為基準評估了視覺編碼器在視覺任務上的表現。

80165b84-7b7e-11ed-8abf-dac502259ad0.png

80549cbe-7b7e-11ed-8abf-dac502259ad0.png

遵從CLIP的實現,OmniVL凍結了視覺編碼器的參數并對新附加的線性層進行微調。在6個圖像分類數據集上,OmniVL相比于大多數baseline取得了一致更好的結果。與CLIP和FLAVA (70M) 相比,雖然使用明顯更少預訓練數據,OmniVL仍然取得了總體上有競爭力的結果。

對于視頻動作識別,文章在兩個規模較小的數據集UCF101和HMDB51上評估了linear probing的結果,并在兩個規模較大的數據集Kinetics-400和Something-something V2上評估了微調的結果,實驗表明OmniVL都顯著地超越了baseline。

跨模態對齊任務

接下來文章探究了OmniVL在圖像-文本檢索和文本到視頻檢索任務上的表現。值得一提的是,為了平衡推理效率和多模態信息的深度融合,OmniVL首先根據單模態編碼器得到視覺和文本embedding的相似度得分選擇Top-K(默認為K=128)候選者,然后利用跨模態對齊解碼器計算其成對的匹配得分對候選者重新排序,這種雙階段匹配的方式進一步體現了該架構的優越性。

807604e4-7b7e-11ed-8abf-dac502259ad0.png

80d0a3b8-7b7e-11ed-8abf-dac502259ad0.png

從上圖可以看出,無論是在圖像-文本檢索還是文本到視頻檢索上,OmniVL都在不同數據集上取得了目前最佳的性能。尤其是在文本到視頻檢索任務上,得益于所提出的解藕聯合預訓練方法,OmniVL顯著地超越了現有方法。

多模態理解和生成任務

以視覺為基礎的跨模態對齊解碼器和文本生成解碼器使OmniVL具備了多模態理解和生成的能力,在這一部分中,文章評估了它在字幕生成和圖像/視頻問題回答上的表現。

8107acf0-7b7e-11ed-8abf-dac502259ad0.png

8124b32c-7b7e-11ed-8abf-dac502259ad0.png

在這類任務上,OmniVL同樣取得了最好的結果。

總結和未來工作

這篇工作提出了OmniVL,一個全新的視覺-語言基礎模型,它將圖像-語言和視頻-語言統一起來,并同時支持視覺任務、跨模態對齊任務以及多模態的理解和生成任務。OmniVL采用了統一的視覺-語言對比損失,這讓其能夠同時利用圖像-文本、圖像-標簽、視頻-文本和視頻-標簽數據進行預訓練。另外,文章中提出了一個解耦地聯合訓練范式,將視覺-語言建模解耦為空間和時間兩個維度,從而同時提高了在圖像和視頻任務的性能。

在這篇工作僅僅在CC12M和WebVid-2.5M這類相對小規模的數據上進行預訓練,隨著LAION、WebVid-10M的問世,可以在更大規模的數據上訓練更大的模型,以探索具有更強零樣本、小樣本能力的模型。另外一個值得探索的方向是結合更豐富的有標簽數據和更優的監督目標,使得模型可以支持細粒度的任務如物體檢測、追蹤等,從而朝著通用的統一模型更上一層臺階。

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 圖像
    +關注

    關注

    2

    文章

    1096

    瀏覽量

    42329
  • 圖像分類
    +關注

    關注

    0

    文章

    96

    瀏覽量

    12489

原文標題:NeurIPS 2022 | 復旦&微軟提出?OmniVL:首個統一圖像、視頻、文本的基礎預訓練模型

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    什么是大模型,智能體...?大模型100問,快速全面了解!

    ,LLM)是大模型中最主要的類,專門用于處理和生成人類語言。大語言模型通過“閱讀”海量的文本數據(如書籍、網頁、文章等)進行
    的頭像 發表于 02-02 16:36 ?892次閱讀
    什么是大<b class='flag-5'>模型</b>,智能體...?大<b class='flag-5'>模型</b>100問,快速全面了解!

    Termux手機攝像頭采集圖像/視頻流 部署 YOLO 模型推理

    Termux手機攝像頭采集圖像/視頻流 部署 YOLO 模型推理
    的頭像 發表于 12-14 07:26 ?2857次閱讀

    羅德與施瓦茨宣布推出新頻段 R&amp;amp;amp;S ZNB3000 矢量網絡分析儀,頻率高達 54 GHz

    R&amp;SZNB3000以業界領先的測量速度、出色的擴展能力及流射頻性能,為中端矢量網絡分析儀市場樹立了新標桿。隨著高頻型號的加入,R&amp;SZNB3000將覆蓋更廣泛的應用場景。羅德與施
    的頭像 發表于 12-04 17:04 ?622次閱讀
    羅德與施瓦茨宣布推出新頻段 R&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;S ZNB3000 矢量網絡分析儀,頻率高達 54 GHz

    亞馬遜云科技上線Amazon Nova多模態嵌入模型

    Embeddings多模態嵌入模型現已在Amazon Bedrock上線,這是款專為Agentic RAG與語義搜索應用打造的頂尖多模態嵌入模型。該模型
    的頭像 發表于 10-29 17:15 ?266次閱讀
    亞馬遜云科技上線Amazon Nova多模態嵌入<b class='flag-5'>模型</b>

    如何將訓練好的神經網絡模型部署到蜂鳥e203開發板上

    本帖欲分享如何將訓練好的神經網絡模型部署到蜂鳥e203開發板上。 1. 加載TFLite模型 std::unique_ptr interpreter(new tflite::Interpreter
    發表于 10-22 08:04

    在Ubuntu20.04系統中訓練神經網絡模型些經驗

    模型。 我們使用MNIST數據集,訓練個卷積神經網絡(CNN)模型,用于手寫數字識別。模型
    發表于 10-22 07:03

    基于大規模人類操作數據訓練的VLA模型H-RDT

    近年來,機器人操作領域的VLA模型普遍基于跨本體機器人數據集訓練,這類方法存在兩大局限:不同機器人本體和動作空間的差異導致統一訓練困難;現
    的頭像 發表于 08-21 09:56 ?1101次閱讀
    基于大規模人類操作數據<b class='flag-5'>預</b><b class='flag-5'>訓練</b>的VLA<b class='flag-5'>模型</b>H-RDT

    如何進行YOLO模型轉換?

    我目前使用的轉模型代碼如下 from ultralytics import YOLOimport cv2import timeimport nncaseimport# 加載訓練的YOLO模型
    發表于 08-14 06:03

    在對廬山派K230的SD卡data文件夾進行刪除和新件文件夾時無法操作,且訓練時線程異常,怎么解決?

    解決了其中訓練線程報錯的故障,是因為我的文件夾里只有個分類子目錄,于是在圖像分類中它會報錯,但是訓練好后點擊部署會出現部署文件生成異常的問題 查看AICube_log,日志顯示如下
    發表于 08-01 08:03

    請問yolov8訓練模型如何寫雙線程?

    用yolo8訓練模型做送藥小車,看了yolov8的歷程,可以使用,但是不知道輸出時具體用的是什么通道?我看API發現,是用get_frame()獲取幀圖片給AI程序使用,但是返回值
    發表于 07-30 06:23

    新知|Verizon與AT&amp;amp;amp;T也可以手機直接連接衛星了

    近日,Verizon與AT&amp;T宣布,手機直連衛星方面取得重要進展,使用普通手機實現了通過衛星的視頻通話。很顯然,Verizon與AT&amp;T的這舉措是針對此前T-Mobi
    的頭像 發表于 06-19 07:07 ?1140次閱讀
    新知|Verizon與AT&<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;<b class='flag-5'>amp</b>;T也可以手機直接連接衛星了

    CPU密集型任務開發指導

    區提供的房價數據訓練個簡易的房價預測模型,該模型支持通過輸入房屋面積和房間數量去預測該區域的房價,模型需要長時間運行,房價預測需要使用前面
    發表于 06-19 06:05

    用PaddleNLP為GPT-2模型制作FineWeb二進制訓練數據集

    ,使用PaddleNLP將FineWeb數據集中文本形式的數據,經過分詞化(Tokenize),轉換為大語言模型能直接使用的二進制數據,以便提升訓練效果。 ChatGPT發布后,當代大語言模型
    的頭像 發表于 03-21 18:24 ?4309次閱讀
    用PaddleNLP為GPT-2<b class='flag-5'>模型</b>制作FineWeb二進制<b class='flag-5'>預</b><b class='flag-5'>訓練</b>數據集

    ?VLM(視覺語言模型)?詳細解析

    視覺語言模型(Visual Language Model, VLM)是種結合視覺(圖像/視頻)和語言(文本)處理能力的多模態人工智能
    的頭像 發表于 03-17 15:32 ?8843次閱讀
    ?VLM(視覺語言<b class='flag-5'>模型</b>)?詳細解析

    閃迪攜創新閃存解決方案亮相CFMS,以多樣化產品組合賦能企業構建數字世界的&amp;quot;記憶宮殿&amp;quot;

    當前,人工智能技術正在深刻重構多個行業的效率和生產模式,也正在顛覆傳統存儲技術的基本邏輯。需要實時生成文本圖像、視頻的AI模型,其訓練和推
    的頭像 發表于 03-14 12:39 ?1044次閱讀
    閃迪攜創新閃存解決方案亮相CFMS,以多樣化產品組合賦能企業構建數字世界的&<b class='flag-5'>amp</b>;quot;記憶宮殿&<b class='flag-5'>amp</b>;quot;