国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Swin Transformer在MIM中的應用

OpenCV學堂 ? 來源:量子位 ? 作者:量子位 ? 2022-05-31 10:15 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

自何愷明MAE橫空出世以來,MIM(Masked Image Modeling)這一自監督預訓練表征越來越引發關注。

但與此同時, 研究人員也不得不思考它的局限性。

MAE論文中只嘗試了使用原版ViT架構作為編碼器,而表現更好的分層設計結構(以Swin Transformer為代表),并不能直接用上MAE方法。

于是,一場整合的范式就此在研究團隊中上演。

代表工作之一是來自清華、微軟亞研院以及西安交大提出SimMIM,它探索了Swin Transformer在MIM中的應用。

但與MAE相比,它在可見和掩碼圖塊均有操作,且計算量過大。有研究人員發現,即便是SimMIM的基本尺寸模型,也無法在一臺配置8個32GB GPU的機器上完成訓練。

基于這樣的背景,東京大學&商湯&悉尼大學的研究員,提供一個新思路。

cf3dbdfe-e030-11ec-ba43-dac502259ad0.png

不光將Swin Transformer整合到了MAE框架上,既有與SimMIM相當的任務表現,還保證了計算效率和性能——

將分層ViT的訓練速度提高2.7倍,GPU內存使用量減少70%。

來康康這是一項什么研究?

當分層設計引入MAE

這篇論文提出了一種面向MIM的綠色分層視覺Transformer。

即允許分層ViT丟棄掩碼圖塊,只對可見圖塊進行操作。

cf59a7ee-e030-11ec-ba43-dac502259ad0.png

具體實現,由兩個關鍵部分組成。

首先,設計了一種基于分治策略的群體窗口注意力方案。

將具有不同數量可見圖塊的局部窗口聚集成幾個大小相等的組,然后在每組內進行掩碼自注意力。

cf7baa60-e030-11ec-ba43-dac502259ad0.png

其次,把上述分組任務視為有約束動態規劃問題,受貪心算法的啟發提出了一種分組算法。

cf9d5566-e030-11ec-ba43-dac502259ad0.png

它可以自適應選擇最佳分組大小,并將局部窗口分成最少的一組,從而使分組圖塊上的注意力整體計算成本最小。

表現相當,訓練時間大大減少

結果顯示,在ImageNet-1K和MS-COCO數據集上實驗評估表明,與基線SimMIM性能相當的同時,效率提升2倍以上。

cfbce552-e030-11ec-ba43-dac502259ad0.png

而跟SimMIM相比,這一方法在所需訓練時間大大減少,消耗GPU內存也小得多。具體而言,在相同的訓練次數下,在Swin-B上提高2倍的速度和減少60%的內存。

d00b726c-e030-11ec-ba43-dac502259ad0.png

值得一提的是,該研究團隊在有8個32GB V100 GPU的單機上進行評估的,而SimMIM是在2或4臺機器上進行評估。

研究人員還發現,效率的提高隨著Swin-L的增大而變大,例如,與SimMIM192相比,速度提高了2.7倍。

實驗的最后,提到了算法的局限性。其中之一就是需要分層次掩碼來達到最佳的效率,限制了更廣泛的應用。這一點就交給未來的研究。

d050031e-e030-11ec-ba43-dac502259ad0.png

而談到這一研究的影響性,研究人員表示,主要就是減輕了MIM的計算負擔,提高了MIM的效率和有效性。

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 編碼器
    +關注

    關注

    45

    文章

    3953

    瀏覽量

    142650
  • 數據集
    +關注

    關注

    4

    文章

    1236

    瀏覽量

    26201

原文標題:何愷明MAE局限性被打破,與Swin Transformer結合,訓練速度大大提升 | 東大&商湯&悉大

文章出處:【微信號:CVSCHOOL,微信公眾號:OpenCV學堂】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    Transformer 入門:從零理解 AI 大模型的核心原理

    │ │ 456 │→ │ 25 │ └─────────┘│ 36 │ (2×3) └─────────┘ (3×2) 記憶技巧:想象沿著對角線折疊紙張。 Transformer 的應用:計算注意力分數
    發表于 02-10 16:33

    Transformer如何讓自動駕駛大模型獲得思考能力?

    在談及自動駕駛時,Transformer一直是非常關鍵的技術,為何Transformer自動駕駛行業一直被提及?
    的頭像 發表于 02-01 09:15 ?4167次閱讀

    深入解析HVMA03F40C - ST10S Flyback Transformer

    深入解析HVMA03F40C - ST10S Flyback Transformer 引言 電子工程領域,變壓器是眾多電路不可或缺的關鍵組件。今天,我們將詳細探討Bourns公司
    的頭像 發表于 12-22 16:50 ?511次閱讀

    B1500a電容測試出現問題

    使用b1505和探針臺測試MIM電容,我測其漏電流大小,發現是pA級別;電容測試的結果和設備空測結果類似,fF級別;只是偶爾能測出正常電容,百pF級別,但這個正常測試結果不能復現
    發表于 12-09 17:23

    Transformer如何讓自動駕駛變得更聰明?

    ]自動駕駛中常提的Transformer本質上是一種神經網絡結構,最早在自然語言處理里火起來。與卷積神經網絡(CNN)或循環神經網絡(RNN)不同,Transformer能夠自動審視所有輸入信息,并動態判斷哪些部分更為關鍵,同時可以將這些重要信息有效地關聯起來。
    的頭像 發表于 11-19 18:17 ?2277次閱讀

    圖解AI核心技術:大模型、RAG、智能體、MCP

    它們與 Transformers 的區別。 ? Transformer 使用前饋網絡。 MoE 使用專家,它們是前饋網絡,但與 Transformer 的網絡相比規模較小。推理過程
    的頭像 發表于 10-21 09:48 ?730次閱讀
    圖解AI核心技術:大模型、RAG、智能體、MCP

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+第二章 實現深度學習AI芯片的創新方法與架構

    Transformer 模型 通過簡化Transformer 模型而不影響其收斂性能和下游任務性能來加速GPUTransformer 網絡。簡化
    發表于 09-12 17:30

    自動駕駛Transformer大模型會取代深度學習嗎?

    持續討論。特別是自動駕駛領域,部分廠商開始嘗試將多模態大模型(MLLM)引入到感知、規劃與決策系統,引發了“傳統深度學習是否已過時”的激烈爭論。然而,從技術原理、算力成本、安全需求與實際落地路徑等維度來看,Transformer與深度學習并非你死我活的替代
    的頭像 發表于 08-13 09:15 ?4185次閱讀
    自動駕駛<b class='flag-5'>中</b><b class='flag-5'>Transformer</b>大模型會取代深度學習嗎?

    Transformer端到端自動駕駛架構是何定位?

    典型的Transformer架構已被用于構建“感知-規劃-控制統一建模”的方案。如Waymo和小馬智行正在研發的多模態大模型(MultimodalLargeModels,MLLMs),將來自攝像頭
    的頭像 發表于 08-03 11:03 ?1388次閱讀

    視頻分析系統化工廠應用的算法通常有哪些?

    "化工廠的復雜環境,AI視頻分析系統正成為安全守護神:從人員入侵檢測到設備泄漏預警,從火焰識別到操作合規驗證,智能算法正全天候保障工業安全。當YOLO遇見紅外攝像頭,當Transformer分析煙霧動態,科技讓每一處危險無所
    的頭像 發表于 07-21 14:24 ?532次閱讀
    視頻分析系統<b class='flag-5'>在</b>化工廠應用的算法通常有哪些?

    Transformer架構解碼器的工作流程

    解碼器的作用主要是制作文本序列。與編碼器類似,解碼器也配備了一組類似的子層。它具有兩個Multi-Head attention層,一個點前饋層,并且每個子層之后都包含剩余連接和層歸一化。
    的頭像 發表于 06-10 14:32 ?1218次閱讀
    <b class='flag-5'>Transformer</b>架構<b class='flag-5'>中</b>解碼器的工作流程

    Transformer架構編碼器的工作流程

    編碼器是Transformer體系結構的基本組件。編碼器的主要功能是將輸入標記轉換為上下文表示。與早期獨立處理token的模型不同,Transformer編碼器根據整個序列捕獲每個token的上下文。
    的頭像 發表于 06-10 14:27 ?1066次閱讀
    <b class='flag-5'>Transformer</b>架構<b class='flag-5'>中</b>編碼器的工作流程

    Transformer架構概述

    由于Transformer模型的出現和快速發展,深度學習領域正在經歷一場翻天覆地的變化。這些突破性的架構不僅重新定義了自然語言處理(NLP)的標準,而且拓寬了視野,徹底改變了AI的許多方面。
    的頭像 發表于 06-10 14:24 ?1290次閱讀
    <b class='flag-5'>Transformer</b>架構概述

    快手上線鴻蒙應用高性能解決方案:數據反序列化性能提升90%

    了其數據反序列化性能,典型場景下能夠降低約90%的數據轉換耗時,為鴻蒙應用帶來了更流暢的用戶體驗和更敏捷的交互響應。 鴻蒙應用開發過程,“class-transformer”三方
    發表于 05-15 10:01

    MATLAB工程的應用

    電子發燒友網站提供《MATLAB工程的應用.pdf》資料免費下載
    發表于 04-19 16:54 ?9次下載