国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

一個LSTM被分解成垂直和水平的LSTM

OpenCV學堂 ? 來源:OpenCV學堂 ? 作者:OpenCV學堂 ? 2022-05-07 16:29 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在最近的計算機視覺研究中,ViT的出現迅速改變了各種架構設計工作:ViT利用自然語言處理中的Self-Attention實現了最先進的圖像分類性能,MLP-Mixer利用簡單的多層感知器也實現了具有競爭性的結果。相比之下,一些研究也表明,精心設計的卷積神經網絡(CNNs)可以實現媲美ViT的先進性能,而無需借助這些新想法。在這種背景下,人們對什么是適合于計算機視覺的歸納偏差越來越感興趣。

在這里,作者提出Sequencer,一個全新且具有競爭性的架構,可以替代ViT,為分類問題提供了一個全新的視角。與ViT不同,Sequencer使用LSTM(而不是Self-Attention)對遠程依賴關系進行建模。

作者還提出了一個二維的Sequencer模塊,其中一個LSTM被分解成垂直和水平的LSTM,以提高性能。

雖然結構簡單,但是經過實驗表明,Sequencer的表現令人印象深刻:Sequencer2D-L在ImageNet-1K上僅使用54M參數,實現84.6%的top-1精度。不僅如此,作者還證明了它在雙分辨率波段上具有良好的可遷移性和穩健性。

1背景

Vision Transformer成功的原因被認為是由于Self-Attention建模遠程依賴的能力。然而,Self-Attention對于Transformer執行視覺任務的有效性有多重要還不清楚。事實上,只基于多層感知器(MLPs)的MLP-Mixer被提議作為ViTs的一個有吸引力的替代方案。

此外,一些研究表明,精心設計的CNN在計算機視覺方面仍有足夠的競爭力。因此,確定哪些架構設計對計算機視覺任務具有內在的有效性是當前研究的一大熱點。本文通過提出一種新穎的、具有競爭力的替代方案,為這一問題提供了一個新的視角。

本文提出了Sequencer體系結構,使用LSTM(而不是Self-Attention)進行序列建模。Sequencer的宏觀架構設計遵循ViTs,迭代地應用Token Mixing和Channel Mixing,但Self-Attention被基于LSTMs的Self-Attention層取代。特別是,Sequencer使用BiLSTM作為一個構建塊。簡單的BiLSTM表現出一定的性能水平,而Sequencer可以通過使用類似Vision Permutator(ViP)的思想進一步提高。ViP的關鍵思想是平行處理垂直軸和水平軸。

作者還引入了2個BiLSTM,用于并行處理上/下和左/右方向。這種修改提高了Sequencer的效率和準確性,因為這種結構減少了序列的長度,并產生一個有空間意義的感受野。

在ImageNet-1K數據集上進行預訓練時,新的Sequencer架構的性能優于類似規模的Swin和ConvNeXt等高級架構。它還優于其他無注意力和無CNN的架構,如MLP-Mixer和GFNet,使Sequencer在視覺任務中的Self-Attention具有吸引力的新替代方案。

值得注意的是,Sequencer還具有很好的領域穩健性以及尺度穩定性,即使在推理過程中輸入的分辨率增加了一倍,也能強烈防止精度退化。此外,對高分辨率數據進行微調的Sequencer可以達到比Swin-B更高的精度。在峰值內存上,在某些情況下,Sequencer往往比ViTs和cnn更經濟。雖然由于遞歸,Sequencer需要比其他模型更多的FLOPs,但更高的分辨率提高了峰值內存的相對效率,提高了在高分辨率環境下的精度/成本權衡。因此,Sequencer作為一種實用的圖像識別模型也具有吸引人的特性。

2全新范式

2.1 LSTM的原理

LSTM是一種特殊的遞歸神經網絡(RNN),用于建模序列的長期依賴關系。Plain LSTM有一個輸入門,它控制存儲輸入,一個控制前單元狀態的遺忘的遺忘門,以及一個輸出門,它控制當前單元狀態的單元輸出。普通LSTM的公式如下:

3c0deb4a-cd29-11ec-bce3-dac502259ad0.png

其中σ是logistic sigmoid function,是Hadamard product。

BiLSTM對于預期相互依賴的序列是有利的。一個BiLSTM由2個普通的LSTM組成。設為輸入,為反向重排。和分別是用相應的LSTM處理和得到的輸出。設為按原順序重新排列的輸出,BiLSTM的輸出如下:

3c1be47a-cd29-11ec-bce3-dac502259ad0.png

假設和具有相同的隱藏維數D,這是BiLSTM的超參數。因此,向量h的維數為二維。

2.2 Sequencer架構

1、架構總覽

本文用LSTM取代Self-Attention層:提出了一種新的架構,旨在節省內存和參數,同時具有學習遠程建模的能力。

3c276110-cd29-11ec-bce3-dac502259ad0.png

圖2a顯示了Sequencer體系結構的整體結構。Sequencer架構以不重疊的Patches作為輸入,并將它們投影到特征圖上。Sequencer Block是Sequencer的核心組件,由以下子組件組成:

BiLSTM層可以經濟、全局地Mixing空間信息

MLP用于Channel Mixing

當使用普通BiLSTM層時,Sequencer Block稱為Vanilla Sequencer block;當使用BiLSTM2D層作為Sequencer Block時,Sequencer Block稱為Sequencer2D block。最后一個塊的輸出通過全局平均池化層送到線性分類器。

2、BiLSTM2D layer

作者提出了BiLSTM2D層作為一種有效Mixing二維空間信息的技術。它有2個普通的BiLSTM,一個垂直的BiLSTM和一個水平的BiLSTM。

對于輸入被視為一組序列,其中是垂直方向上的Token數量,W是水平方向上的序列數量,C是通道維度。所有序列都輸入到垂直BiLSTM中,共享權重和隱藏維度D:

3c57b7de-cd29-11ec-bce3-dac502259ad0.png

用與上述相似的方式,被視為一組序列,所有序列被輸入到水平BiLSTM中,共享權重和隱藏維度D:

3c664416-cd29-11ec-bce3-dac502259ad0.png

然后將合并到中,同時將合并到。最后送入FC層。這些流程制定如下:

3c766bca-cd29-11ec-bce3-dac502259ad0.png

偽代碼如下:

3c82a8b8-cd29-11ec-bce3-dac502259ad0.png

3、架構變體

為了比較由Sequencer 2D組成的不同深度的模型,本文準備了3種不同深度的模型:18、24和36。模型的名稱分別為Sequencer2D-S、Sequencer2D-M和Sequencer2D-L。隱藏維度設置為D=C/4。

3c913946-cd29-11ec-bce3-dac502259ad0.png

3ca309c8-cd29-11ec-bce3-dac502259ad0.png

3實驗

3.1 ImageNet-1K

3cdadf06-cd29-11ec-bce3-dac502259ad0.png

3.2 遷移學習

3cf029b0-cd29-11ec-bce3-dac502259ad0.png

3.3 穩健性實驗

3cff1d58-cd29-11ec-bce3-dac502259ad0.png

3.4 可視化分析

一般來說,CNN具有局部化的、逐層擴展的感受野,而沒有移動窗口的ViT捕獲的是全局依賴。相比之下,作者Sequencer不清楚信息是如何處理的。因此作者計算了ResNet-50、DeiT-S和Sequencer2D-S的ERF,如圖5所示。

3d10d2c8-cd29-11ec-bce3-dac502259ad0.png

Sequencer2D-S的ERFs在所有層中形成十字形。這一趨勢使其不同于DeiT-S和ResNet-50等著名模型。更值得注意的是,在淺層中,Sequencer2D-S比ResNet-50的ERF更寬,盡管沒有DeiT那么寬。這一觀察結果證實了Sequencer中的lstm可以像預期的那樣建模長期依賴關系,并且Sequencer可以識別足夠長的垂直或水平區域。因此,可以認為,Sequencer識別圖像的方式與CNN或ViT非常不同。

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 計算機視覺
    +關注

    關注

    9

    文章

    1715

    瀏覽量

    47625
  • LSTM
    +關注

    關注

    0

    文章

    63

    瀏覽量

    4378

原文標題:CV全新范式 | LSTM在CV領域殺出一條血路,完美超越Swin與ConvNeXt等前沿算法

文章出處:【微信號:CVSCHOOL,微信公眾號:OpenCV學堂】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    水平垂直式石英清洗機工作原理

    在半導體制造、光伏產業以及光學元件生產等對精度和潔凈度要求極高的領域,水平式與垂直式石英清洗機發揮著關鍵作用。以下是兩者工作原理的相關介紹:水平式石英清洗機的工作原理多槽分段清洗流程采用酸洗、堿洗
    的頭像 發表于 12-25 13:38 ?299次閱讀
    <b class='flag-5'>水平</b>與<b class='flag-5'>垂直</b>式石英清洗機工作原理

    文讀懂LSTM與RNN:從原理到實戰,掌握序列建模核心技術

    在AI領域,文本翻譯、語音識別、股價預測等場景都離不開序列數據處理。循環神經網絡(RNN)作為最早的序列建模工具,開創了“記憶歷史信息”的先河;而長短期記憶網絡(LSTM)則通過創新設計,突破
    的頭像 發表于 12-09 13:56 ?1373次閱讀
    <b class='flag-5'>一</b>文讀懂<b class='flag-5'>LSTM</b>與RNN:從原理到實戰,掌握序列建模核心技術

    FOC控制和方波控制區別及分別應用場景--【其利天下】

    、控制原理FOC控制:基于電機的磁場定向控制,將電流分解成與轉子磁場方向相關的直軸(d軸)和交軸(q軸)分量。使用空間矢量脈寬調制(SVPWM)精確控制電流,優化電機
    的頭像 發表于 08-01 18:05 ?2620次閱讀
    FOC控制和方波控制區別及分別應用場景--【其利天下】

    泰克示波器MSO44光標如何水平垂直切換

    在使用泰克MSO44示波器進行信號測量與分析時,靈活切換光標模式對于精準獲取信號參數至關重要。通過水平垂直光標的切換,工程師能快速測量信號的時間、電壓等關鍵指標,從而高效完成電路調試、信號評估等
    的頭像 發表于 07-16 14:33 ?829次閱讀
    泰克示波器MSO44光標如何<b class='flag-5'>水平</b><b class='flag-5'>垂直</b>切換

    如何用AI實現電池壽命的精準預測?飛凌RK3588+融合算法給你答案

    飛凌嵌入式將AI算法(CNN+LSTM融合)和RK3588核心板相結合,成功突破這些限制,帶來高效、精準的鋰電池壽命預測。
    的頭像 發表于 06-20 10:07 ?3528次閱讀
    如何用AI實現電池壽命的精準預測?飛凌RK3588+融合算法給你答案

    PLC梯形圖編程方法(PPT版)

    梯形圖經驗設計法 經驗設計方法也叫試湊法,經驗設計方法需要設計者掌握大量的典型電路,在掌握這些典型電路的基礎上,充分理解實際的控制問題,將實際控制問題分解成典型控制電路,然后用典型電路或修改的典型
    發表于 05-30 16:46

    如何計算存儲示波器的垂直分辨率?

    在不同幅度范圍內存在不同的偏差。 量程選擇:不同量程下的垂直分辨率可能會有所不同。般來說,在小量程下,示波器的垂直分辨率會相對較高,因為滿量程電壓范圍較小,ADC 的位數能夠更精細地劃分電壓等級。因此,在選擇量程時,應根據
    發表于 05-30 14:03

    提高IT運維效率,深度解讀京東云AIOps落地實踐(異常檢測篇)

    種無閾值方法:基于 LSTM 網絡的基線( LSTM 框架輔助幾個優化步驟)和無監督檢測(神經網絡和多種機器學習算法的組合)協同綜合
    的頭像 發表于 05-22 16:38 ?1025次閱讀
    提高IT運維效率,深度解讀京東云AIOps落地實踐(異常檢測篇)

    《電子懶人的基礎硬件電路圖講解》

    包含了簡單的,基礎的單元電路圖。積累這些基礎的電路圖,對分析復雜的電路很有幫助。因為復雜的電路圖可以按照功能來劃分成不同的模塊,再對模塊進行
    發表于 04-24 16:40

    為什么用LSTM數據回歸預測結果是條直線

    發表于 03-25 16:54

    電子電工產品防火性能檢測(針焰測試、灼熱絲試驗、水平垂直燃燒試驗)

    在電子電工產品進入市場之前,確保其安全合規是至關重要的環節。其中,防火性能作為保障產品安全的關鍵指標之,需要通過系列嚴格的檢測來驗證。灼熱絲試驗、水平垂直燃燒試驗和針焰試驗是當前廣
    的頭像 發表于 03-12 13:45 ?1296次閱讀
    電子電工產品防火性能檢測(針焰測試、灼熱絲試驗、<b class='flag-5'>水平</b><b class='flag-5'>垂直</b>燃燒試驗)

    Chiplet:芯片良率與可靠性的新保障!

    Chiplet技術,也被稱為小芯片或芯粒技術,是種創新的芯片設計理念。它將傳統的大型系統級芯片(SoC)分解成多個小型、功能化的芯片模塊(Chiplet),然后通過先進的封裝技術將這些模塊連接在起,形成
    的頭像 發表于 03-12 12:47 ?2846次閱讀
    Chiplet:芯片良率與可靠性的新保障!

    如何使用MATLAB實現維時間卷積網絡

    本文對維卷積操作進行介紹,包括維擴展卷積和維因果卷積,以及 MATLAB 對維卷積的支持情況。在最后通過
    的頭像 發表于 03-07 09:15 ?2108次閱讀
    如何使用MATLAB實現<b class='flag-5'>一</b>維時間卷積網絡

    什么是微型光譜儀?基礎原理與應用領域解析

    的光譜分析設備。它利用物質與光的相互作用,將復雜的光信號分解成不同波長的光譜,就像棱鏡將白光分解成彩虹樣。通過分析這些光譜信息,我們可以獲取物質的成分、結構、濃度等關鍵信息。 微型光譜儀的核心原理: 微型光譜儀的核
    的頭像 發表于 03-06 16:28 ?1249次閱讀
    什么是微型光譜儀?基礎原理與應用領域解析

    為什么在GNA_SW_FP32和GNA_HW執行模式中推斷時,Precision值會不樣?

    LSTM 模型轉換為中間表示 (IR)。 在GNA_SW_FP32和GNA_HW執行模式中進行推斷時,獲得兩不同的精確值。
    發表于 03-06 06:46