国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

一種顯著降低Transformer計算量的輕量化方法

CVer ? 來源:CVHub ? 2023-01-10 14:12 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

導讀

這項工作旨在提高視覺Transformer(ViT)的效率。雖然ViT在每一層中使用計算代價高昂的自注意力操作,但我們發現這些操作在層之間高度相關——這會導致產生很多不必要計算的冗余信息。基于這一觀察,我們提出了SKIPAT方法,該方法利用前面層的自注意力計算來近似在一個或多個后續層的注意力。為了確保在層之間重用自注意力塊而不降低性能,我們引入了一個簡單的參數函數,該函數在計算速度更快的情況下能表現出優于基準Transformer的性能。我們在圖像分類和ImageNet-1K上的自我監督學習、ADE20K上的語義分割、SIDD上的圖像去噪以及DAVIS上的視頻去噪中展示了我們方法的有效性。我們在所有這些任務中都在相同或更高的準確度水平下實現了提高模型吞吐量。

背景

28758fee-90a5-11ed-bfe3-dac502259ad0.png

Performance of SKIPAT across 5 different tasks.

Transformer架構已經成為一個重要且影響深遠的模型系列,因為它簡單、可擴展,并且應用廣泛。雖然最初來自自然語言處理(NLP)領域,但隨著視覺transformer(ViT)的出現,這已成為計算機視覺領域的標準架構,在從表示學習、語義分割、目標檢測到視頻理解等任務中獲得了各種最先進(SoTA)性能。

然而,transformer的原始公式在輸入令牌(token)數量方面具有二次計算復雜度。鑒于這個數字通常從圖像分類的14^2到圖像去噪的128^2 = 16K不等,內存和計算的這一限制嚴重限制了它的適用性。目前有三組方法來解決這個問題:第一組利用輸入令牌之間的冗余,并通過高效的抽樣簡單地減少計算,例如丟棄或合并冗余令牌。然而,這意味著ViT的最終輸出不是空間連續的,因此不能超出圖像級別(image-level)的應用,如語義分割或目標檢測。第二組方法旨在以低成本計算近似注意力,但通常以性能降低為代價。最后,另一組工作旨在將卷積架構與transformer合并,產生混合架構。雖然這些方法提高了速度,但它們并沒有解決二次復雜度的基本問題,并且通常會引入過多的設計選擇(基本上是transformer和CNN的聯合)。

在這項工作中,我們提出了一種新穎的、迄今為止未經探索的方法:利用計算速度快且簡單的參數函數來逼近transformer的計算代價高的塊。為了得出這個解決方案,我們首先詳細地分析了ViT的關鍵多頭自注意力(MSA)塊。通過這項分析,我們發現CLS令牌對空間塊的注意力在transformer的塊之間具有非常高的相關性,從而導致許多不必要的計算。這啟發了我們的方法利用模型早期的注意力,并將其簡單地重用于更深的塊——基本上是“跳過”后續的SA計算,而不是在每一層重新計算它們。

基于此,我們進一步探索是否可以通過重用前面層的表示來跳過整一層的MSA塊。受ResneXt的深度卷積的啟發,我們發現一個簡單的參數函數可以優于基準模型性能——在吞吐量和FLOPs的計算速度方面更快。我們的方法是通用的,可以應用于任何上下文的ViT:上圖顯示,我們的跳過注意力(SKIPAT)的新型參數函數在各種任務、數據集和模型大小上都能實現與基準transformer相比更優的精度與效率。

綜上所述,我們的貢獻如下所示:

我們提出了一種新型的插件模塊,可以放在任何ViT架構中,以減少昂貴的O(n^2)自注意力計算復雜度。

我們在ImageNet、Pascal-VOC2012、SIDD、DAVIS和ADE20K數據集上實現了在吞吐量指標上的最SOTA性能,并獲得了同等或更高的準確度。

我們的方法在沒有下游準確度損失的情況下,自監督預訓練時間能減少26%,并且在移動設備上展示了優越的延遲,這都證明了我們方法的普適性。

我們分析了性能提升的來源,并對我們的方法進行了大量的實驗分析,為提供可用于權衡準確度和吞吐量的模型系列提供了支持。

方法

28816972-90a5-11ed-bfe3-dac502259ad0.png

SKIPAT framework.

引言

Vision Transformer

設x ∈ R^(h×w×c) 為一張輸入圖像,其中h × w是空間分辨率,c是通道數。首先將圖像分成n = hw/p^2個不重疊的塊,其中p × p是塊大小。使用線性層將每個塊投影到一個embedding zi ∈ R^d 中,從而得到分塊的圖像:

288c80b4-90a5-11ed-bfe3-dac502259ad0.png

Transformer Layer

Transformer的每一層由多頭自注意力(MSA)塊和多層感知機(MLP)塊組成。在MSA塊中,Zl?1 ∈ R^(n×d),首先被投影到三個可學習embeddings {Q, K, V } ∈ R^(n×d)中。注意力矩陣A的計算公式如下:

289c140c-90a5-11ed-bfe3-dac502259ad0.png

MSA中的“多頭”是指考慮h個注意力頭,其中每個頭是一個n × d/h 矩陣的序列。使用線性層將注意頭重新投影回n × d,并與值矩陣結合,公式如下所示:

28a77216-90a5-11ed-bfe3-dac502259ad0.png

然后,將MSA塊的輸出表示輸入到MLP塊,該塊包括兩個由GeLU激活分隔的線性層。在給定層l處,表示通過transformer塊的計算流程如下:

28b586f8-90a5-11ed-bfe3-dac502259ad0.png

MSA和MLP塊都具有帶層正則化(LN)的殘差連接。雖然transformer的每一層中的MSA塊均是學習互不依賴的表示,但在下一小節中,我們將展示這些跨層間存在高度相關性。

啟發: 層相關性分析

Attention-map correlation

28c1334a-90a5-11ed-bfe3-dac502259ad0.png

Attention correlation.

ViT中的MSA塊將每個塊與每個其他塊的相似性編碼為n × n注意力矩陣。這個運算符具有O(n^2)復雜度(公式2)的計算成本。隨著ViT的擴展,即隨著n的增加,計算復雜度呈二次增長,使得這個操作成為性能瓶頸。最近的NLP工作表明,SoTA語言模型中相鄰層之間的自注意力具有非常高的相關性。這引發了一個問題 -在視覺transformer是否真的需要每一層都計算自注意力?

28d0b90a-90a5-11ed-bfe3-dac502259ad0.png

CKA analysis of A^[CLS] and Z^MSA across different layers of pretrained ViT-T/16.

為了回答這個問題,我們分析了ViT不同層之間自注意力圖的相關性。如本節圖1所示,來自類別token的自注意力圖A^[CLS]在中間層特別具有高度相關性。A^[CLS]l?1和A^[CLS]l 之間的余弦相似度可以高達0.97。其他token embeddings 也表現出類似的行為。我們通過計算每對i,j∈L的A^[CLS]i和A^[CLS]j之間的Centered Kernel Alignment(CKA)來定量分析ImageNet-1K驗證集的所有樣本之間的相關性。CKA度量網絡中間層獲得的表示之間的相似性,其中CKA的值越高則表示它們之間的相關性越高。從本節圖2中,我們發現ViT-T在A^[CLS]之間具有高度性,特別是第三層到第十層。

Feature correlation

在ViT中,高相關性不僅局限于A^[CLS],MSA塊的表示Z^MSA也在整個模型中顯示出高度相關性。為了分析這些表示之間的相似性,我們計算每對i,j∈L的Z^MSAi和Z^MSAj之間的CKA。我們從從本節圖2中觀察到,Z^MSA在模型的相鄰層之間也具有很高的相似性,特別是在較早的層,即從第2層到第8層。

利用 Skipping Attention 提升效率

基于我們對transformer中MSA不同塊之間具有高度相似性的觀察,我們建議利用注意力矩陣和MSA塊的表示之間的相關性來提高視覺transformer的效率。與在每層單獨計算MSA操作(公式3)相反,我們探索了一種利用不同層之間依賴關系的簡單且有效的策略。

我們建議通過重用其相鄰層的特征表示來跳過transformer的一個或多個層中的MSA計算。我們將此操作稱為Skip Attention(SKIPAT)。由于跳過整個MSA塊的計算和內存效益大于僅跳過自注意力操作 O(n^2d+nd^2) vs. O(n^2d),因此在本文中我們主要關注前者。我們引入了一個參數函數,而不是直接重用特征,換句話說,就是將來源MSA塊的特征復制到一個或多個相鄰MSA塊。參數函數確保直接重用特征不會影響這些MSA塊中的平移不變性和等價性,并充當強大的正則化器以提高模型泛化性。

SKIPAT parametric function

設 Φ:R^(n×d) → R^(n×d)表示將l?1層的MSA塊映射到l層的參數函數,作為Z?^MSA l:=Φ(Z^MSA l?1)。在這里,Z?^MSA l是Z^MSA l的近似值。參數函數可以是簡單的單位函數,其中Z^MSA l?1能被直接重用。我們使用Z^MSA l?1作為l處的MLP塊的輸入,而不是在l處計算MSA操作。當使用單位函數時,由于l處沒有MSA操作,因此在注意力矩陣中的token間關系不再被編碼,這會影響表示學習。為了減輕這一點,我們引入了SKIPAT參數函數,用于對token之間的局部關系進行編碼。SKIPAT參數函數由兩個線性層和中間的深度卷積(DwC)組成,計算公式如下所示:

28eefbc2-90a5-11ed-bfe3-dac502259ad0.png

SKIPAT framework

SKIPAT 是一種可以被納入任何 transformer 架構的框架,我們通過大量實驗對比結果充分地證明了這一點。根據架構的不同,可以在 transformer 的一層或多層中跳過 MSA 操作。在 ViT 中,我們觀察到來自 MSA 塊(Z^MSA )的表示在第 2 層到第 7 層之間有很高的相關性,所以我們在這些層中使用 SKIPAT 參數函數。這意味著我們將 Z^MSA2 作為輸入傳遞給 SKIPAT 參數函數,并在 3-8 層中跳過 MSA 操作。相反,來自 SKIPAT 參數函數輸出的特征被用作 MLP 塊的輸入。表示的計算流現在被修改為:

28ff4d92-90a5-11ed-bfe3-dac502259ad0.png

由于 MSA 和 MLP 塊中存在殘留連接,第 3 層到第 8 層的 MLP 塊需要獨立地學習表示,不能從計算圖中刪除。值得注意的是,使用 SKIPAT 后 ViT 的總層數不變,但 MSA 塊的數量減少了。

Complexity: MSA vs. SKIPAT

自注意力操作包括三個步驟。首先,將token embeddings 投射到query、key和value embeddings,其次,計算注意力矩陣 A,它是 Q 和 K 的點積,最后,計算輸出表示作為 A 和 V 的點積。這導致了計算復雜度為 O(4nd^2 + n^2d)。由于 d ? n,所以 MSA 塊的復雜度可以降低到 O(n^2d)。

SKIPAT 參數函數由兩個線性層和一個深度卷積操作組成,計算復雜度為 O(2nd^2 + r^2nd),其中 r × r 是 DwC 操作的內核大小。由于 r^2 ? d,所以 SKIPAT 的整體復雜度可以降低到 O(nd^2)。因此,當 n 隨著 transformer 的擴大而增加時,SKIPAT 的 FLOPs值 比 MSA 塊更少,即 O(nd^2) < O(n^2d)。

實驗

290a2960-90a5-11ed-bfe3-dac502259ad0.png

上圖展示的是分割mask的可視化效果:第一行和第二行分別是原始Vit-S模型和Vit-S + SKIPAT模型。顯而易見,Vit-S + SKIPAT模型對圖像中前景和背景的區分度顯著高于原始Vit-S模型。

298a9d48-90a5-11ed-bfe3-dac502259ad0.png

上圖展示的是注意力圖的可視化效果:對比原始Vit-S模型(baseline),Vit-S + SKIPAT模型對目標的定位能力有明顯提升。

29993204-90a5-11ed-bfe3-dac502259ad0.png

上圖展示的是特征圖和Z^MSA的相關性:從中可以清晰地觀察到在大多數不同層之間Z^MSA僅有較低的相關性。

圖象分類

29a68e40-90a5-11ed-bfe3-dac502259ad0.png

Image classification on ImageNet-1K.

自監督

29b3284e-90a5-11ed-bfe3-dac502259ad0.png

Unsupervised Segmentation and Object Localization on the validation set of Pascal VOC2012.

推理性能

29c8a66a-90a5-11ed-bfe3-dac502259ad0.png

On-device latency (in msec) of vanilla ViT vs. SKIPAT.

語義分割

29d781b2-90a5-11ed-bfe3-dac502259ad0.png

Semantic Segmentation results on ADE20K.

圖像去噪

2a01f370-90a5-11ed-bfe3-dac502259ad0.png

Image denoising on SIDD dataset using PSNR andSSIM as the evaluation metrics in the RGB space.

總結

我們提出了一種可以在任何 ViT 架構中即插即用的模塊 SKIPAT,用于減少昂貴的自注意力計算。SKIPAT 利用 MSA 塊之間的依賴性,并通過重用以前 MSA 塊的注意力表示來繞過注意力計算。此外,我們引入了一個簡單且輕量的參數函數,它不會影響 MSA 中編碼的歸納偏見。SKIPAT 函數能夠捕獲跨token之間的關系,在吞吐量和 FLOPs 指標上優于基線模型,同時我們在7 種不同的任務中充分地表現出SKIPAT的有效性。

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 編碼
    +關注

    關注

    6

    文章

    1039

    瀏覽量

    56978
  • Transformer
    +關注

    關注

    0

    文章

    156

    瀏覽量

    6937
  • 自然語言處理

    關注

    1

    文章

    630

    瀏覽量

    14667

原文標題:即插即用!Skip-Attention:一種顯著降低Transformer計算量的輕量化方法

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    基于SIMP與折衷規劃法的航空附件齒輪箱結構輕量化設計與動態特性提升

    航空發動機附件齒輪箱作為動力傳遞系統的關鍵部件,其箱體結構設計直接影響發動機的功率密度、可靠性及振動特性。針對傳統經驗設計方法難以滿足高剛度、輕量化及高動態性能要求的挑戰,本文提出了一種基于折衷規劃法的多目標拓撲優化
    的頭像 發表于 11-07 15:21 ?745次閱讀
    基于SIMP與折衷規劃法的航空附件齒輪箱結構<b class='flag-5'>輕量化</b>設計與動態特性提升

    長城汽車榮獲2025汽車輕量化大會六項大獎

    近日,從2025(第十八屆)汽車輕量化大會傳來消息,長城汽車憑借“新代超強高性能車身”及系列創新技術,舉榮獲 6 項大獎,成為同期車身會議和輕量化設計大賽的“大滿貫”獲獎廠商。
    的頭像 發表于 09-25 14:27 ?704次閱讀

    H6392芯片5W輕量化與100W高性能——風扇升壓芯片的選型邏輯與設計指南

    前言:升壓芯片如何驅動風扇? 在直流風扇設計中,升壓芯片的作用是將電池或適配器的低電壓轉換為驅動風扇電機所需的高電壓,同時確保電路穩定、安全。 H6392作為主流升壓芯片,分別針對輕量化與高功率場景
    發表于 09-17 09:57

    無人機飛控輕量化:合粵縮小體電容釋放空間,適配緊湊模組設計

    控系統,通過創新性地縮小體電容釋放空間,成功實現了飛控模塊的緊湊化設計,為無人機行業的輕量化發展提供了新的解決方案。 傳統飛控系統在設計時往往面臨個矛盾:方面需要足夠大的電容來保證系統穩定運行,另
    的頭像 發表于 09-16 15:57 ?594次閱讀
    無人機飛控<b class='flag-5'>輕量化</b>:合粵縮小體電容釋放空間,適配緊湊模組設計

    【「AI芯片:科技探索與AGI愿景」閱讀體驗】+第二章 實現深度學習AI芯片的創新方法與架構

    計算 閃存的新穎方法代表了一種多用途的管理模型權重的策略,它根據輸入的性質提升性能,從而增強所提出的方案在各種大模型場景中的有效性、可用性和實用性。 3、基于GPU的大模型計算 3.
    發表于 09-12 17:30

    靈活、高效,Sub-GHz頻段中的輕量化組網方案

    RFM23A020是輕量化組網SoC芯片,支持Sub-GHz無線通信,適用于低功耗、低成本的無線網絡部署。
    的頭像 發表于 08-08 15:58 ?1349次閱讀
    靈活、高效,Sub-GHz頻段中的<b class='flag-5'>輕量化</b>組網方案

    輕量化AI+AR眼鏡熱潮將至

    近期,Meta發布了今年第二季度的財報,2025 年第二季度,Meta Reality Labs共實現了 3.7 億美元的收入,比 2024 年第二季度的 3.53 億美元增長 5%。在這增長背后的主要原因,是輕量化的Ray-Ban Meta眼鏡銷量增長明顯。
    的頭像 發表于 08-07 17:27 ?2107次閱讀

    大模型推理顯存和計算估計方法研究

    (如全連接層、卷積層等)確定所需的顯存大小; (3)將各層顯存大小相加,得到模型總的顯存需求。 基于神經網絡剪枝的顯存估計 神經網絡剪枝是一種減少模型參數數量的技術,可以降低顯存需求。通過剪枝,可以
    發表于 07-03 19:43

    代5W雙時隙數字模擬對講應用模塊:高度集成化助力終端輕量化應用

    上的多個核心電路高度集成至主控主板上,實現了“單板集成”設計。這優化不僅簡化了客戶在應用端的接線與安裝步驟,還顯著減少了整體設備的空間占用,使得模塊更適配輕量化
    的頭像 發表于 07-02 09:20 ?1469次閱讀
    新<b class='flag-5'>一</b>代5W雙時隙數字模擬對講應用模塊:高度集成化助力終端<b class='flag-5'>輕量化</b>應用

    輕量化5G網關和5gredcap網關有什么區別

    輕量化5G網關與5G RedCap網關本質上是同類技術的不同表述 ,5G RedCap網關是輕量化5G網關的核心實現形式,而輕量化5G網關是RedCap技術應用的場景化概念。以下從技
    的頭像 發表于 06-30 09:19 ?1216次閱讀

    不同類型的微型導軌精度降低速度有何差異?

    微型導軌是一種高精度、小體積、輕量化的直線運動導軌系統,廣泛應用于各種需要精密直線運動的領域。
    的頭像 發表于 06-27 18:04 ?375次閱讀
    不同類型的微型導軌精度<b class='flag-5'>降低</b>速度有何差異?

    潤和軟件破局昇騰310B輕量化難題

    在邊緣計算迅猛發展的浪潮中,昇騰310B作為關鍵AI算力芯片,在嵌入式場景的應用價值持續凸顯。但受限于僅適配服務器操作系統的方案,該芯片存在資源輕量化瓶頸,在某些對鏡像大小與啟動時間有嚴格限制的特殊
    的頭像 發表于 06-25 14:56 ?1711次閱讀
    潤和軟件破局昇騰310B<b class='flag-5'>輕量化</b>難題

    基于 HT for Web 的輕量化 3D 數字孿生數據中心解決方案

    ,支持 PC、移動端瀏覽器直接訪問,兼容主流操作系統。 輕量化建模體系 : 支持 CAD、BIM 模型導入,通過幾何簡化、紋理壓縮等算法降低模型復雜度,適配 Web 端渲染性能。 提供參數化建模工具,可
    的頭像 發表于 05-30 14:33 ?891次閱讀
    基于 HT for Web 的<b class='flag-5'>輕量化</b> 3D 數字孿生數據中心解決方案

    基于雙向塊浮點量化的大語言模型高效加速器設計

    本文提出雙向塊浮點(BBFP)量化格式及基于其的LLMs加速器BBAL,通過雙向移位與重疊位設計顯著降低量化誤差,提升非線性計算效率,實現精
    的頭像 發表于 05-14 13:40 ?2371次閱讀
    基于雙向塊浮點<b class='flag-5'>量化</b>的大語言模型高效加速器設計

    唯卓仕AF 50mm F2.0 Air 正式發布:輕量化全畫幅鏡頭重塑50mm經典焦段

    輕量化革新,定義標準焦段新標桿隨著全畫幅微單市場的持續升溫,用戶對輕便高性能鏡頭的需求日益顯著。2025年4月2日,國產光學品牌Viltrox唯卓仕正式發布全新AF50mmF2.0AirFE/Z鏡頭
    的頭像 發表于 04-02 14:58 ?2340次閱讀
    唯卓仕AF 50mm F2.0 Air 正式發布:<b class='flag-5'>輕量化</b>全畫幅鏡頭重塑50mm經典焦段