国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一種新的輕量級(jí)視覺Transformer

CVer ? 來(lái)源:CVHub ? 作者:CVHub ? 2022-12-19 14:00 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

Introduction

隨著 ViT 的出現(xiàn),Transformer 模型在計(jì)算機(jī)視覺領(lǐng)域遍地開花,一層激起一層浪。雖然精度很高,但被人廣為詬病的依舊是它的效率問題,說(shuō)人話就是這東西壓根不好部署在移動(dòng)端。

隨后,有許多研究人員提出了很多解決方案來(lái)加速注意力機(jī)制,例如早先蘋果提出的 Mobile-Former 以及前段時(shí)間的 EdgeNeXt,均是針對(duì)移動(dòng)端設(shè)計(jì)的。

本文的思路也很簡(jiǎn)單,就是仿造 CNNs 圈子中的移動(dòng)端之王—— MobileNet 來(lái)進(jìn)行一系列的設(shè)計(jì)和優(yōu)化。對(duì)于端側(cè)部署來(lái)講,模型的參數(shù)量(例如 Flash 大小)和延遲對(duì)資源受限型的硬件來(lái)說(shuō)至關(guān)重要。因此,作者結(jié)合了細(xì)粒度聯(lián)合搜索策略,提出了一種具備低延遲和大小的高效網(wǎng)絡(luò)——EfficientFormerV2 ,該網(wǎng)絡(luò)在同等量級(jí)參數(shù)量和延遲下比 MobileNetV2 可以高出4個(gè)百分點(diǎn)(ImageNet驗(yàn)證集)。

28605084-7f5c-11ed-8abf-dac502259ad0.pngComparison of model size, speed, and performance

上圖所示模型是在 ImageNet-1K 上進(jìn)行訓(xùn)練所獲得的 Top-1 精度。延遲是在 iPhone 12(iOS 16)上進(jìn)行測(cè)量的。每個(gè)圓圈的面積與參數(shù)數(shù)量(模型大小)成正比。可以看出,EfficientFormerV2 在模型更小和推理速度更快的情況下獲得了更高的性能。

Framework

先來(lái)看下整體的網(wǎng)絡(luò)長(zhǎng)什么樣子:

288aa5a0-7f5c-11ed-8abf-dac502259ad0.pngOverall

既然都叫 EfficientFormerV2,那必然是在上一版的基礎(chǔ)上改進(jìn)了,如圖(a)所示。沒什么特別新奇的,一個(gè)很常規(guī)的 ViT 型架構(gòu)。下面的圖表是作者統(tǒng)計(jì)的實(shí)驗(yàn)改進(jìn)結(jié)果:

29266526-7f5c-11ed-8abf-dac502259ad0.pngNumber of parameters, latency, and performance for various design choices

基于整體架構(gòu)圖和上述表格,讓我們逐步拆解看看究竟做了哪些改進(jìn)。

Token Mixers vs. Feed Forward Network

通常來(lái)說(shuō),結(jié)合局部信息可以有效提高性能,同時(shí)使 ViTs 對(duì)明確的位置嵌入缺失表現(xiàn)得更加穩(wěn)健。PoolFormerEfficientFormer 中都使用了 3×3 的平均池化層(如圖 2(a)所示)作為局部的Token Mixers。采用相同卷積核大小的深度可分離卷積(DWCONV)替換這些層不會(huì)帶來(lái)延遲開銷,同時(shí)性能也能提高 **0.6%**,參數(shù)量?jī)H微漲 0.02M。此外,同 NASVit,作者也在 ViTs 的前饋網(wǎng)絡(luò)(FFN)中注入了局部信息建模層,這也有益于提高性能。

這里,作者直接將原來(lái)的 Pooling 層刪掉了(下采樣越大,理論感受野越大),而是直接替換成 BottleNeck 的形式,先用 1×1 卷積降維壓縮,再嵌入 3×3 的深度可分離卷積提取局部信息,最后再通過 1×1 的卷積升維。這樣做的一個(gè)好處是,這種修改有利于后續(xù)直接才用超參搜索技術(shù)搜索出具體模塊數(shù)量的網(wǎng)絡(luò)深度,以便在網(wǎng)絡(luò)的后期階段中提取局部和全局信息。

Search Space Refinement

通過調(diào)整網(wǎng)絡(luò)的深度即每個(gè)階段中的塊數(shù)和寬度即通道數(shù),可以發(fā)現(xiàn),更深和更窄的網(wǎng)絡(luò)可以帶來(lái):

  • 更好的準(zhǔn)確性(0.2% 的性能提升)
  • 更少的參數(shù)(0.13M 的參數(shù)壓縮)
  • 更低的延遲(0.1ms 的推理加速)

同時(shí)將這個(gè)修改的網(wǎng)絡(luò)設(shè)置為后續(xù) NAS 搜素的 Baseline.

MHSA Improvements

一般的 Transformer 模塊都會(huì)包含兩個(gè)組件,即多頭注意力 MHSA 和全連接層 FFN. 作者隨后便研究了如何在不增加模型大小和延遲的情況下提高注意模塊性能的技術(shù)。

首先,通過 3×3 的卷積將局部信息融入到 Value 矩陣中,這一步跟 NASVitInception transformer 一樣。

其次,在 Head 維度之間添加 FC 層(就圖中標(biāo)識(shí)的Talking Head),增強(qiáng)不同頭之間的信息交互。

通過這些修改,可以發(fā)現(xiàn)性能進(jìn)一步提高了,與基線模型相比,準(zhǔn)確度達(dá)到了 80.8%,同時(shí)參數(shù)和延遲也基本保持一致。

Attention on Higher Resolution

加入注意力機(jī)制普遍都是能夠提升性能的。然而,將它應(yīng)用于高分辨率特征會(huì)降低端側(cè)的推理效率,因?yàn)樗哂信c空間分辨率成平方關(guān)系的時(shí)間復(fù)雜度。因此,作者僅在最后的 1/32 的空間分辨率下使用,而對(duì)于倒數(shù)的第二階段即 4 倍下采樣提出了另外一種 MHSA,這有助于將準(zhǔn)確率提高了 0.9% 同時(shí)加快推理效率。

先前的解決方案,例如 Cswin transformerSwin transformer 都是采用基于滑動(dòng)窗口的方式去壓縮特征維度,又或者像 Next-vit 一樣直接將 KeysValues 矩陣進(jìn)行下采樣壓縮,這些方法對(duì)于移動(dòng)端部署并不是一個(gè)最佳的選擇。這里也不難理解,以 Swin transformer 為例,它在每個(gè) stage 都需要進(jìn)行復(fù)雜的窗口劃分和重新排序,所以這種基于 windows 的注意力是很難在移動(dòng)設(shè)備上加速優(yōu)化的。而對(duì)于 Next-vit 來(lái)說(shuō)表面上看雖然進(jìn)行了壓縮,但整個(gè) KeyValue 矩陣依舊需要全分辨率查詢矩陣(Query)來(lái)保持注意力矩陣乘法后的輸出分辨率。

本文方法的解決方案可以參考圖(d)和(e),整體思路是采用一個(gè)帶步長(zhǎng)的注意力,實(shí)現(xiàn)上就是將所有的 QKV 均下采樣到固定的空間分辨率(這里是 1/32),并將注意力的輸出復(fù)原到原始分辨率以喂入下一層。(⊙o⊙)…,有點(diǎn)類似于把瓶頸層的思路又搬過來(lái)套。

Attention Downsampling

以往的下采樣方式大都是采用帶步長(zhǎng)的卷積或者池化層直接進(jìn)行的。不過最近也有一部分工作在探討 Transformer 模塊內(nèi)部的下采樣方式,如 LeViTUniNet 提出通過注意力機(jī)制將特征分辨率減半,從而更好的整合全局上下文來(lái)進(jìn)感知下采樣。具體的做法也就是將 Query 中的 Token 數(shù)量減半,從而對(duì)注意力模塊的輸出進(jìn)行壓縮。

說(shuō)到這里不經(jīng)意間有個(gè)疑問,Token 數(shù)量減少多少才是合適?況且,如果我們直接就對(duì)所有的查詢矩陣進(jìn)行降采樣的話,這對(duì)于較前的 stage 的特征提取是不利的,因?yàn)榫W(wǎng)絡(luò)的淺層更多的是提取諸如紋理、顏色、邊緣等 low-level 的信息,因此從經(jīng)驗(yàn)上來(lái)看是需要保持更高分辨率的。

作者的方法是提出一種結(jié)合局部和全局上下文融合的組合策略,如上圖(f)所示。為了得到下采樣的查詢,采用池化層作為靜態(tài)局部下采樣,而 3×3 DWCONV 則作為可學(xué)習(xí)的局部下采樣,并將結(jié)果拼接起來(lái)并投影到查詢矩陣中。此外,注意力下采樣模塊殘差連接到一個(gè)帶步長(zhǎng)的卷積以形成局部-全局方式,類似于下采樣瓶頸 或倒置瓶頸層。

Super-Network-Search

上面定義完基礎(chǔ)的網(wǎng)絡(luò)架構(gòu)后,作者又進(jìn)一步的應(yīng)用了一種細(xì)粒度聯(lián)合搜索策略,具體算法步驟如下所示:

2946b952-7f5c-11ed-8abf-dac502259ad0.pngNAS

整體架構(gòu)沿用的是超網(wǎng)的結(jié)構(gòu)。

Conclusion

在這項(xiàng)工作中,作者全面研究混合視覺主干并驗(yàn)證對(duì)于端側(cè)更加友好的網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)。此外,基于確定的網(wǎng)絡(luò)結(jié)構(gòu),進(jìn)一步提出了在大小和速度上的細(xì)粒度聯(lián)合搜索,并獲得了輕量級(jí)和推理速度超快的 EfficientFormerV2 模型。


		
			

審核編輯 :李倩


聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 計(jì)算機(jī)視覺
    +關(guān)注

    關(guān)注

    9

    文章

    1715

    瀏覽量

    47625
  • Transformer
    +關(guān)注

    關(guān)注

    0

    文章

    156

    瀏覽量

    6937

原文標(biāo)題:更快更強(qiáng)!EfficientFormerV2來(lái)了!一種新的輕量級(jí)視覺Transformer

文章出處:【微信號(hào):CVer,微信公眾號(hào):CVer】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    Transformer如何讓自動(dòng)駕駛大模型獲得思考能力?

    在談及自動(dòng)駕駛時(shí),Transformer直是非常關(guān)鍵的技術(shù),為何Transformer在自動(dòng)駕駛行業(yè)直被提及?
    的頭像 發(fā)表于 02-01 09:15 ?4156次閱讀

    瑞芯微SOC智能視覺AI處理器

    系統(tǒng)控制和輕量級(jí)任務(wù)。NPU: 集成2.0 TOPS的NPU(算力高于RK3568B2),專為AI視覺任務(wù)優(yōu)化。多媒體: 核心特點(diǎn)是強(qiáng)大的視頻解碼能力,支持4K@60fps H.265/H.264解碼
    發(fā)表于 12-19 13:44

    輕量級(jí)參數(shù)的管理框架(C語(yǔ)言)

    和反序列化操作。 方便在本地儲(chǔ)存設(shè)備(如flash、eeprom等)保存/讀取二進(jìn)制數(shù)據(jù),甚至還可以跨設(shè)備傳輸使用 提供了兩方式: 第一種:只需要提供參數(shù)數(shù)據(jù)保存/加載的回調(diào)函數(shù),調(diào)用相關(guān)接口函數(shù)
    發(fā)表于 12-16 06:24

    Transformer如何讓自動(dòng)駕駛變得更聰明?

    ]自動(dòng)駕駛中常提的Transformer本質(zhì)上是一種神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),最早在自然語(yǔ)言處理里火起來(lái)。與卷積神經(jīng)網(wǎng)絡(luò)(CNN)或循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)不同,Transformer能夠自動(dòng)審視所有輸入信息,并動(dòng)態(tài)判斷哪些部分更為關(guān)鍵,同時(shí)
    的頭像 發(fā)表于 11-19 18:17 ?2270次閱讀

    【CW32】uart_obj_fw 輕量級(jí)串口框架

    輕量級(jí)跨平臺(tái)串口通信框架,專為資源受限的嵌入式設(shè)備設(shè)計(jì)。單個(gè)對(duì)象RAM占用最小68字節(jié)左右(不算緩沖區(qū)),ROM占用1-2k字節(jié)左右,功能支持裁剪,資源占用小并不代表低性能,該庫(kù)參考了freeRTOS
    的頭像 發(fā)表于 09-29 18:02 ?7824次閱讀

    Crypto核心庫(kù):顛覆傳統(tǒng)的數(shù)據(jù)安全輕量級(jí)加密方案

    傳統(tǒng)加密方案常陷入“安全與性能”的二元悖論。Crypto核心庫(kù)打破這僵局,通過輕量級(jí)架構(gòu)與算法優(yōu)化,實(shí)現(xiàn)加密解密的雙向突破:在保障銀行級(jí)安全的同時(shí),將資源消耗壓縮至極致,讓數(shù)據(jù)安全“輕”裝上
    的頭像 發(fā)表于 08-04 14:44 ?712次閱讀
    Crypto核心庫(kù):顛覆傳統(tǒng)的數(shù)據(jù)安全<b class='flag-5'>輕量級(jí)</b>加密方案

    基于米爾瑞芯微RK3576開發(fā)板部署運(yùn)行TinyMaix:超輕量級(jí)推理框架

    本文將介紹基于米爾電子MYD-LR3576開發(fā)平臺(tái)部署超輕量級(jí)推理框架方案:TinyMaix 摘自優(yōu)秀創(chuàng)作者-短笛君 TinyMaix 是面向單片機(jī)的超輕量級(jí)的神經(jīng)網(wǎng)絡(luò)推理庫(kù),即 TinyML
    發(fā)表于 07-25 16:35

    如何在RK3576開發(fā)板上運(yùn)行TinyMaix :超輕量級(jí)推理框架--基于米爾MYD-LR3576開發(fā)板

    本文將介紹基于米爾電子MYD-LR3576開發(fā)平臺(tái)部署超輕量級(jí)推理框架方案:TinyMaix摘自優(yōu)秀創(chuàng)作者-短笛君TinyMaix是面向單片機(jī)的超輕量級(jí)的神經(jīng)網(wǎng)絡(luò)推理庫(kù),即TinyML推理庫(kù),可以
    的頭像 發(fā)表于 07-25 08:03 ?4225次閱讀
    如何在RK3576開發(fā)板上運(yùn)行TinyMaix :超<b class='flag-5'>輕量級(jí)</b>推理框架--基于米爾MYD-LR3576開發(fā)板

    MQTT介紹

    、什么是MQTT 物聯(lián)網(wǎng)(IoT)發(fā)展迅猛,傳感器、網(wǎng)關(guān)、云平臺(tái)之間如何高效通信成了核心問題。MQTT(Message Queuing Telemetry Transport)作為一種輕量級(jí)
    的頭像 發(fā)表于 07-14 09:34 ?3683次閱讀
    MQTT介紹

    輕量級(jí)≠低效能:RK3506J核心板如何用性價(jià)比感動(dòng)用戶?

    瑞芯微 RK3506J憑借多核異構(gòu)架構(gòu)設(shè)計(jì)與國(guó)產(chǎn)化供應(yīng)鏈整合,以輕量級(jí)硬件資源實(shí)現(xiàn)工業(yè)級(jí)性能輸出,重新定義了控制芯片的性價(jià)比邊界,為工業(yè)控制芯片領(lǐng)域帶來(lái)了全新的解決方案與發(fā)展方向。
    的頭像 發(fā)表于 06-17 09:20 ?2798次閱讀
    <b class='flag-5'>輕量級(jí)</b>≠低效能:RK3506J核心板如何用性價(jià)比感動(dòng)用戶?

    一種新型激光雷達(dá)慣性視覺里程計(jì)系統(tǒng)介紹

    針對(duì)具有挑戰(zhàn)性的光照條件和惡劣環(huán)境,本文提出了LIR-LIVO,這是一種輕量級(jí)且穩(wěn)健的激光雷達(dá)-慣性-視覺里程計(jì)系統(tǒng)。通過采用諸如利用深度與激光雷達(dá)點(diǎn)云關(guān)聯(lián)實(shí)現(xiàn)特征的均勻深度分布等先進(jìn)技術(shù),以及利用
    的頭像 發(fā)表于 04-28 11:18 ?1088次閱讀
    <b class='flag-5'>一種</b>新型激光雷達(dá)慣性<b class='flag-5'>視覺</b>里程計(jì)系統(tǒng)介紹

    樹莓派替代臺(tái)式計(jì)算機(jī)?樹莓派上七款最佳的輕量級(jí)操作系統(tǒng)!

    替代臺(tái)式計(jì)算機(jī)。好吧,它可以,但您需要以下專為RaspberryPi設(shè)計(jì)的輕量級(jí)操作系統(tǒng)的幫助。注意:RaspberryPi市場(chǎng)上有許多不同的型號(hào)。對(duì)于本文,我們將
    的頭像 發(fā)表于 03-25 09:43 ?1299次閱讀
    樹莓派替代臺(tái)式計(jì)算機(jī)?樹莓派上七款最佳的<b class='flag-5'>輕量級(jí)</b>操作系統(tǒng)!

    一種基于點(diǎn)、線和消失點(diǎn)特征的單目SLAM系統(tǒng)設(shè)計(jì)

    本文提出了一種穩(wěn)健的單目視覺SLAM系統(tǒng),該系統(tǒng)同時(shí)利用點(diǎn)、線和消失點(diǎn)特征來(lái)進(jìn)行精確的相機(jī)位姿估計(jì)和地圖構(gòu)建,有效解決了傳統(tǒng)基于點(diǎn)特征的SLAM的局限性。
    的頭像 發(fā)表于 03-21 17:07 ?1050次閱讀
    <b class='flag-5'>一種</b>基于點(diǎn)、線和消失點(diǎn)特征的單目SLAM系統(tǒng)設(shè)計(jì)

    ?VLM(視覺語(yǔ)言模型)?詳細(xì)解析

    視覺語(yǔ)言模型(Visual Language Model, VLM)是一種結(jié)合視覺(圖像/視頻)和語(yǔ)言(文本)處理能力的多模態(tài)人工智能模型,能夠理解并生成與視覺內(nèi)容相關(guān)的自然語(yǔ)言。以下
    的頭像 發(fā)表于 03-17 15:32 ?8826次閱讀
    ?VLM(<b class='flag-5'>視覺</b>語(yǔ)言模型)?詳細(xì)解析

    開鴻智谷新輕量級(jí)鴻蒙控制器首次公開發(fā)布!“鴻蒙+AI”交通方案斬獲行業(yè)大獎(jiǎng)

    近日,第十四屆(2025)智能交通市場(chǎng)年會(huì)已圓滿收官。會(huì)上開鴻智谷及其母公司拓維信息重磅發(fā)布了新輕量級(jí)鴻蒙控制器—在鴻IO控制器(CT15)。此外,開鴻智谷更是憑借在智慧公路領(lǐng)域的突出成果榮獲
    的頭像 發(fā)表于 03-11 17:48 ?1686次閱讀
    開鴻智谷新<b class='flag-5'>一</b>代<b class='flag-5'>輕量級(jí)</b>鴻蒙控制器首次公開發(fā)布!“鴻蒙+AI”交通方案斬獲行業(yè)大獎(jiǎng)