国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

NeurIPS 2023 | 全新的自監督視覺預訓練代理任務:DropPos

智能感知與物聯網技術研究所 ? 來源:未知 ? 2023-10-15 20:25 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

wKgaomUt5x-ACdCTAAGMXym4GcM184.png

論文標題:

DropPos: Pre-Training Vision Transformers by Reconstructing Dropped Positions

論文鏈接:

https://arxiv.org/pdf/2309.03576

代碼鏈接:

https://github.com/Haochen-Wang409/DropPos

今天介紹我們在自監督視覺預訓練領域的一篇原創工作,目前 DropPos 已被 NeurIPS 2023 接收,相關代碼已開源,有任何問題歡迎在 GitHub 提出。

wKgaomUt5x-AGHoyAAAl6LOgh3c767.png

TL;DR

我們提出了一種全新的自監督代理任務 DropPos,首先在 ViT 前向過程中屏蔽掉大量的 position embeddings(PE),然后利用簡單的 cross-entropy loss 訓練模型,讓模型重建那些無 PE token 的位置信息。這個及其簡單的代理任務就能在多種下游任務上取得有競爭力的性能。 wKgaomUt5x-ASb1ZAAAuhh9-KLM140.png

Motivation

在 MoCo v3 的論文中有一個很有趣的現象:ViT 帶與不帶 position embedding,在 ImageNet 上的分類精度相差無幾。

wKgaomUt5x-AdJkaAAGHYR2BQYo430.png

▲ 表1. MoCo v3 中的實驗現象(原文第6頁) 這一實驗結果背后,隱含著「ViT 的建模主要關注于不同 patch 的 visual appearence,對于 position 的 awareness 較差」這一信息。即,如果把圖片切 patch 然后再隨機打亂之后,ViT 能夠在亂序的情況下準確識別該圖片的類別。這一點和人類直覺有很大出入。同時,有可能是因為 ViT 過擬合到了 ImageNet 這個特定數據集導致的。 基于此,我們首先做了一些 tiny experiments,探究 position awareness 與模型的識別準確率到底是否有正相關的關系。具體來說,我們凍結了 MoCo v3 和 MAE 的 pre-train/fine-tune 權重,在其后接一個全連接層,并用 position classification 這個任務做 linear probing。即,在 forward 過程中隨機丟棄 75% 的 PE,并把 ViT 的 feature 映射到 196 維(一張圖有 14×14 個 patch),期望讓最終的線性層正確分類該 patch 的位置。

wKgaomUt5yCAVVELAAEfrmu0PPI839.png

▲ 表2. Position awareness 對于下游任務的影響 表中結果表明,fine-tune 后的模型權重,更適合預測位置這一任務。說明「強大的對位置的建模能力,對于圖像分類任務是有益的」。基于此,我們想探究一種能夠提升 ViT 對于位置建模能力的全新自監督代理任務。 一種可行的方案是「簡單地把 ViT 的 PE 隨機丟棄一部分,然后讓模型預測這些不帶 PE 的 token 的精確位置」,即 reconstruct Dropped Positions(DropPos)。

wKgaomUt5yCAed8gAAM-8rHKVIM341.png

▲ 圖1. DropPos 與 CL 和 MIM 的對比 DropPos 有如下的優勢:
  • 對比 CL,DropPos 不需要精心設計的數據增強(例如 multi-crop)。
  • 對比 MIM,DropPos 不需要精心設計的掩碼策略和重建目標。
下面我們介紹 DropPos 的具體運行流程。

wKgaomUt5yCAFfmtAAAtJ0fTuoM718.png

Method

wKgaomUt5yCASSQ-AAOx52KBOos108.png

▲ 圖2. DropPos 的流程圖 即使 DropPos 的想法很直觀也很簡單,但這類方法一直沒有成為預訓練的主流,主要是由于在設計上有以下三個難點:
  1. 如果簡單地把所有 PE 丟棄,讓模型直接重建每個 patch 的位置,會導致上下游的 discrepency。因為下游任務需要 PE,而上游預訓練的模型又完全沒見過 PE。
  2. ViT 對于 long-range 的建模能力很強,這個簡單的位置重建任務可能沒辦法讓模型學到非常 high-level 的語義特征。
  3. 看上去相似的不同 patch(例如純色的背景)的位置無需被精準重建,因此決定哪些 patch 的位置需要被重建非常關鍵。

針對上述難點,我們提出了三個解決手段:
  1. 針對問題一,我們采用了一個簡單的隨機丟棄策略。每次訓練過程中丟棄 75% 的 PE,保留 25% 的 PE。
  2. 針對問題二,我們采取了高比例的 patch mask,既能提高代理任務的難度,又能加快訓練的速度。
  3. 針對問題三,我們提出了 position smoothing 和 attentive reconstruction 的策略。

3.1 DropPos 前向過程

wKgaomUt5yCACzwiAAVXL_R1--s142.png

算法1. DropPos 的前向過程 DropPos 的前向過程包括兩段 mask,分別是第一步 patch mask(類似 MAE),和第二步的 position mask(用可學習的 position mask 代替 dropped positions)。具體可以參見上方的偽代碼。

3.2 Objective

我們使用了一個最簡單的 cross-entropy loss 作為預訓練的目標函數:

wKgaomUt5yCAVq8jAAA_BQl0Sc8745.png

其中,o 是模型的輸出,即第 i 個 patch 的預測位置是 j 的 logit,y 是真實的位置信息。 gamma 是第一步的 patch mask ratio,N 為總 patch 數量。 是 0-1 的 position mask,1 表示該 patch 帶有 PE,不應當被重建,而 0 表示該 patch 不帶 PE,需要被重建。 我們接下來引入 position smoothing 和 attentive reconstruction 技術來松弛這個問題,以解決相似但不同 patch 的位置重建問題。 3.2.1 Position Smoothing 我們采用一個高斯核來平滑原本的 position targetswKgaomUt5yGAObccAAArmkbdDAM974.pngwKgaomUt5ySAW9-vAAA_rRBMW0w439.png此處,w(i, j) 表示當真實位置為 i,而預測位置為 j 時,平滑后的 position target。 此外,我們還讓 sigma 自大變小,讓模型一開始不要過分關注精確的位置重建,而訓練后期則越來越關注于精準的位置重建。 3.2.2 Attentive Reconstruction 我們采用 [CLS] token 和其他 patch 的相似度作為親和力矩陣,作為目標函數的額外權重。wKgaomUt5ySAHMbeAAA87bNqupg699.pngwKgaomUt5ySALccxAAA4_CySCkw423.png其中 f 為不同 token 的特征,tau 為超參數,控制了 affinity 的平滑程度。 wKgaomUt5ySAX1QEAAAr2pbNr48823.png

Experiments

4.1 與其他方法的對比

wKgaomUt5ySAKJNiAAR2Qt6CMIo385.pngwKgaomUt5ySAbZfnAAYLKoO_85k333.png

4.2 消融實驗

本文主要有四個超參:patch mask ratio(gamma),position mask ratio(gamma_pos),sigma,和 tau。wKgaomUt5yWADXvuAAYb7tm27Ko423.pngwKgaomUt5yWAZ3AkAAVY4GYYZXw365.png由表,我們可以得出一些比較有趣的結論:
  1. 一般來說,更高的 position 重建精度會帶來更高的下游任務性能。
  2. 上述結論存在例外:當 sigma = 0 時,即不做位置平滑時,位置預測精度高,而下游任務表現反而低;當 tau = inf 時,即不做 attentive reconstruction 時,位置預測精度高,而下游表現反而低。
  3. 因此,過分關注于預測每一個 patch 的精確的位置,會導致局部最優,對于下游任務不利。

wKgaomUt5yWAfIinAAc8UwSp5q0239.png

上圖是 DropPos 位置重建的可視化結果,黑色 patch 代表的是前向過程中被 mask 掉的 patch;白色 patch 的位置被錯誤重建,而剩余 patch 的位置被精準重建。 DropPos 在極端情況(例如 gamma=0.75)時,依然可以做到大部分 patch 的精準重建。 ·


原文標題:NeurIPS 2023 | 全新的自監督視覺預訓練代理任務:DropPos

文章出處:【微信公眾號:智能感知與物聯網技術研究所】歡迎添加關注!文章轉載請注明出處。


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 物聯網
    +關注

    關注

    2945

    文章

    47818

    瀏覽量

    414838

原文標題:NeurIPS 2023 | 全新的自監督視覺預訓練代理任務:DropPos

文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯網技術研究所】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    數據傳輸拖慢訓練?三維一體調度讓AI任務提速40%

    、模型三者割裂,資源調度與數據流轉不同步,訓練任務頻繁卡頓;更無奈的是,優化了算法、升級了硬件,卻因底層傳輸與調度低效,始終無法突破訓練效率瓶頸。 在AI模型規模越來越大、數據量呈爆炸式增長的今天,數據傳輸與資源協同效率,早已
    的頭像 發表于 01-26 14:20 ?130次閱讀

    【團購】獨家全套珍藏!龍哥LabVIEW視覺深度學習實戰課(11大系列課程,共5000+分鐘)

    、GPU加速訓練(可選) 雙軌教學:傳統視覺算法+深度學習方案全覆蓋 輕量化部署:8.6M超輕OCR模型,適合嵌入式設備集成 無監督學習:無需缺陷樣本即可訓練高精度檢測模型 持續更新:
    發表于 12-04 09:28

    【團購】獨家全套珍藏!龍哥LabVIEW視覺深度學習實戰課程(11大系列課程,共5000+分鐘)

    、GPU加速訓練(可選) 雙軌教學:傳統視覺算法+深度學習方案全覆蓋 輕量化部署:8.6M超輕OCR模型,適合嵌入式設備集成 無監督學習:無需缺陷樣本即可訓練高精度檢測模型 持續更新:
    發表于 12-03 13:50

    思必馳與上海交大聯合實驗室五篇論文入選NeurIPS 2025

    近日,機器學習與計算神經科學領域全球頂級學術頂級會議NeurIPS 2025公布論文錄用結果,思必馳-上海交大聯合實驗室共有5篇論文被收錄。NeurIPS(Conference on Neural
    的頭像 發表于 10-23 15:24 ?859次閱讀
    思必馳與上海交大聯合實驗室五篇論文入選<b class='flag-5'>NeurIPS</b> 2025

    基于大規模人類操作數據訓練的VLA模型H-RDT

    近年來,機器人操作領域的VLA模型普遍基于跨本體機器人數據集訓練,這類方法存在兩大局限:不同機器人本體和動作空間的差異導致統一訓練困難;現有大規模機器人演示數據稀缺且質量參差不齊。得益于近年來VR
    的頭像 發表于 08-21 09:56 ?1096次閱讀
    基于大規模人類操作數據<b class='flag-5'>預</b><b class='flag-5'>訓練</b>的VLA模型H-RDT

    信捷視覺平臺全新升級

    當機器視覺的精準遇上AI的智能,會碰撞出怎樣的火花?信捷視覺平臺全新升級——XINJE VISION STUDIO 3.7 + Vision AI算法平臺雙劍合璧,覆蓋從規則化檢測到復雜場景分析的全鏈路需求,助力多行業智造升級!
    的頭像 發表于 07-28 15:56 ?876次閱讀
    信捷<b class='flag-5'>視覺</b>平臺<b class='flag-5'>全新</b>升級

    科通技術與RealSense簽署代理協議

    近日,科通技術與RealSense, Inc.正式簽署代理協議,成為其中國區代理商。此次合作標志著雙方在3D視覺領域的戰略布局邁入新階段。
    的頭像 發表于 07-28 13:56 ?898次閱讀

    EASY EAl Orin Nano(RK3576) whisper語音識別訓練部署教程

    1Whisper簡介Whisper是OpenAI開源的,識別語音識別能力已達到人類水準自動語音識別系統。Whisper作為一個通用的語音識別模型,它使用了大量的多語言和多任務監督數據來訓練,能夠在
    的頭像 發表于 07-25 15:21 ?851次閱讀
    EASY EAl Orin Nano(RK3576) whisper語音識別<b class='flag-5'>訓練</b>部署教程

    EASY EAl Orin Nano(RK3576) whisper語音識別訓練部署教程

    Whisper是OpenAI開源的,識別語音識別能力已達到人類水準自動語音識別系統。Whisper作為一個通用的語音識別模型,它使用了大量的多語言和多任務監督數據來訓練,能夠在英語語音識別上達到接近人類水平的魯棒性和準確性。
    的頭像 發表于 07-17 14:55 ?1758次閱讀
    EASY EAl Orin Nano(RK3576) whisper語音識別<b class='flag-5'>訓練</b>部署教程

    CPU密集型任務開發指導

    CPU密集型任務是指需要占用系統資源處理大量計算能力的任務,需要長時間運行,這段時間會阻塞線程其它事件的處理,不適宜放在主線程進行。例如圖像處理、視頻編碼、數據分析等。 基于多線程并發機制處理CPU
    發表于 06-19 06:05

    避障也能判?視覺黑科技讓掃地機器人開啟“先知”模式

    從被動避障到主動判,視覺避障技術比預想的更快實現。
    的頭像 發表于 06-18 14:09 ?1205次閱讀

    使用MATLAB進行無監督學習

    監督學習是一種根據未標注數據進行推斷的機器學習方法。無監督學習旨在識別數據中隱藏的模式和關系,無需任何監督或關于結果的先驗知識。
    的頭像 發表于 05-16 14:48 ?1435次閱讀
    使用MATLAB進行無<b class='flag-5'>監督</b>學習

    用PaddleNLP為GPT-2模型制作FineWeb二進制訓練數據集

    作者:算力魔方創始人/英特爾創新大使劉力 《用PaddleNLP在4060單卡上實踐大模型訓練技術》發布后收到讀者熱烈反響,很多讀者要求進一步講解更多的技術細節。本文主要針對大語言模型的
    的頭像 發表于 03-21 18:24 ?4299次閱讀
    用PaddleNLP為GPT-2模型制作FineWeb二進制<b class='flag-5'>預</b><b class='flag-5'>訓練</b>數據集

    NVIDIA 推出開放推理 AI 模型系列,助力開發者和企業構建代理式 AI 平臺

    由 NVIDIA 后訓練全新 Llama Nemotron 推理模型,為代理式 AI 提供業務就緒型基礎 埃森哲、Amdocs、Atlassian、Box、Cadence、CrowdStrike
    發表于 03-19 09:31 ?390次閱讀
    NVIDIA 推出開放推理 AI 模型系列,助力開發者和企業構建<b class='flag-5'>代理</b>式 AI 平臺

    自動化標注技術推動AI數據訓練革新

    標貝自動化數據標注平臺在全棧數據標注場景式中搭載了大模型標注和自動化標注能力,并應用于3D點云、2D圖像、音頻、文本等數據場景的大規模、復雜任務和常規任務的標注中。在保證高效處理的前提下,確保標注
    的頭像 發表于 03-14 16:46 ?1357次閱讀