国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

通用數據增強技術!適用于任意數據模態的隨機量化

CVer ? 來源:機器之心 ? 2023-09-12 16:40 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

本文提出了一種適用于任意數據模態的自監督學習數據增強技術。

自監督學習算法在自然語言處理、計算機視覺等領域取得了重大進展。這些自監督學習算法盡管在概念上是通用的,但是在具體操作上是基于特定的數據模態的。這意味著需要為不同的數據模態開發不同的自監督學習算法。為此,本文提出了一種通用的數據增強技術,可以應用于任意數據模態。相較于已有的通用的自監督學習,該方法能夠取得明顯的性能提升,同時能夠代替一系列為特定模態設計的復雜的數據增強方式并取得與之類似的性能。

a0c624c2-512a-11ee-a25d-92fbcf53809c.png

論文地址:https://arxiv.org/abs/2212.08663

代碼:https://github.com/microsoft/random_quantize

簡介 當前 Siamese 表征學習 / 對比學習需要利用數據增強技術來構建同一個數據的不同樣本,并將其輸入兩個并行的網絡結構,從而產生足夠強的監督信號。然而這些數據增強技術往往非常依賴于模態特定的先驗知識,通常需要手動設計或者搜索適用于當前模態的最佳組合。除了耗時耗力外,找到的最優數據增強方式也極難遷移到別的領域。例如,常見的針對于自然 RGB 圖像的顏色抖動(color jittering)無法應用于除了自然圖像以外的其他數據模態。

一般性地,輸入數據可以被表征為由序列維度(sequential)和通道維度(channel)組成的二維向量。其中序列維度通常是模態相關的,例如圖像上的空間維度、語音的時間維度以及語言的句法維度。而通道維度是模態無關的。在自監督學習中,masked modeling [1] 或者以 masking 作為數據增強 [2] 已經成為一種有效的學習方式。然而這些操作都作用于序列維度。為了能夠廣泛應用于不同數據模態,本文提出一種作用于通道維度的數據增強手段:隨機量化(randomized quantization)。每個通道中的數據通過非均勻量化器進行動態量化,量化值是從隨機劃分的區間中隨機采樣的。通過這種方式,落在同一個區間內原始輸入的信息差被刪除,同時不同區間數據的相對大小被保留,從而達到 masking 的效果。

a0df4790-512a-11ee-a25d-92fbcf53809c.png

該方法在各種不同數據模態上超過了已有任意模態自監督學習方法,包括自然圖像、3D 點云、語音、文本、傳感器數據、醫療圖像等。在多種預訓練學習任務中,例如對比學習(例如 MoCo-v3)和自蒸餾自監督學習(例如 BYOL)都學到了比已有方法更優的特征。該方法還經過驗證,適用于不同的骨干網絡結構,例如 CNN 和 Transformer。

方法

量化(Quantization)指的是利用一組離散的數值表征連續數據,以便于數據的高效存儲、運算以及傳輸。然而,一般的量化操作的目標是在不損失精確度的前提下壓縮數據,因而該過程是確定性的,而且是設計為與原數據盡量接近的。這就限制了其作為增強手段的強度和輸出的數據豐富程度。

本文提出一種隨機量化操作(randomized quantization),將輸入的每個 channel 數據獨立劃分為多個互不重疊的隨機區間(

a0f4cca0-512a-11ee-a25d-92fbcf53809c.png

),并將落在各個區間內的原始輸入映射到從該區間內隨機采樣的一個常數a105bf88-512a-11ee-a25d-92fbcf53809c.png

a1144422-512a-11ee-a25d-92fbcf53809c.png

隨機量化作為自監督學習任務中 masking 通道維度數據的能力取決于以下三個方面的設計:1) 隨機劃分數值區間;2) 隨機采樣輸出值以及 3)劃分的數值區間個數。

具體而言,隨機的過程帶來了更加豐富的樣本,同一個數據每次執行隨機量化操作都可以生成不同的數據樣本。同時,隨機的過程也帶來對原始數據更大的增強力度,例如隨機劃分出大的數據區間,或者當映射點偏離區間中值點時,都可以導致落在該區間的原始輸入和輸出之間的更大差異。

除此之外,也可以非常容易地通過適當減少劃分區間的個數,提高增強力度。這樣,當應用于 Siamese 表征學習的時候,兩個網絡分支就可以見到有足夠信息差異的輸入數據,從而構建足夠強的學習信號,幫助到特征學習。 下圖可視化了不同數據模態在使用了該數據增強方式之后的效果:

a125369c-512a-11ee-a25d-92fbcf53809c.png

實驗結果

模態 1:圖像

本文在 ImageNet-1K 數據集上評估了 randomized quantization 應用于 MoCo-v3 和 BYOL 的效果,評測指標為 linear evaluation。當作為唯一的數據增強方式單獨使用的時候,即將本文的 augmentation 應用于原始圖像的 center crop,以及和常見的 random resized crop(RRC)配合使用的時候,該方法都取得了比已有通用自監督學習方法更好的效果。

a1a7bafe-512a-11ee-a25d-92fbcf53809c.png

相比于已有的針對圖像數據開發的數據增強方式,例如 color jittering (CJ),本文的方法有著明顯的性能優勢。同時,該方法也可以取代 MoCo-v3/BYOL 中一系列復雜的數據增強方式(Full),包括顏色抖動(color jittering)、隨機灰度化(gray scale)、隨機高斯模糊(Gaussian blur)、隨機曝光(solarization),并達到與復雜數據增強方式類似的效果。

a1cfd8d6-512a-11ee-a25d-92fbcf53809c.png

模態 2:3D 點云

本文還在 ModelNet40 數據集的分類任務和 ShapeNet Part 數據集的分割任務上驗證了 randomized quantization 相對于已有自監督工作的優越性。尤其在下游訓練集數據量較少的情況下,本文的方法顯著超過已有點云自監督算法。

a1e8e60a-512a-11ee-a25d-92fbcf53809c.png

模態 3:語音

在語音數據集上本文的方法也取得了比已有自監督學習方法更優的性能。本文在六個下游數據集上驗證了該方法的優越性,其中在最難的數據集 VoxCeleb1 上(包含最多且遠超其他數據集的類別個數),本文方法取得了顯著的性能提升(5.6 個點)。

a20c9640-512a-11ee-a25d-92fbcf53809c.png

模態 4:DABS

DABS 是一個模態通用自監督學習的基準,涵蓋了多種模態數據,包括自然圖像、文本、語音、傳感器數據、醫學圖像、圖文等。在 DABS 涵蓋的多種不同模態數據上,我們的方法也優于已有的任意模態自監督學習方式。

a2360854-512a-11ee-a25d-92fbcf53809c.png

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴

原文標題:ICCV 2023?|?通用數據增強技術!適用于任意數據模態的隨機量化

文章出處:【微信號:CVer,微信公眾號:CVer】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    適用于任意數據模態的自監督學習數據增強技術

    本文提出了一種適用于任意數據模態的自監督學習數據增強技術
    的頭像 發表于 09-04 10:07 ?1826次閱讀
    <b class='flag-5'>適用于</b><b class='flag-5'>任意</b><b class='flag-5'>數據</b><b class='flag-5'>模態</b>的自監督學習<b class='flag-5'>數據</b><b class='flag-5'>增強</b><b class='flag-5'>技術</b>

    是否可以輸入隨機數據集來生成INT8訓練后量化模型?

    無法確定是否可以輸入隨機數據集來生成 INT8 訓練后量化模型。
    發表于 03-06 06:45

    請問KCL適用于封閉面,這個封閉面可以自己任意畫的嗎?

    請問KCL適用于封閉面,這個封閉面可以自己任意畫的嗎?只要是閉合的都可以嗎?
    發表于 06-10 07:51

    適用于Linux的通用

    `適用于Linux的通用庫 (適用于Linux的UL)UL for Linux是一個易于使用的開源庫,其結構類似于MCC的Windows產品(UL庫)。它支持大多數流行的MCC USB設備,并附帶
    發表于 08-31 14:02

    易飛揚發布通用液冷光模塊技術適用于任何規模和速率的液冷數據中心

    [中國,深圳,2021年7月29日]易飛揚宣布完成對于浸沒型液冷光模塊的技術研究。該研究成果適用于易飛揚研發的所有數據中心光模塊產品,可以為客戶的浸沒式液冷數據中心提供高可靠性和高性價
    發表于 07-29 10:07

    適用于STM32芯片的開發教程

    安富萊的論壇上也有很多有關單片機方面的有用的資料,大家可以參考。本文不僅適用于STM32芯片的開發,也適用于其它芯片。正文學習一款新的芯片,需要大家從官方獲取兩方面的資料,一個是相關的技術文檔,比如參數手冊、
    發表于 12-09 06:54

    適用于所有atmega328p項目的通用

    描述適用于所有 atmega328p 項目的通用板這個項目在我們的現實世界中有很多用途,它用于水位控制器,基于gsm的項目,7段接口,遠程控制,可連接Nrf24l01模塊和許多其他傳感器
    發表于 08-29 07:43

    詳解各種圖像數據增強技術

    機器學習或深度學習模型的訓練的目標是成為“通用”模型。這就需要模型沒有過度擬合訓練數據集,或者換句話說,我們的模型對看不見的數據有很好的了解。數據
    發表于 10-26 16:29

    USB標準適用于哪些應用

    USB標準適用于哪些應用 通用串行總線 (USB) 外設接口已廣泛應用于所有個人計算平臺及眾多工業和基礎設施平臺。不過,與此同時,人們對適用于
    發表于 04-19 14:31 ?2335次閱讀

    一種適用于任意余數基的高性能后向轉換結構_楊鵬

    一種適用于任意余數基的高性能后向轉換結構_楊鵬
    發表于 01-07 22:23 ?0次下載

    一種適用于SoC的瞬態增強型線性穩壓器_張琪

    一種適用于SoC的瞬態增強型線性穩壓器_張琪
    發表于 01-07 22:23 ?0次下載

    AN4148 適用于 FPS 應用的聲音降噪技術

    AN4148 適用于 FPS 應用的聲音降噪技術
    發表于 09-07 17:03 ?9次下載
    AN4148 <b class='flag-5'>適用于</b> FPS 應用的聲音降噪<b class='flag-5'>技術</b>

    適用于圖書推薦的數據挖掘模型

    針對傳統推薦算法精準度不高的問題,在潛在狄利克雷分布( LDA)主題挖掘模型的基礎上提出了一種新的適用于圖書推薦(BR)的數據挖掘模型-BR_LDA模型。通過對目標借閱者的歷史借閱數據與其他圖書
    發表于 01-04 15:18 ?0次下載
    <b class='flag-5'>適用于</b>圖書推薦的<b class='flag-5'>數據</b>挖掘模型

    AD2011:低成本,適用于OEM應用的3.5位DPM過時數據

    AD2011:低成本,適用于OEM應用的3.5位DPM過時數據
    發表于 05-14 13:13 ?11次下載
    AD2011:低成本,<b class='flag-5'>適用于</b>OEM應用的3.5位DPM過時<b class='flag-5'>數據</b>表

    用于任意排列多相機的通用視覺里程計系統

    如何讓多相機視覺SLAM系統更易于部署且對環境更具魯棒性?本文提出了一種適用于任意排列多相機的通用視覺里程計系統。在KITTI-360和MultiCamData數據集上驗證了該方法對于
    的頭像 發表于 12-13 11:22 ?1400次閱讀
    <b class='flag-5'>用于</b><b class='flag-5'>任意</b>排列多相機的<b class='flag-5'>通用</b>視覺里程計系統