超碰777,国产AV九色黄片百度,国产精品日韩欧美一区二区三区

本文介紹我們在ICCV 2023上接收的論文《Not All Features Matter: Enhancing Few-shot CLIP with Adaptive Prior Refinement》。這篇文章基于CLIP提出了一種特征提純的方法為下游任務(wù)選擇合適的特征，以此來提高下游任務(wù)的性能并同時提高計算效率。

論文: https://arxiv.org/pdf/2304.01195

代碼: https://github.com/yangyangyang127/APE

相比于其他方法，我們能夠在性能和計算量上實現(xiàn)較好的均衡，如下圖所示。

1. 概述

問題：大規(guī)模預(yù)訓(xùn)練的視覺-文本模型，如CLIP，BLIP等，能夠在多種數(shù)據(jù)分布下表現(xiàn)出良好的性能，并已經(jīng)有很多的工作通過few-shot的方式將它們應(yīng)用于下游任務(wù)。但這些方法或者性能提升有限（如CoOp, CLIP-Adapter等），或者需要訓(xùn)練大量的參數(shù)（如Tip-Adapter等）。因此我們會問，能否同時實現(xiàn)高few-shot性能且少參數(shù)量呢？

出發(fā)點和思路：CLIP是一個通用的模型，考慮到下游數(shù)據(jù)分布的差異，對某個下游任務(wù)來說，CLIP提取的特征并不全是有用的，可能包含一部分冗余或噪聲。因此，在這篇文章中，我們首先提出一種特征提純的方法，為每個數(shù)據(jù)集提純個性化的特征通道，從而減少了參數(shù)量，且提升了計算效率；然后設(shè)計了一種參數(shù)高效的few-shot框架，提升了CLIP在不同數(shù)據(jù)集上的few-shot性能，下圖是論文的整體流程圖。

2. 方法

這一部分中，我們分別介紹特征提純模塊和新提出的few-shot框架。

2.1 特征提純

CLIP是一個通用的模型，在下游任務(wù)上，考慮到數(shù)據(jù)分布，CLIP提取的特征可能并不全是有用的，因此我們試圖為每個下游數(shù)據(jù)集提純個性化的特征。我們通過最大化類間差異，或者說最小化類間相似度，來選擇合適的特征。對于一個類的下游任務(wù)，我們計算所有類的所有樣本表征之間平均相似度，

其中，代表類的序號，代表兩個類的先驗概率，代表兩個類中的樣本數(shù)量，是相似度函數(shù)，代表表征。假設(shè)代表特征通道是否被選中,代表特征維度，代表預(yù)先限制個特征被選中，則通過求解使得最小我們可以得到需要的特征，即求解以下優(yōu)化問題：

其中代表逐元素相乘。最后，經(jīng)過特征提純，我們在ImageNet上統(tǒng)計了圖像和文本相似度的變化，如下圖所示。相比于沒有特征提純，我們選定的特征減小了類間相似度，同時增大了圖像和文本的匹配程度。且我們提純出的特征能夠獲得更好的similarity map。

2.2 三邊關(guān)系的few-shot框架

CLIP等視覺文本模型一般基于測試圖像和文本表征的相似度或距離來完成分類任。但除此之外，我們還可以使用測試圖像和訓(xùn)練圖像的相似度來校正，并使用訓(xùn)練圖像和文本的相似度來為困難樣本提供額外的信息。基于這種考慮，我們探究了測試圖像、文本描述和訓(xùn)練圖像之間的三邊嵌入關(guān)系。

假設(shè)代表測試圖像特征，和分別代表訓(xùn)練圖像和文本描述的特征，代表訓(xùn)練圖像的label，則我們可以建立三邊關(guān)系，

其中，代表一般的CLIP基于視覺文本相似度的預(yù)測，代表模態(tài)間的相似度，即測試圖像和訓(xùn)練圖像之間的相似度，反映了訓(xùn)練圖像對測試圖像的貢獻。基于以上三種關(guān)系，可以得到最終的預(yù)測為

我們可以將特征提純與三邊關(guān)系結(jié)合起來，直接在選擇出來的特征上進行三種關(guān)系的few-shot學(xué)習(xí)，這樣可以減少參數(shù)和計算效率。我們提出了training-free和training-required兩種框架，如下圖，后者相比于前者增加了少量可訓(xùn)練的殘差。

3. 結(jié)果

我們在11個分類數(shù)據(jù)集上研究了方法的性能，并提出了training-free和training-required兩個版本，下圖是11個數(shù)據(jù)集上的平均性能以及和其他方法的比較。

與其他方法相比，我們的計算效率和參數(shù)量都有所優(yōu)化。

提純的特征通道的數(shù)量對結(jié)果也有所影響：

感謝您的閱讀，更多的實現(xiàn)細節(jié)和比較請看我們的文章，我們的代碼已開源。感謝您提出寶貴意見。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴