深度解析CLIP在視覺語言理解與定位任務上的無監督遷移研究

　　CLIP-VG： Self-paced Curriculum Adapting of CLIP for Visual Grounding

　　論文題目：CLIP-VG： Self-paced Curriculum Adapting of CLIP for Visual Grounding

　　發表期刊：IEEE Transactions on Multimedia 一區頂刊

　　工作內容：基于自步課程學習實現多模態大模型CLIP在多模態視覺語言理解與定位任務上的無監督遷移研究

第一作者：肖麟慧（中科院自動化所博士）通訊作者：徐常勝作者單位：中國科學院自動化所-多模態人工智能系統全國重點實驗室；鵬城實驗室；中國科學院大學人工智能學院 ?

圖1。我們提出的CLIP-VG的主要思想，它在自步課程自適應的范式中使用偽語言標簽來自適應CLIP，從而實現在視覺定位的任務上得遷移學習。

論文摘要：

視覺定位(VG)是視覺和語言領域的一個重要課題，它涉及到在圖像中定位由表達句子所描述的特定區域。為了減少對人工標記數據的依賴，無監督的方法使用偽標簽進行學習區域定位。然而，現有的無監督方法的性能高度依賴于偽標簽的質量，并且這些方法總是遇到多樣性有限的問題。為了利用視覺和語言預訓練模型來解決定位問題，并合理利用偽標簽，我們提出了一種新穎的方法CLIP-VG，它可以使用偽語言標簽對CLIP進行自步式地課程自適應。我們提出了一個簡單而高效的端到端網絡架構來實現CLIP到視覺定位的遷移。在以CLIP為基礎的架構的基礎上，我們進一步提出了單源和多源課程自適應算法，這些算法可以逐步找到更可靠的偽語言標簽來學習最優模型，從而實現偽語言標簽的可靠性和多樣性之間的平衡。我們的方法在單源和多源場景下的RefCOCO/+/g數據集上都明顯優于當前最先進的無監督方法，提升幅度分別為從6.78%至10.67%和11.39%至14.87%。此外，我們的方法甚至優于現有的弱監督方法。代碼和模型可在https://github.com/linhuixiao/CLIP-VG上獲得。

論文引言：

視覺定位(Visual Grounding，VG)，又稱指代表達理解（Referring Expression Comprehension，REC)，或短語定位（Phrase Grounding, PG)，是指在特定圖像中定位文本表達句子所描述的邊界框(bounding box，即bbox)區域，這一技術已成為視覺問答[6]、視覺語言導航[7]等視覺語言(Vision-Language, V-L)領域的關鍵技術之一。? ? ?

由于其跨模態的特性，定位需要同時理解語言表達和圖像的語義，這一直是一項具有挑戰性的任務?？紤]到其任務復雜性，現有的方法大多側重于全監督設置(即，使用手工三元組數據作為監督信號)。然而，有監督的定位要求需要高質量的手工標注信息。具體來說，表達句子需要與bbox配對，同時在指代上是唯一的，并且需要具有豐富的語義信息。為了減少對手工勞動密集的標記數據的依賴，弱監督(即，僅給定圖像和查詢對，沒有配對的bbox)和無監督定位(即，不使用任何與任務相關的標注信息去學習定位圖像區域)最近受到越來越多的關注。現有的無監督定位方法主要是利用預訓練的檢測器和額外的大規模語料庫實現對未配對數據的指代定位。最先進的(SOTA)無監督方法提出使用人工設計的模板和空間關系先驗知識來匹配目標和屬性檢測器獲得的結果，以及相應的目標bbox。這將生成表達式和bbox偽對，它們被用作為偽標簽，進而以監督的方式學習定位模型。然而，這些現有方法中的偽標注信息的有效性嚴重依賴于總是在特定數據集上預訓練的目標或屬性檢測器。這可能會限制語言分類和匹配模式的多樣性，以及上下文語義的豐富度，最終損害模型泛化能力。

在過去的幾年里，視覺語言預訓練(Vision-Language Pre-trained, VLP)基礎模型(如CLIP)通過使用少量任務相關數據來進行遷移或提示的范式，在許多下游任務上取得了令人振奮的結果。這些基礎模型的主要優點是，它們可以通過自監督約束從現成的web數據和各種下游任務數據(例如，BeiT3)中學習一般通用的知識。這啟發我們考慮轉移VLP模型(即，本工作中使用CLIP)，以無監督的方式解決下游定位任務。然而由于缺乏與任務相關的標記數據，因此，這是一項具有挑戰性的任務。一個直接的解決方案是利用以前的無監督定位方法中生成的偽標簽來微調預訓練的模型。然而，這將影響預訓練模型的泛化能力，因為特定的偽標簽和真實特定任務的標簽之間存在差距。

在本文中，我們提出了CLIP-VG，如圖1所示，這是一種新穎的方法，可以通過利用偽語言標簽來解決視覺定位問題，對CLIP進行自步地課程自適應。首先，我們提出了一個簡單而高效的端到端純Transformer的僅編碼器的網絡架構。我們為了實現CLIP向視覺定位的任務遷移，只需要調整少量的參數，花費最少的訓練資源。其次，為了通過尋找可靠的偽標簽來實現對基于CLIP的網絡架構的更穩定的自適應遷移，我們提出了一種評估實例級標簽質量的方案和一種基于自步課程學習(SPL)的漸進自適應算法，即可靠性評估(III-C部分)和單源自步自適應(SSA)算法(III-D部分)。實例級可靠性被定義為通過特定標簽源學習的評估器模型正確預測的可能性。具體而言，我們學習了一個初步的定位模型作為可靠性評估器，以CLIP為偽標簽的主干，然后對樣本的可靠性進行評分，構建可靠性直方圖(RH)。接下來，根據構建的RH，以自步的方式執行SSA算法，逐步采樣更可靠的偽標簽，以提高定位的性能。為了有效地選擇偽配對的數據子集，我們設計了一種基于改進的二叉搜索的貪心樣本選擇策略，以實現可靠性和多樣性之間的最優平衡。

我們所提出的CLIP-VG的一個主要優點是其漸進式自適應框架不依賴于偽標簽的特定形式或質量。因此，CLIP-VG可以靈活擴展，訪問多個偽標簽源。在多源場景中，我們首先獨立學習每個偽標簽源的特定源的定位模型。然后，我們提出了源級復雜度的評估標準。具體而言，在SPL的不同步驟中，我們根據每個表達式中實體的平均數量，從簡單到復雜逐步選擇偽標簽源。在SSA的基礎上，我們進一步提出了特定源可靠性(SR)和跨源可靠性(CR)，以及多源自適應(MSA)算法(第3 - e節)。特定源的可靠性定義為使用當前標簽源學習的定位模型正確預測當前偽標簽的可能性近似。相應的，交叉源可靠性的定義是通過與其他標簽源學習的定位模型正確預測當前源偽標簽的可能性近似。因此，整個方法可以漸進式地利用偽標簽來學習易難課程范式中的定位模型，最大限度地利用不同源的偽標簽，保證基礎模型的泛化能力。

在RefCOCO/+/g、RefitGame和Flickr30K Entities這五個主流測試基準中，我們的模型在單源和多源場景下的性能都明顯優于SOTA無監督定位方法Pseudo-Q，分別達到6.78% ~ 10.67% 和11.39% ~ 14.87%。所提出的SSA算法和MSA算法的性能增益為3%以上。此外，我們的方法甚至優于現有的弱監督方法。與全監督SOTA模型QRNet相比，我們僅使用其更新參數的7.7% 就獲得了相當的結果，同時在訓練和推理方面都獲得了顯著的加速，分別高達26.84倍和7.41倍。與最新報道的結果相比，我們的模型在速度和能效方面也達到了SOTA。綜上所述，本文的貢獻有四個方面:

據我們所知，我們是第一個使CLIP實現無監督視覺定位的。我們的方法可以將CLIP的跨模態學習能力轉移到視覺定位上，而且訓練成本很小。
我們是第一個在無監督視覺定位中引入自步課程學習的方法。我們提出的可靠性評估和單源自步自適應的方法可以通過在由易到難的學習范式中使用偽標簽逐步增強基于CLIP的視覺定位模型。
我們首先提出了多源自步自適應算法來擴展了我們的方法，同時可以獲取多個偽標簽源的信息，可以靈活地提高語言分類的多樣性。
我們進行了大量的實驗來評估我們方法的有效性。結果表明，我們的方法在無監督環境下取得了顯著的改進，同樣，我們的模型在全監督環境下也具有一定的競爭力。

圖2. 我們的CLIP-VG模型架構(III-B部分)作為視覺語言定位模型來實現CLIP的自步度課程自適應。

圖3。利用偽語言標簽和自步課程學習實現無監督視覺定位。(a)偽語言標簽的例子(不同偽語言標簽的來源在第IV-A節中進行了描述)。(b)單源自步自適應(Single-source self-paced Adapting, SSA)利用視覺語言定位模型(VLGM)對偽模板標簽進行可靠性評估和貪婪樣本選擇，通過尋找可靠的偽標簽實現對CLIP更穩定的自適應遷移。(c)多源自適應(Multi-source Self-paced Adapting, MSA)在SSA的基礎上進一步提出了特定源可靠性(SR)和跨源可靠性(CR)。它依次進行偽標簽源選擇、可靠性評估器選擇和貪婪樣本選擇，從而達到可靠性和多樣性的最佳平衡。

表1. 在RefCOCO/+/g三個數據集上基于top-1精度的SOTA方法對比結果