在過去的幾年中,深度卷積神經(jīng)網(wǎng)絡(luò)(ConvNets)已經(jīng)改變了計(jì)算機(jī)視覺的領(lǐng)域,這是由于它們具有學(xué)習(xí)高級(jí)語(yǔ)義圖像特征的無(wú)與倫比的能力。然而,為了成功地學(xué)習(xí)這些特征,它們通常需要大量手動(dòng)標(biāo)記的數(shù)據(jù),這既昂貴又不可實(shí)行。因此,無(wú)監(jiān)督語(yǔ)義特征學(xué)習(xí),即在不需要手動(dòng)注釋工作的情況下進(jìn)行學(xué)習(xí),對(duì)于現(xiàn)今成功獲取大量可用的可視數(shù)據(jù)至關(guān)重要。
在我們的研究中,我們打算通過這種方式學(xué)習(xí)圖像特征:訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)來(lái)識(shí)別被應(yīng)用到作為輸入的圖像上的二維旋轉(zhuǎn)。我們從定性和定量?jī)煞矫孀C明,這個(gè)看似簡(jiǎn)單的任務(wù)實(shí)際上為語(yǔ)義特征學(xué)習(xí)提供了非常強(qiáng)大的監(jiān)督信號(hào)。我們?cè)诟鞣N無(wú)監(jiān)督的特征學(xué)習(xí)基準(zhǔn)中,對(duì)我們的方法進(jìn)行了詳盡的評(píng)估,并在所有這些基準(zhǔn)中展示出了最先進(jìn)的性能。
具體來(lái)說,我們?cè)谶@些基準(zhǔn)中的結(jié)果展現(xiàn)了在無(wú)監(jiān)督的表征學(xué)習(xí)中,較之先前最先進(jìn)的方法,我們的方法取得了巨大改進(jìn),從而顯著縮小了與監(jiān)督特征學(xué)習(xí)之間的差距。例如,在PASCAL VOC 2007檢測(cè)任務(wù)中,我們的無(wú)監(jiān)督預(yù)訓(xùn)練的AlexNet模型達(dá)到了54.4%的 最先進(jìn)的性能表現(xiàn)(在無(wú)監(jiān)督的方法中),比監(jiān)督學(xué)習(xí)的情況下僅少了2.4個(gè)百分點(diǎn)。當(dāng)我們將無(wú)監(jiān)督的學(xué)習(xí)特征遷移到其他任務(wù)上時(shí),我們得到了同樣的驚人結(jié)果,例如ImageNet分類、PASCAL分類、PASCAL分割和CIFAR-10分類。我們論文的代碼和模型將會(huì)發(fā)布在這里。
近年來(lái),在計(jì)算機(jī)視覺中廣泛采用的深度卷積神經(jīng)網(wǎng)絡(luò)(LeCun等人于1998年提出),在這一領(lǐng)域取得了巨大的進(jìn)步。具體來(lái)說,通過在具有大量手動(dòng)標(biāo)記數(shù)據(jù)的目標(biāo)識(shí)別(Russakovsky等人于2015年提出)或場(chǎng)景分類(Zhou等人于2014年提出)任務(wù)上對(duì)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,它們成功學(xué)習(xí)到了適合于圖像理解任務(wù)的強(qiáng)大視覺表征。
例如,在這種監(jiān)督的方式下,卷積神經(jīng)網(wǎng)絡(luò)所學(xué)習(xí)的圖像特征在它們被遷移到其他視覺任務(wù)時(shí)取得了很好的效果,比如目標(biāo)檢測(cè)(Girshick于2015年提出)、語(yǔ)義分割(Long等人于2015年提出),或者圖像描述(Karpathy 和 Fei-Fei于2015年提出)。然而,監(jiān)督特征學(xué)習(xí)有一個(gè)主要的限制,那就是需要大量的手動(dòng)標(biāo)記工作。在如今擁有大量可用的可視數(shù)據(jù)的情況下,這既昂貴又不可實(shí)行。
以90°的隨機(jī)倍數(shù)(例如,0°、90°、180°、270°)旋轉(zhuǎn)的圖像。我們自監(jiān)督特征學(xué)習(xí)方法的核心觀念是,如果一個(gè)人對(duì)圖像中描述的對(duì)象沒有概念,那么他就不能識(shí)別應(yīng)用于它們的旋轉(zhuǎn)。
因此,最近人們對(duì)以無(wú)監(jiān)督的方式學(xué)習(xí)高級(jí)的基于卷積神經(jīng)網(wǎng)絡(luò)的表征越來(lái)越感興趣,這種方式避免了對(duì)視覺數(shù)據(jù)的手動(dòng)注釋。其中,一個(gè)突出的范例就是所謂的自監(jiān)督學(xué)習(xí),它界定了一個(gè)注解不受約束的借口任務(wù),只使用圖像或視頻上的視覺信息,從而給特征學(xué)習(xí)提供一個(gè)代理監(jiān)督信號(hào)。
例如,為了學(xué)習(xí)特征,Zhang等人和Larsson等人訓(xùn)練了卷積神經(jīng)網(wǎng)絡(luò)以對(duì)灰度圖像進(jìn)行著色,Doersch等人(于2015年)、Noroozi 和 Favaro(于2016年)預(yù)測(cè)了圖像塊的相對(duì)位置,以及Agrawal等人(于2015年)預(yù)測(cè)了在兩個(gè)連續(xù)幀之間正在移動(dòng)的車輛的運(yùn)動(dòng)(即自動(dòng))。
這種自監(jiān)督任務(wù)背后的基本原理是,解決這些問題將迫使卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)語(yǔ)義圖像特征,這對(duì)其他視覺任務(wù)是有用的。事實(shí)上,通過上述自監(jiān)督任務(wù)所學(xué)習(xí)的圖像表征,盡管它們沒能做到與監(jiān)督學(xué)習(xí)表征的性能相當(dāng),但它們已經(jīng)被證明在遷移到其他視覺任務(wù)上時(shí)是個(gè)好選擇,諸如目標(biāo)識(shí)別、目標(biāo)檢測(cè)和語(yǔ)義分割。其他成功的無(wú)監(jiān)督特征學(xué)習(xí)案例是基于聚類的方法、基于重構(gòu)的方法,和學(xué)習(xí)生成概率模型的方法。

我們所提出的用于語(yǔ)義特征學(xué)習(xí)的自監(jiān)督任務(wù)的說明圖
我們的研究遵循自監(jiān)督范例,并提出,通過訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)(ConvNets)識(shí)別應(yīng)用于其作為輸入的圖像的幾何變換,從而學(xué)習(xí)圖像表示。更具體地說,首先,我們定義了一組離散的幾何變換,然后將這些幾何變換中的每一個(gè)應(yīng)用于數(shù)據(jù)集上的每個(gè)圖像,并且將生成的變換圖像饋送到經(jīng)過訓(xùn)練以識(shí)別每個(gè)圖像的變換的卷積神經(jīng)網(wǎng)絡(luò)模型中。在這個(gè)方法中,它是一組幾何變換,實(shí)際上定義了卷積神經(jīng)網(wǎng)絡(luò)模型所必須學(xué)習(xí)的分類接口任務(wù)(classification pretext task)。
因此,為了實(shí)現(xiàn)無(wú)監(jiān)督的語(yǔ)義特征學(xué)習(xí),正確地選擇這些幾何變換是至關(guān)重要的。我們提出的是將幾何變換定義為0°、90°、180°和270°的圖像旋轉(zhuǎn)。因此,卷積神經(jīng)網(wǎng)絡(luò)模型在識(shí)別四個(gè)圖像旋轉(zhuǎn)之一(見圖2)的4種圖像分類任務(wù)上進(jìn)行了訓(xùn)練。我們認(rèn)為,為了讓一個(gè)ConvNet模型能夠識(shí)別應(yīng)用于圖像中的旋轉(zhuǎn)變換,它需要理解圖像中所描述的對(duì)象的概念(參見圖1),例如它們?cè)趫D像中的位置、類型和、姿勢(shì)。在整篇論文中,我們從定性和定量的論證上支持這一理論。
此外,我們經(jīng)過實(shí)驗(yàn)證明,盡管我們的自監(jiān)督方法很簡(jiǎn)單,但預(yù)測(cè)旋轉(zhuǎn)變換的任務(wù)為特征學(xué)習(xí)提供了一個(gè)強(qiáng)大的替代監(jiān)督信號(hào)。在相關(guān)基準(zhǔn)測(cè)試上取得了顯著的進(jìn)步。

由AlexNet模型所生成的注意力圖(attention map),對(duì)(a)進(jìn)行訓(xùn)練以識(shí)別目標(biāo)(監(jiān)督),和對(duì)(b)進(jìn)行訓(xùn)練以識(shí)別圖像旋轉(zhuǎn)(自監(jiān)督)。為了生成一個(gè)卷積層的注意圖,我們首先計(jì)算該層的特征映射,然后我們提高power p上的每個(gè)特征激活,最后我們對(duì)特征映射的每個(gè)位置處的激活進(jìn)行求和。對(duì)于卷積層1,2和3,我們分別使用了p = 1、p = 2和p = 4
需要注意的是,我們的自監(jiān)督任務(wù)不同于Dosovitskiy等人于2014年和Agrawal等人于2015年所提出的研究方法,盡管他們也涉及到幾何變換。Dosovitskiy等人于2014年訓(xùn)練了卷積神經(jīng)網(wǎng)絡(luò)模型,以產(chǎn)生對(duì)圖像的區(qū)分性表征,同時(shí)不改變幾何和色度變換。相反,我們訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)模型來(lái)識(shí)別應(yīng)用于圖像的幾何變換。
這與Agrawal等人于2015年提出的自運(yùn)動(dòng)方法(egomotion method)有根本的不同,該方法采用了一種帶有孿生(siamese)結(jié)構(gòu)的卷積神經(jīng)網(wǎng)絡(luò)模型,該模型將兩個(gè)連續(xù)的視頻幀作為輸入,并進(jìn)行訓(xùn)練以預(yù)測(cè)(通過回歸)其相機(jī)轉(zhuǎn)換。相反,在我們的方法中,卷積神經(jīng)網(wǎng)絡(luò)將一個(gè)單一圖像作為輸入,我們已經(jīng)應(yīng)用了一個(gè)隨機(jī)幾何變換(旋轉(zhuǎn)),并經(jīng)過訓(xùn)練(通過分類)識(shí)別這種幾何變換,而不需要訪問初始圖像。

由AlexNet模型所學(xué)習(xí)第一層過濾器在(a)監(jiān)督目標(biāo)識(shí)別任務(wù)和(b)識(shí)別旋轉(zhuǎn)圖像的自監(jiān)督任務(wù)上進(jìn)行的訓(xùn)練
我們的貢獻(xiàn):
?我們提出了一個(gè)新的自監(jiān)督任務(wù),這個(gè)任務(wù)非常簡(jiǎn)單,與此同時(shí),我們也在文章中進(jìn)行了展示,為語(yǔ)義特征學(xué)習(xí)提供了強(qiáng)大的監(jiān)督信號(hào)。
?我們?cè)诟鞣N環(huán)境(例如半監(jiān)督或遷移學(xué)習(xí)環(huán)境)和各種視覺任務(wù)(即CIFAR-10、ImageNet、Places和PASCAL分類以及檢測(cè)或分割任務(wù))中詳細(xì)評(píng)估了我們的自監(jiān)督方法。
?我們提出的新的自監(jiān)督方法在各個(gè)方面都展現(xiàn)出了最先進(jìn)的成果,較先前的無(wú)監(jiān)督方法有了顯著改善。
?我們的研究表明,對(duì)于幾個(gè)重要的視覺任務(wù)而言,我們的自監(jiān)督學(xué)習(xí)方法顯著縮小了與無(wú)監(jiān)督和監(jiān)督特征學(xué)習(xí)之間的差距。
經(jīng)過研究,我們提出了一種用于自監(jiān)督特征學(xué)習(xí)的新方法,它通過訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)模型,使其能夠識(shí)別已經(jīng)用作輸入圖像的圖像旋轉(zhuǎn)。盡管我們的自監(jiān)督任務(wù)很簡(jiǎn)單,但我們證明,它可以成功地訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)模型,從而學(xué)習(xí)語(yǔ)義特征,這些語(yǔ)義特征對(duì)于各種視覺感知任務(wù)非常有用,例如目標(biāo)識(shí)別、目標(biāo)檢測(cè)和目標(biāo)分割。
我們?cè)诟鞣N無(wú)監(jiān)督和半監(jiān)督條件下對(duì)我們的方法進(jìn)行了詳盡的評(píng)估,并且在測(cè)試中實(shí)現(xiàn)了最先進(jìn)的性能。具體而言,我們的自監(jiān)督方法大幅度改進(jìn)了ImageNet分類、PASCAL分類、PASCAL檢測(cè)、PASCAL分割和CIFAR-10分類的無(wú)監(jiān)督特征學(xué)習(xí)的最新結(jié)果,超越了以往的方法,因此大幅縮小了無(wú)監(jiān)督和監(jiān)督特征學(xué)習(xí)之間的差距。
-
神經(jīng)網(wǎng)絡(luò)
+關(guān)注
關(guān)注
42文章
4838瀏覽量
107753 -
圖像
+關(guān)注
關(guān)注
2文章
1096瀏覽量
42326
原文標(biāo)題:無(wú)監(jiān)督學(xué)習(xí)最新研究:通過簡(jiǎn)單的「圖像旋轉(zhuǎn)」預(yù)測(cè)便可為圖像特征學(xué)習(xí)提供強(qiáng)大監(jiān)督信號(hào)
文章出處:【微信號(hào):AItists,微信公眾號(hào):人工智能學(xué)家】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
機(jī)器學(xué)習(xí)技術(shù)在圖像處理中的應(yīng)用
50多種適合機(jī)器學(xué)習(xí)和預(yù)測(cè)應(yīng)用的API,你的選擇是?(2018年版本)
如何平滑地旋轉(zhuǎn)圖像?
基于OpenCV的圖像特征智能識(shí)別系統(tǒng)設(shè)計(jì)
如何利用倍頻信號(hào)濾波的非規(guī)則圖像動(dòng)態(tài)特征
半監(jiān)督的譜聚類圖像分割
opencv如何實(shí)現(xiàn)圖像旋轉(zhuǎn)_原理是什么
基于鄰域特征學(xué)習(xí)的單幅圖像超分辨重建
簡(jiǎn)單好上手的圖像分類教程!
基于SIFT特征的圖像配準(zhǔn)(圖像匹配)
采用自監(jiān)督CNN進(jìn)行單圖像深度估計(jì)的方法
通過簡(jiǎn)單的「圖像旋轉(zhuǎn)」預(yù)測(cè)便可為圖像特征學(xué)習(xí)提供強(qiáng)大監(jiān)督信號(hào)
評(píng)論