?背景
在機器學習領域中,學習不平衡的標注數據一直是一個常見而具有挑戰性的任務。近年來,視覺 Transformer 作為一種強大的模型,在多個視覺任務上展現出令人滿意的效果。然而,視覺 Transformer 處理長尾分布數據的能力和特性,還有待進一步挖掘。
目前,已有的長尾識別模型很少直接利用長尾數據對視覺 Transformer(ViT)進行訓練。基于現成的預訓練權重進行研究可能會導致不公平的比較結果,因此有必要對視覺 Transformer 在長尾數據下的表現進行系統性的分析和總結。

論文鏈接:
https://arxiv.org/abs/2212.02015代碼鏈接:
https://github.com/XuZhengzhuo/LiVT 本文旨在填補這一研究空白,詳細探討了視覺 Transformer 在處理長尾數據時的優勢和不足之處。本文將重點關注如何有效利用長尾數據來提升視覺 Transformer 的性能,并探索解決數據不平衡問題的新方法。通過本文的研究和總結,研究團隊有望為進一步改進視覺 Transformer 模型在長尾數據任務中的表現提供有益的指導和啟示。這將為解決現實世界中存在的數據不平衡問題提供新的思路和解決方案。 文章通過一系列實驗發現,在有監督范式下,視覺 Transformer 在處理不平衡數據時會出現嚴重的性能衰退,而使用平衡分布的標注數據訓練出的視覺 Transformer 呈現出明顯的性能優勢。相比于卷積網絡,這一特點在視覺 Transformer 上體現的更為明顯。另一方面,無監督的預訓練方法無需標簽分布,因此在相同的訓練數據量下,視覺 Transformer 可以展現出類似的特征提取和重建能力。 基于以上觀察和發現,研究提出了一種新的學習不平衡數據的范式,旨在讓視覺 Transformer 模型更好地適應長尾數據。通過這種范式的引入,研究團隊希望能夠充分利用長尾數據的信息,提高視覺 Transformer 模型在處理不平衡標注數據時的性能和泛化能力。
?文章貢獻
本文是第一個系統性的研究用長尾數據訓練視覺 Transformer 的工作,在此過程中,做出了以下主要貢獻:
首先,本文深入分析了傳統有監督訓練方式對視覺 Transformer 學習不均衡數據的限制因素,并基于此提出了雙階段訓練流程,將視覺 Transformer 模型內在的歸納偏置和標簽分布的統計偏置分階段學習,以降低學習長尾數據的難度。其中第一階段采用了流行的掩碼重建預訓練,第二階段采用了平衡的損失進行微調監督。
?
?其次,本文提出了平衡的二進制交叉熵損失函數,并給出了嚴格的理論推導。平衡的二進制交叉熵損失的形式如下:
?
?與之前的平衡交叉熵損失相比,本文的損失函數在視覺 Transformer 模型上展現出更好的性能,并且具有更快的收斂速度。研究中的理論推導為損失函數的合理性提供了嚴密的解釋,進一步加強了我們方法的可靠性和有效性。
▲不同損失函數的收斂速度的比較
基于以上貢獻,文章提出了一個全新的學習范式 LiVT,充分發揮視覺 Transformer 模型在長尾數據上的學習能力,顯著提升模型在多個數據集上的性能。該方案在多個數據集上取得了遠好于視覺 Transformer 基線的性能表現。
▲不同參數量下在ImageNet-LT上的準確性
▲在ImagNet-LT(左)和iNaturalist18(右)數據集上的性能表現同時,本文還驗證了在相同的訓練數據規模的情況下,使用ImageNet的長尾分布子集(LT)和平衡分布子集(BAL)訓練的 ViT-B 模型展現出相近的重建能力。如 LT-Large-1600 列所示,在 ImageNet-LT 數據集中,可以通過更大的模型和 MGP epoch 獲得更好的重建結果。
?
?
?總結
本文提供了一種新的基于視覺 Transformer 處理不平衡數據的方法 LiVT。LiVT 利用掩碼建模和平衡微調兩個階段的訓練策略,使得視覺 Transformer 能夠更好地適應長尾數據分布并學習到更通用的特征表示。該方法不僅在實驗中取得了顯著的性能提升,而且無需額外的數據,具有實際應用的可行性。 論文的更多細節請參考論文原文和補充材料。
原文標題:CVPR 2023 | 清華大學提出LiVT,用視覺Transformer學習長尾數據
文章出處:【微信公眾號:智能感知與物聯網技術研究所】歡迎添加關注!文章轉載請注明出處。
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。
舉報投訴
-
物聯網
+關注
關注
2945文章
47818瀏覽量
414833
原文標題:CVPR 2023 | 清華大學提出LiVT,用視覺Transformer學習長尾數據
文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯網技術研究所】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
熱點推薦
沐曦股份聯合清華大學發布磁性材料AI原子基座模型
2月27日,沐曦股份聯合清華大學等多家研究機構聯合發布了磁性材料AI原子基座模型。該模型是首個覆蓋寬溫壓域的磁性材料AI原子模型,經權威專家鑒定,整體技術水平達到國際領先。
清華大學研學團到訪國民技術參觀交流
近日,清華大學集成電路學院、社會科學學院、土木工程系的博士及碩士研究生一行16人走進國民技術深圳總部,開展了一場別開生面的研學實踐活動。本次活動聚焦技術交流與人才培養,推動校企合作邁向新階段。
清華大學“啟·創”計劃走進拓維信息,校企共探AI時代產學研合作新范式
1月13日,清華大學“啟·創”計劃第十三期赴湘社會實踐活動暨TalkwebHouse創業私董會第二期在拓維信息圓滿舉辦。清華大學創業團隊20余名師生,與拓維信息團隊深入對話,圍繞“AI+”產業融合
沐曦與Arm、熠知一同到訪清華大學交流座談
為助力頂尖學府清華大學在“AI+教科研”領域取得新突破,培養具備AI創新能力的人才,1月12日,沐曦集成電路(上海)股份有限公司(股票代碼:688802)、半導體頭部企業Arm控股有限公司(納斯達克
時識科技DAVIS346傳感器助力清華大學突破LIBS技術瓶頸
近日,清華大學深圳國際研究生院王希林教授團隊創新性地引入時識科技(SynSense)的類腦動態視覺傳感器DAVIS346,首次將動態視覺傳感器(DVS)技術應用于激光誘導等離子體光學信號的捕獲,并以
普華基礎軟件走進清華大學研究生課堂
近日,普華基礎軟件走進清華大學車輛與運載學院,在《車輛控制工程》課堂上開展研究生專題授課和交流。本次授課聚焦智能駕駛汽車基礎軟件發展與關鍵技術,旨在搭建校企知識傳遞橋梁,為高校學子帶來產業前沿視角,助力培養符合行業需求的復合型人才。
清華大學企業家協會一行到訪立訊精密參觀交流
11月14日上午,立訊精密CPBG事業群與技術委員會在昆山園區,熱情接待了到訪的清華大學企業家協會(TEEC)一行。此次交流,不僅是一次企業展示,更是一次思想碰撞與智慧交融的契機。
愛芯元智出席第四屆清華大學汽車芯片設計及產業應用研討會
近日,第四屆清華大學汽車芯片設計及產業應用研討會暨校友論壇在蘇州市吳江區舉行。作為清華大學自動化系校友,愛芯元智創始人兼董事長仇肖莘博士應邀發表主旨演講,深入剖析了高智價比AI芯片推動智能汽車普惠發展的實施路徑。
地平線H-RDT模型斬獲CVPR 2025大賽冠軍
近日,在計算機視覺與模式識別領域頂級會議CVPR 2025舉辦的RoboTwin雙臂機器人競賽中,地平線機器人實驗室與清華大學計算機系朱軍團隊聯合提出的H-RDT憑強大性能和領先成功率
清華大學五道口金融學院走進賽目科技
近日,聚焦自動駕駛未來路徑的專題沙龍在中關村國際創新大廈成功舉辦。此次活動由清華大學五道口金融學院主辦,北京賽目科技股份有限公司、北京海新域城市更新集團提供活動支持,為清華-康奈爾雙學位金融MBA項目在讀學生及校友、自動駕駛領域的頂尖專家、企業家們搭建了一個交流與碰撞的平
清華大學TOP EE+項目參訪美光上海
此前,2025年6月4日至6日,清華大學TOP EE+ 項目于美光上海的參訪活動圓滿舉行。為期三天的活動匯聚了來自清華大學電子工程系的優秀留學生與美光的多位管理者和工程師,展開了深入的技術交流與文化互動之旅。
導遠科技與清華大學無錫應用技術研究院達成合作
近日,導遠科技與清華大學無錫應用技術研究院(以下簡稱:研究院)達成合作。導遠科技將提供高精度定位產品及解決方案,以支持研究院在L4級自動駕駛和人形機器人領域的技術研發及轉化落地。
從清華大學到鎵未來科技,張大江先生在半導體功率器件十八年的堅守!
從清華大學到鎵未來科技,張大江先生在半導體功率器件十八年的堅守!近年來,珠海市鎵未來科技有限公司(以下簡稱“鎵未來”)在第三代半導體行業異軍突起,憑借領先的氮化鎵(GaN)技術儲備和不斷推出的新產品
發表于 05-19 10:16
清華大學攜手華為打造業內首個園區網絡智能體
清華大學響應國家教育新基建戰略,正在加速推進網絡管理平臺升級:為滿足在線教育、協同創新及智慧校園的發展需求,為清華大學躋身世界一流大學創造基礎條件,清華大學攜手華為打造業內首個園區網絡
2025年開放原子校源行清華大學站成功舉辦
近日,由開放原子開源基金會、清華大學計算機科學與技術系、清華大學軟件學院主辦的開放原子“校源行”(清華站)在清華大學成功舉辦。
CVPR 2023 | 清華大學提出LiVT,用視覺Transformer學習長尾數據
評論