日本久久久久精品免费网播放,国产经典久久,国产成人久久精品麻豆二区

1. 論文信息

標題：Long-Tail Learning via Logit Adjustment

作者：Aditya Krishna Menon, Sadeep Jayasumana, Ankit Singh Rawat, Himanshu Jain, Andreas Veit, Sanjiv Kumar (Google Research)

原文鏈接：https://arxiv.org/abs/2007.07314

代碼鏈接：https://github.com/google-research/google-research/tree/master/logit_adjustment

2. 介紹

在傳統(tǒng)的分類和識別任務(wù)中，訓(xùn)練數(shù)據(jù)的分布往往都受到了人工的均衡，即不同類別的樣本數(shù)量無明顯差異，如最有影響力的ImageNet，每種類別的樣本數(shù)量就保持在1300張左右。

在實際的視覺相關(guān)任務(wù)中，數(shù)據(jù)都存在如上圖所示的長尾分布，少量類別占據(jù)了絕大多少樣本，如圖中Head部分，大量的類別僅有少量的樣本，如圖中Tail部分。解決長尾問題的方案一般分為4種：

重采樣 (Re-sampling)：采樣過程中采樣不同的策略，如對tail中的類別樣本進行過采樣，或者對head類別樣本進行欠采樣。

重加權(quán) (Re-weighting)：在訓(xùn)練過程中給與每種樣本不同的權(quán)重，對tail類別loss設(shè)置更大的權(quán)重，這樣有限樣本數(shù)量。

新的學(xué)習(xí)策略 (Learning strategy)：有專門為解決少樣本問題涉及的學(xué)習(xí)方法可以借鑒，如：meta-learning、transfer learning。另外，還可以調(diào)整訓(xùn)練策略，將訓(xùn)練過程分為兩步：第一步不區(qū)分head樣本和tail樣本，對模型正常訓(xùn)練；第二步，設(shè)置小的學(xué)習(xí)率，對第一步的模型使用各種樣本平衡的策略進行finetune。

其實就筆者喜歡的風(fēng)格而言，我對重加權(quán)這一方向的工作更為喜歡，因為通過各種統(tǒng)計學(xué)上的結(jié)論，來設(shè)計很好的loss改進來解決長尾/不均衡分布問題，我喜歡這類研究的原因是，他們（大部分）實現(xiàn)簡單，往往只需幾行代碼修改下loss，就可以取得非常有競爭力的結(jié)果，因為簡單所以很容易運用到一些復(fù)雜的任務(wù)中。

而從“奧卡姆剃刀”來看，我覺得各種遷移模型的理念雖然非常好，從頭部常見類中學(xué)習(xí)通用知識，然后遷移到尾部少樣本類別中，但是往往會需要設(shè)計復(fù)雜的模塊，有增加參數(shù)實現(xiàn)過擬合的嫌疑，我認為這其實是把簡單問題復(fù)雜化。我覺得從統(tǒng)計方面來設(shè)計更加優(yōu)美，因此本文來介紹一篇我非常喜歡的從統(tǒng)計角度出發(fā)的工作。這篇論文來自Google Research，他們提供了一種logit的調(diào)整方法來應(yīng)對長尾分布的問題。由于研究風(fēng)格更偏向 machine learning, 所以論文風(fēng)格更偏向統(tǒng)計類。

本文首先總結(jié)了對于logit的調(diào)整方法：

聚焦于測試階段：對學(xué)習(xí)完的logit輸出進行處理（post-hoc normalization），根據(jù)一些先驗假設(shè)進行調(diào)整。

聚焦于訓(xùn)練階段：在學(xué)習(xí)中調(diào)整loss函數(shù)，相對平衡數(shù)據(jù)集來說，調(diào)整優(yōu)化的方向。

如上圖，這兩種方法都有許多較為優(yōu)秀的工作，但是文中描述了這兩種方法的幾種限制：

weight normalization非常依賴于weight的模長會因為class的data數(shù)量稀少而變小，然而這種假設(shè)非常依賴于優(yōu)化器的選擇

直接修改loss進行重加權(quán)，也會影響模型的表征學(xué)習(xí)，從而導(dǎo)致優(yōu)化過程不穩(wěn)定，同時模型可能對尾部類過擬合，傷害了模型表征學(xué)習(xí)能力。

論文的motivation就是克服這些缺點，讓不同類（head and tail classed）之間的logit能有一個相對較大的margin，設(shè)以一個consistent的loss，來讓模型的性能更好。

3. 問題設(shè)定和過往方法回顧

3.1 Problem Settings

論文先從統(tǒng)計學(xué)的角度定義了一下這個problem settings，其實就是訓(xùn)練一個映射，讓這個scorer的誤分類損失最小：

但是類別不平衡的學(xué)習(xí)的setting導(dǎo)致P(y)分布是存在高度地skewed，使得許多尾部類別標簽出現(xiàn)的概率很低。在這里，錯誤分類的比例就不是一個合適的metric: 因為模型似乎把所有的尾部類別都分類成頭部類別也更夠取得比較好的效果。所為了解決這個問題，一個自然的選擇是平衡誤差，平均每個類的錯誤率，從而讓測試計算出的metric不是有偏的。

論文總結(jié)出了一個比較general的loss形式：

這里是類別 yy 的權(quán)重；是另一個超參, 用來控制 margin 的大小。

3.2Post-hoc weight normalization

由于頭部類別多，容易過擬合，自然會對頭部類別overconfidence，所以我們需要通過一定的映射來調(diào)整logit。具體到調(diào)整的策略，自然是讓大類置信度低一點，小類置信度高一點。

for , where and . Intuitively, either choice of upweights the contribution of rare labels through weight normalisation. The choice is motivated by the observations that tends to correlate with . Further to the above, one may enforce during training.

這里引用了一些其他做long-tail learning的論文，可以參考以便更好地對這一塊進行理解。

3.3 Loss modification

至于對于loss的修改，就是很直接了在前面加一個權(quán)重，對于的取值，自然就是各個工作重點關(guān)注和改進的地方。

論文給予原有的各種方法各種比較全面的總結(jié)。

4. 方法

首先進行Post-hoc logit adjustment：

其實等號左邊就是一個根據(jù)類別的樣本數(shù)進行re-weighting。但是為了在exp的線性變換加上temperature時候不影響排序問題，所以把等號右邊變成上式，通過這種方式放縮不會導(dǎo)致原本的排序出現(xiàn)問題。從而使得重加權(quán)仍能夠給尾部類更高的權(quán)重。

把loss改寫成易于理解的方式就如下：

下面這個更為直接的loss被成為為pairwise margin loss，它可以把 y 與 y' 之間的margin拉大。

然后就是實現(xiàn)結(jié)合：

通過一些特殊的取值和另外的trick，可以實現(xiàn)兩者的結(jié)合。

5. 實驗結(jié)果

這張圖非常有意思，可以看出兩個設(shè)計理念非常有效果。

可以發(fā)現(xiàn)該方法在頭部類和尾部類的性能都有所提升。

6. 結(jié)論

摘要:這篇寫得很好的論文重新審視了logit調(diào)整的想法，以解決長尾問題。本文首先建立了一個統(tǒng)計框架，并以此為基礎(chǔ)提出了兩種有效實現(xiàn)對數(shù)平差的方法。他們通過在合成和自然長尾數(shù)據(jù)集上使用幾個相關(guān)基線對其進行測試，進一步證明了這種方法的潛力。

審核編輯：李倩

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴