国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

大連理工提出基于Wasserstein距離(WD)的知識蒸餾方法

智能感知與物聯網技術研究所 ? 來源:未知 ? 2025-01-21 09:45 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

自 Hinton 等人的開創性工作以來,基于 Kullback-Leibler 散度(KL-Div)的知識蒸餾一直占主導地位。 然而,KL-Div 僅比較教師和學生在相應類別上的概率,缺乏跨類別比較的機制,應用于中間層蒸餾時存在問題,其無法處理不重疊的分布且無法感知底層流形的幾何結構。

20c8471a-d62a-11ef-9310-92fbcf53809c.gif

為了解決這些問題,大連理工大學的研究人員提出了一種基于 Wasserstein 距離(WD)的知識蒸餾方法。所提出方法在圖像分類和目標檢測任務上均取得了當前最好的性能,論文已被 NeurIPS 2024 接受為 Poster。

20ed0b68-d62a-11ef-9310-92fbcf53809c.png

論文標題: Wasserstein Distance Rivals Kullback-Leibler Divergence for Knowledge Distillation

論文地址:

https://arxiv.org/abs/2412.08139

項目地址:

https://peihuali.org/WKD/

代碼地址:

https://github.com/JiamingLv/WKD

背景與動機介紹

知識蒸餾(KD)旨在將具有大容量的高性能教師模型中的知識遷移到輕量級的學生模型中。近年來,知識蒸餾在深度學習中受到了越來越多的關注,并取得了顯著進展,在視覺識別、目標檢測等多個領域得到了廣泛應用。 在其開創性工作中,Hinton 等人引入了 Kullback-Leibler 散度(KL-Div)用于知識蒸餾,約束學生模型的類別概率預測與教師模型相似。 從那時起,KL-Div 在 Logit 蒸餾中占據主導地位,并且其變體方法 DKD、NKD 等也取得了令人矚目的性能。此外,這些 Logit 蒸餾方法還可以與將知識從中間層傳遞的許多先進方法相互補充。 盡管 KL-Div 取得了巨大的成功,但它存在的兩個缺點阻礙了教師模型知識的遷移。 首先,KL-Div 僅比較教師和學生在相應類別上的概率,缺乏執行跨類別比較的機制。 然而,現實世界中的類別呈現不同程度的視覺相似性,例如,哺乳動物物種如狗和狼彼此間的相似度較高,而與汽車和自行車等人工制品則有很大的視覺差異,如圖1所示。

不幸的是,由于 KL-Div 是類別對類別的比較,KD 和其變體方法無法顯式地利用這種豐富的跨類別知識。

210e0c6e-d62a-11ef-9310-92fbcf53809c.jpg

▲圖1. 左圖使用t-SNE展示了100個類別的嵌入分布。可以看出,這些類別在特征空間中表現出豐富的相互關系 (IR)。然而,右圖中的KL散度無法顯式地利用這些相互關系。

其次,KL-Div 在用于從中間層特征進行知識蒸餾時存在局限性。圖像的深度特征通常是高維的且空間尺寸較小,因此其在特征空間中非常稀疏,不僅使得 KL-Div 在處理深度神經網絡特征的分布時存在困難。 KL-Div 無法處理不重疊的離散分布,并且由于其不是一個度量,在處理連續分布時能力有限,無法感知底層流形的幾何結構。

2124e89e-d62a-11ef-9310-92fbcf53809c.png

▲圖2. 基于Wasserstein距離(WD)的知識蒸餾方法的總覽圖

為了解決這些問題,研究人員提出了一種基于Wasserstein距離的知識蒸餾方法,稱為WKD,同時適用于Logit蒸餾(WKD-L)和Feature蒸餾(WKD-F),如圖2所示。 在WKD-L中,通過離散WD最小化教師和學生之間預測概率的差異,從而進行知識轉移。 通過這種方式,執行跨類別的比較,能夠有效地利用類別間的相互關系(IRs),與KL-Div中的類別間比較形成鮮明對比。 對于WKD-F,研究人員利用WD從中間層特征中蒸餾知識,選擇參數化方法來建模特征的分布,并讓學生直接匹配教師的特征分布。 具體來說,利用一種最廣泛使用的連續分布(高斯分布),該分布在給定特征的1階和2階矩的情況下具有最大熵。 論文的主要貢獻可以總結如下:

提出了一種基于離散WD的Logit蒸餾方法(WKD-L),可以通過教師和學生預測概率之間的跨類別比較,利用類別間豐富的相互關系,克服KL-Div無法進行類別間比較的缺點。

將連續WD引入中間層進行Feature蒸餾(WKD-F),可以有效地利用高斯分布的Riemann空間幾何結構,優于無法感知幾何結構的KL-Div。

在圖像分類和目標檢測任務中,WKD-L優于非常強的基于KL-Div的Logit蒸餾方法,而WKD-F在特征蒸餾中優于KL-Div的對比方法和最先進的方法。WKD-L和WKD-F的結合可以進一步提高性能。

用于知識遷移的WD距離

用于Logit蒸餾的離散WD距離 類別之間的相互關系(IRs) 如圖1所示,現實世界中的類別在特征空間中表現出復雜的拓撲關系。相同類別的特征會聚集并形成一個分布,而相鄰類別的特征有重疊且不能完全分離。 因此,研究人員提出基于CKA量化類別間的相互關系(IRs),CKA是一種歸一化的Hilbert-Schmidt獨立性準則(HSIC),通過將兩個特征集映射到再生核希爾伯特空間(RKHS)來建模統計關系。 首先將每個類別中所有訓練樣本的特征構成一個特征矩陣,之后通過計算任意兩個類別特征矩陣之間的CKA得到類間相互關系(IR)。計算IR的成本可以忽略,因為在訓練前僅需計算一次。 由于教師模型通常包含更豐富的知識,因此使用教師模型來計算類別間的相互關系213f777c-d62a-11ef-9310-92fbcf53809c.png損失函數21491dae-d62a-11ef-9310-92fbcf53809c.png215455ac-d62a-11ef-9310-92fbcf53809c.png分別表示教師模型和學生模型的預測類別概率,其通過softmax函數和溫度對Logit計算得到。將離散的WD表示為一種熵正則化的線性規劃:

218e6e0e-d62a-11ef-9310-92fbcf53809c.png

其中21a4add6-d62a-11ef-9310-92fbcf53809c.png21b5b338-d62a-11ef-9310-92fbcf53809c.png分別表示每單位質量的運輸成本和在將概率質量從21c7e9c2-d62a-11ef-9310-92fbcf53809c.png移動到21d41440-d62a-11ef-9310-92fbcf53809c.png 時的運輸量;21efd144-d62a-11ef-9310-92fbcf53809c.png是正則化參數。 定義運輸成本21a4add6-d62a-11ef-9310-92fbcf53809c.png與相似度度量220d7dac-d62a-11ef-9310-92fbcf53809c.png成負相關。 因此,WKD-L的損失函數可以定義為:

221f48b6-d62a-11ef-9310-92fbcf53809c.png

用于Feature蒸餾的連續WD距離 特征分布建模 將模型某個中間層輸出的特征圖重塑為一個矩陣,其中第i列2231dddc-d62a-11ef-9310-92fbcf53809c.png表示一個空間特征。 之后,估計這些特征的一階矩2240e4b2-d62a-11ef-9310-92fbcf53809c.png和二階矩

224b5d52-d62a-11ef-9310-92fbcf53809c.png

,并將二者作為高斯分布的參數來建模輸入圖像特征的分布。 損失函數 設教師的特征分布為高斯分布

225bcfac-d62a-11ef-9310-92fbcf53809c.png

。類似地,學生的分布記為2265fb76-d62a-11ef-9310-92fbcf53809c.png。 兩者之間的連續Wasserstein距離(WD)定義為:

226dc3c4-d62a-11ef-9310-92fbcf53809c.png

其中,227e7ce6-d62a-11ef-9310-92fbcf53809c.png22932e3e-d62a-11ef-9310-92fbcf53809c.png是高斯變量,q表示聯合分布。最小化上式可以得到閉集形式的WD距離。此外,為了平衡均值和協方差的作用,引入了一個均值-協方差比率γ,最后損失定義為:

22a50258-d62a-11ef-9310-92fbcf53809c.png

實驗分析和比較 研究人員在ImageNet和CIFAR-100上評估了WKD在圖像分類任務中的表現,還評估了WKD在自蒸餾(Self-KD)中的有效,并且將WKD擴展到目標檢測,并在MS-COCO上進行了實驗。 在ImageNet上的圖像分類 研究人員在ImageNet的在兩種設置下與現有工作進行了比較。設置(a)涉及同質架構,其中教師和學生網絡分別為ResNet34和ResNet18;設置(b)涉及異質架構,在該設置中,教師網絡為ResNet50,學生網絡為MobileNetV1。 對于Logit蒸餾,WKD-L在兩種設置下均優于經典的KD及其所有變體。對于特征蒸餾,WKD-F也超過當前的最佳方法ReviewKD;最后,WKD-L和WKD-F的結合進一步提升了性能,超越了強有力的競爭方法。

22c3f190-d62a-11ef-9310-92fbcf53809c.png

▲表1. 在ImageNet上的圖像分類結果

在CIFAR-100上的圖像分類 研究人員在教師模型為CNN、學生為Transformer或反之的設置下評估了WKD方法,使用的CNN模型包括ResNet(RN)、MobileNetV2(MNV2)和ConvNeXt;Transformer模型包括ViT、DeiT和Swin Transformer。 對于Logit蒸餾,WKD-L在從Transformer到CNN遷移知識或反之的設置下始終優于最新的OFA方法。對于特征蒸餾,WKD-F在所有實驗設置中排名第一; 研究人員認為,對于跨CNN和Transformer的知識轉移,考慮到兩者特征差異較大,WKD-F比像FitNet和CRD這樣直接對原始特征進行對齊的方法更為合適。

22e1ad20-d62a-11ef-9310-92fbcf53809c.png

▲表2. CIFAR-100上跨CNN和Transformer的圖像分類結果(Top-1準確率) 在ImageNet上的自蒸餾 研究人員在Born-Again Network(BAN)框架中將WKD方法用于自蒸餾任務(Self-KD)。 使用ResNet18在ImageNet上進行實驗,結果如表3所示,WKD-L取得了最佳結果,比BAN的Top-1準確率高出約0.9%,比第二高的USKD方法高出0.6%。這一比較表明,WKD方法可以很好地推廣到自蒸餾任務中。

22efcd74-d62a-11ef-9310-92fbcf53809c.png

▲表3. 在ImageNet上自蒸餾(Self-KD)的結果

在MS-COCO上的目標檢測 研究人員將WKD擴展到Faster-RCNN框架下的目標檢測中。對于WKD-L,使用檢測頭中的分類分支進行Logit蒸餾。對于WKD-F,直接從輸入到分類分支的特征中進行知識遷移,即從RoIAlign層輸出的特征來計算高斯分布。 對于Logit蒸餾,WKD-L顯著優于經典的KD,并略微優于DKD。對于特征蒸餾,WKD-F在兩個設置中均顯著超過之前的最佳特征蒸餾方法ReviewKD。最后,通過結合WKD-L和WKD-F,表現超過了DKD+ReviewKD。當使用額外的邊框回歸進行知識遷移時,WKD-L+WKD-F進一步提高并超越了之前的最先進方法FCFD。

22ff3d5e-d62a-11ef-9310-92fbcf53809c.png

▲表4. 在MS-COCO上的目標檢測結果。?:使用了額外的邊框回歸進行知識遷移

總結

Wasserstein距離(WD)在生成模型等多個領域中已展現出相較于KL散度(KL-Div)的顯著優勢。 然而,在知識蒸餾領域,KL散度仍然占據主導地位,目前尚不清楚Wasserstein距離能否實現更優的表現。 研究人員認為,早期基于Wasserstein距離的知識蒸餾研究未能充分發揮該度量的潛力。 因此,文中提出了一種基于Wasserstein距離的全新知識蒸餾方法,能夠從Logit和Feature兩個方面進行知識遷移。 大量的實驗表明,離散形式的Wasserstein距離在Logit蒸餾中是當前主流KL散度的極具潛力的替代方案,而連續形式的Wasserstein距離在中間層特征遷移中也取得了令人信服的性能表現。

盡管如此,該方法仍存在一定局限性:WKD-L相比基于KL散度的Logit蒸餾方法計算開銷更高,而WKD-F假設特征服從高斯分布。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 圖像分類
    +關注

    關注

    0

    文章

    96

    瀏覽量

    12488
  • 目標檢測
    +關注

    關注

    0

    文章

    233

    瀏覽量

    16492

原文標題:NeurIPS 2024 | 超越KL!大連理工提出WKD:基于WD距離的知識蒸餾新方法

文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯網技術研究所】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    探訪大連理工大學2.8萬平方米電子實驗室

    帶著這樣的疑問我們走進大連理工大學,那里有一片屬于創造者的圣地——創新創業學院。推開那扇門,就仿佛踏進了一座微縮的未來工業城市,這里提供的不是模擬體驗,而是真正的“工業級”實戰環境。
    的頭像 發表于 12-10 10:08 ?709次閱讀

    工業鏡頭測量中的“工作距離”是什么?

    工業鏡頭作為機器視覺系統中的核心組件,在自動化生產、質量檢測和精密測量等領域發揮著關鍵作用。其中,“工作距離”(WorkingDistance,簡稱WD)是一個至關重要的參數,它直接影響系統
    的頭像 發表于 12-06 16:46 ?755次閱讀
    工業鏡頭測量中的“工作<b class='flag-5'>距離</b>”是什么?

    資訊速遞 | 開源鴻蒙具身智能PMC(籌)啟動開發者招募

    和開源鴻蒙項目群工作委員會的指導下,開源鴻蒙具身智能PMC(籌)匯聚了涵蓋高校、企業、科研機構的多元力量。上交、華為、中國科學院軟件研究所、人形機器人(上海)有限公司、金磚國家未來網絡研究院、蘭州大學、大連理工、東北大學、潤開鴻、國開鴻、靈境智源、優
    的頭像 發表于 11-28 19:44 ?353次閱讀
    資訊速遞 | 開源鴻蒙具身智能PMC(籌)啟動開發者招募

    大連理工在單光子精密光譜測量領域取得重要進展

    圖a.單光子雙梳鬼成像光譜技術基本原理。圖b.單光子雙梳鬼成像光譜實驗裝置圖。 近日,大連理工大學光電工程與儀器科學學院梅亮教授團隊攜手之江實驗室嚴國峰研究員團隊在單光子精密光譜測量領域取得重要進展
    的頭像 發表于 11-18 07:32 ?215次閱讀
    <b class='flag-5'>大連理工</b>在單光子精密光譜測量領域取得重要進展

    HIOKI日置助力 2025 全國大學生電子設計賽總測評圓滿落幕

    2025 年 TI 杯全國大學生電子設計競賽總測評于 8 月 15 日至 22 日在大連理工大學成功舉辦,來自全國 507 所高校的近 1500 名師生齊聚濱城,在精密儀器的見證下展開創新角逐
    的頭像 發表于 09-02 11:55 ?827次閱讀
    HIOKI日置助力 2025 全國大學生電子設計賽總測評圓滿落幕

    夢之墨深度支持2025年中國大學生工程實踐與創新能力大賽

    “8月5日至9日,由大連理工大學、大連工業大學、大連交通大學聯合承辦的2025年中國大學生工程實踐與創新能力大賽(簡稱“工創賽”)在大連舉行。本屆工創賽聚焦“交叉融合工程創新育新質,立
    的頭像 發表于 08-18 10:01 ?1096次閱讀

    飛凌嵌入式走進沈陽工業大學、大連理工大學、東莞理工學院、哈爾濱工業大學(深圳校區)進行嵌賽宣講

    飛凌嵌入式以賽事為紐帶,與高校師生共建產教協同創新平臺。展望未來,相信在飛凌嵌入式和各高校師生的共同努力下,全國大學生嵌入式芯片與系統設計競賽上將涌現出更多優秀的作品。
    的頭像 發表于 07-03 10:39 ?1323次閱讀
    飛凌嵌入式走進沈陽工業大學、<b class='flag-5'>大連理工</b>大學、東莞<b class='flag-5'>理工</b>學院、哈爾濱工業大學(深圳校區)進行嵌賽宣講

    維視教育亮相第63屆高等教育博覽會

    近日,由中國高等教育學會主辦,吉林大學、哈爾濱工業大學、大連理工大學、國藥勵展展覽有限責任公司承辦的第63屆高等教育博覽會在中鐵·長春東北亞國際博覽中心盛大開啟。本屆高博會以“融合·創新·引領:服務高等教育強國建設”為主題,聚焦新時代高等教育改革前沿,教育、科技、人才“三位一體”協同發展。
    的頭像 發表于 05-27 18:13 ?949次閱讀

    WD400-110S24P1 WD400-110S24P1

    電子發燒友網為你提供AIPULNION(AIPULNION)WD400-110S24P1相關產品參數、數據手冊,更有WD400-110S24P1的引腳圖、接線圖、封裝手冊、中文資料、英文資料,WD400-110S24P1真值表,
    發表于 03-21 18:39
    <b class='flag-5'>WD</b>400-110S24P1 <b class='flag-5'>WD</b>400-110S24P1

    WD100-110S24N1 WD100-110S24N1

    電子發燒友網為你提供AIPULNION(AIPULNION)WD100-110S24N1相關產品參數、數據手冊,更有WD100-110S24N1的引腳圖、接線圖、封裝手冊、中文資料、英文資料,WD100-110S24N1真值表,
    發表于 03-21 18:36
    <b class='flag-5'>WD</b>100-110S24N1 <b class='flag-5'>WD</b>100-110S24N1

    WD150-110S24Q1 WD150-110S24Q1

    電子發燒友網為你提供AIPULNION(AIPULNION)WD150-110S24Q1相關產品參數、數據手冊,更有WD150-110S24Q1的引腳圖、接線圖、封裝手冊、中文資料、英文資料,WD150-110S24Q1真值表,
    發表于 03-21 18:36
    <b class='flag-5'>WD</b>150-110S24Q1 <b class='flag-5'>WD</b>150-110S24Q1

    WD150-110S24N1 WD150-110S24N1

    電子發燒友網為你提供AIPULNION(AIPULNION)WD150-110S24N1相關產品參數、數據手冊,更有WD150-110S24N1的引腳圖、接線圖、封裝手冊、中文資料、英文資料,WD150-110S24N1真值表,
    發表于 03-21 18:35
    <b class='flag-5'>WD</b>150-110S24N1 <b class='flag-5'>WD</b>150-110S24N1

    WD75-110S24M1 WD75-110S24M1

    電子發燒友網為你提供AIPULNION(AIPULNION)WD75-110S24M1相關產品參數、數據手冊,更有WD75-110S24M1的引腳圖、接線圖、封裝手冊、中文資料、英文資料,WD75-110S24M1真值表,
    發表于 03-21 18:34
    <b class='flag-5'>WD</b>75-110S24M1 <b class='flag-5'>WD</b>75-110S24M1

    WD50-110S24K1 WD50-110S24K1

    電子發燒友網為你提供AIPULNION(AIPULNION)WD50-110S24K1相關產品參數、數據手冊,更有WD50-110S24K1的引腳圖、接線圖、封裝手冊、中文資料、英文資料,WD50-110S24K1真值表,
    發表于 03-20 18:59
    <b class='flag-5'>WD</b>50-110S24K1 <b class='flag-5'>WD</b>50-110S24K1

    研華KB Insight智能知識理工具加速工業智能化

    為應對新型工業化進程中“經驗未數字化”與“數據未業務化”的雙重困局,研華 IoTSuite 工業物聯網平臺 & AIoT 數智應用開發工具包全新發布又一利器—— KB Insight 智能知識理工具,助力企業知識資產的智能應用
    的頭像 發表于 03-10 10:18 ?1133次閱讀