国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

如何理解泛化是深度學習領域尚未解決的基礎問題

Tensorflowers ? 來源:TensorFlow ? 作者:Google Research 團隊 ? 2021-04-08 17:56 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

如何理解泛化是深度學習領域尚未解決的基礎問題之一。為什么使用有限訓練數據集優化模型能使模型在預留測試集上取得良好表現?這一問題距今已有 50 多年的豐富歷史,并在機器學習中得到廣泛研究。如今有許多數學工具可以用來幫助研究人員了解某些模型的泛化能力。但遺憾的是,現有的大多數理論都無法應用到現代深度網絡中,這些理論在現實環境中顯得既空泛又不可預測。而理論和實踐之間的差距 在過度參數化模型中尤為巨大,這類模型在理論上能夠擬合訓練集,但在實踐中卻不能做到。

豐富歷史

數學工具

過度參數化

在《Deep Bootstrap 框架:擁有出色的在線學習能力即是擁有出色的泛化能力》(The Deep Bootstrap Framework: Good Online Learners are Good Offline Generalizers)(收錄于 ICLR 2021)這篇論文中,我們提出了一個解決此問題的新框架,該框架能夠將泛化與在線優化領域聯系起來。在通常情況下,模型會在有限的樣本集上進行訓練,而這些樣本會在多個訓練周期中被重復使用。但就在線優化而言,模型可以訪問無限的樣本流,并且可以在處理樣本流的同時進行迭代更新。在這項研究中,我們發現,能使用無限數據快速訓練的模型,它們在有限數據上同樣具有良好的泛化表現。二者之間的這種關聯為設計實踐提供了新思路,同時也為從理論角度理解泛化找到了方向。

《Deep Bootstrap 框架:擁有出色的在線學習能力即是擁有出色的泛化能力》

Deep Bootstrap 框架

Deep Bootstrap 框架的主要思路是將訓練數據有限的現實情況與數據無限的“理想情況”進行比較。它們的定義如下:

現實情況(N、T):使用來自一個分布的 N 個訓練樣本訓練模型;在 T 個小批量隨機梯度下降 (SGD) 步驟中,照常在多個訓練周期中重復使用這 N 個樣本。這相當于針對經驗損失(訓練數據的損失)運行 SGD 算法,這是監督學習中的標準訓練程序。

理想情況(T):在 T 個步驟中訓練同一個模型,但在每個 SGD 步驟中使用來自分布的新樣本。也就是說,我們運行相同的訓練代碼(相同的優化器、學習速率、批次大小等),但在每個訓練周期中采用全新的訓練樣本集,而不是重復使用相同的樣本。理想情況下,對于一個幾乎達到無限的“訓練集”而言,其訓練誤差和測試誤差之間相差無幾。

35bc07e2-984e-11eb-8b86-12bb97331649.gif

在 SGD 迭代期間 ResNet-18 架構理想情況及現實情況的測試軟誤差。可以看到,兩種誤差非常相近

一般而言,我們認為現實情況和理想情況不會有任何關聯,因為在現實世界中用于模型處理的來自分布的示例數量是有限的,而在理想世界中模型處理的示例數量是無限的。但在實踐中,我們發現現實情況模型和理想情況模型之間的測試誤差非常相近。

為了將此觀察結果量化,我們通過創建一個名為 CIFAR-5m 的數據集模擬了一種理想情況。我們使用 CIFAR-10 訓練了一個生成模型,然后利用該模型生成約六百萬個圖像。選擇生成這么多圖像的目的是為了使此數據集對于模型而言具有“近乎無限性”,從而避免模型重復采樣相同的數據。也就是說,在理想情況下,模型面對的是一組全新的樣本。

CIFAR-5m

生成模型

下圖給出了幾種模型的測試誤差,對比了它們在現實情況(如重復使用數據)和理想情況(使用“全新”數據)中使用 CIFAR-5m 數據訓練的表現。藍色實線展示了 ResNet 模型在現實情況下使用標準 CIFAR-10 超參數針對 50000 個樣本訓練 100 個周期的表現。藍色虛線展示了同樣的模型在理想情況下使用五百萬個樣本一次性訓練完畢的表現。出人意料的是,現實情況和理想情況下的測試誤差非常接近,在某種程度上模型并不會受到樣本是重復使用還是全新的影響。

36cb59f8-984e-11eb-8b86-12bb97331649.png

現實情況下的模型使用 50000 個樣本訓練 100 個周期,理想情況下的模型使用五百萬個樣本訓練一個周期。圖中的線展示了測試誤差以及 SGD 步驟的執行次數

這個結果也適用于其他架構,如多層感知架構(紅線)、視覺 Transformer(綠線),以及許多其他架構、優化器、數據分布和樣本大小設置。從這些實驗中,我們得出了一個關于泛化的新觀點,即能使用無限數據快速優化的模型,同樣能使用有限數據進行良好的泛化。例如,ResNet 模型使用有限數據進行泛化的能力要優于 MLP 模型,其原因在于 ResNet 模型使用無限數據進行優化的速度更快。

多層感知

基于優化行為理解泛化

我們從中得出一個重要的觀察結果,即直到現實情況開始收斂前,現實情況和理想情況下的模型在所有時刻的測試誤差都非常接近(訓練誤差 《 1%)。因此,我們可以通過研究模型在理想情況下的行為來理解它們在現實情況下的表現。

也就是說,模型的泛化可以通過研究其在兩種框架下的優化表現來理解:

1. 在線優化:其用于在理想情況下觀察測試誤差的減小速度

2. 離線優化:其用于在現實情況下觀察訓練誤差的收斂速度

因此,研究泛化時,我們可以相應地研究上述兩個方面,它們僅涉及優化問題,因此在概念上較為簡單。通過這項觀察,我們發現出色的模型和訓練程序均符合兩個條件:(1) 能在理想情況下快速優化;(2) 在現實情況下的優化速度較慢。

所有深度學習設計方案都能通過了解它們在這兩方面的表現來進行評估。例如,一些改進,比如卷積、殘差連接和預訓練等,其主要作用是加速理想情況的優化,而另一些改進,比如正則化和數據增強等,其主要作用則是減慢現實情況的優化。

應用 Deep Bootstrap 框架

研究人員可以使用 Deep Bootstrap 框架來研究和指導深度學習設計方案。它所依循的原則是:每當我們做出影響現實情況泛化能力的更改時(架構、學習速率等),我們都應考慮它對以下兩方面帶來的影響:(1) 理想情況的測試誤差優化(越快越好)以及 (2) 現實情況的訓練誤差優化(越慢越好)。

例如, 預訓練在實踐中通常用于促進小數據體系中的模型泛化。然而,人們對預訓練發生作用的機理知之甚少。我們可以使用 Deep Bootstrap 框架,通過觀察預訓練對上述兩方面形成的影響研究這個問題。我們發現,預訓練的主要作用是促進理想情況的優化 (1),即使網絡能夠“快速學習”在線優化。預訓練模型泛化能力的增強幾乎總能帶來其在理想情況下優化能力的提高。下圖比較了使用 CIFAR-10 訓練的視覺 Transformers (ViT) 在 ImageNet 上從零開始訓練和預訓練之間的差別。

ImageNet

372c0f96-984e-11eb-8b86-12bb97331649.png

預訓練的作用:經過預訓練的 ViT 在理想情況下的優化速度更快

我們還可以使用此框架研究數據增強。在理想情況下的數據增強相當于對每個新樣本進行一次增強,而不是對同一個樣本進行多次增強。此框架意味著好的數據增強均符合兩個條件:(1) 不會嚴重損害理想情況的優化(即增強樣本的分布不會過于“失范”),(2) 抑制現實情況的優化速度(以使現實世界花更多時間擬合其訓練集)。

數據增強的主要作用通過第二條:延長現實情況的優化時間來實現。關于第一條,一些激進的數據增強 (混合/剪切) 可能會對理想情況造成不良影響,但這種影響與第二條相比不值一提。

結語

Deep Bootstrap 框架為理解深度學習的泛化和經驗現象提供了一個新角度。我們非常期待能夠在未來看到它被用于理解深度學習的其他方面。尤為有趣的是,泛化可以通過純粹的優化方面的考量來描述, 這在理論上和許多主流方法相悖。至關重要的是,我們需同時考慮在線優化和離線優化,單獨考慮二者中的任何一個都是不夠的,它們共同決定了泛化能力。

主流方法

Deep Bootstrap 框架還揭曉了為什么深度學習對于許多設計方案都異常穩健,原因是許多中架構、損失函數、優化器、標準化和激活函數都具有良好的泛化能力。這個框架揭示了一個普適定律:基本上任何具有良好在線優化表現的設計方案,其都能在離線狀態下有良好的泛化表現。

最后,現代神經網絡既可能過參數化(如使用小型數據任務訓練的大型網絡),也可能欠參數化(如 OpenAI GPT-3、Google T5 或 Facebook ResNeXt WSL)。而 Deep Bootstrap 框架表明,在線優化是在這兩種模式中取得成功的關鍵因素。

致謝

感謝我們的合著者 Behnam Neyshabur 對論文的巨大貢獻以及對于博文的寶貴反饋。感謝 Boaz Barak、Chenyang Yuan 和 Chiyuan Zhang 對于博文及論文的有益評論。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 深度學習
    +關注

    關注

    73

    文章

    5599

    瀏覽量

    124400

原文標題:透過新視角理解深度學習中的泛化

文章出處:【微信號:tensorflowers,微信公眾號:Tensorflowers】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    人工智能與機器學習在這些行業的深度應用

    自人工智能和機器學習問世以來,多個在線領域的數字格局迎來了翻天覆地的變化。這些技術從誕生之初就為企業賦予了競爭優勢,而在線行業正是受其影響最為顯著的領域。人工智能(AI)與機器
    的頭像 發表于 02-04 14:44 ?484次閱讀

    自動駕駛大模型中常提的能力是指啥?

    [首發于智駕最前沿微信公眾號]在討論自動駕駛大模型時,常會有幾個評價維度,如感知是否準確、決策是否穩定、系統是否足夠魯棒,以及模型有沒有“能力”。相比準確率、延遲這些容易量化的指標,“
    的頭像 發表于 12-10 09:15 ?600次閱讀
    自動駕駛大模型中常提的<b class='flag-5'>泛</b><b class='flag-5'>化</b>能力是指啥?

    【團購】獨家全套珍藏!龍哥LabVIEW視覺深度學習實戰課(11大系列課程,共5000+分鐘)

    (第10系列)、YOLOv8-Tiny工業優化版(第9系列),滿足產線端設備算力限制,模型推理速度提升300%。 LabVIEW生態整合 作為工業自動領域主流開發環境,LabVIEW與深度
    發表于 12-04 09:28

    【團購】獨家全套珍藏!龍哥LabVIEW視覺深度學習實戰課程(11大系列課程,共5000+分鐘)

    (第10系列)、YOLOv8-Tiny工業優化版(第9系列),滿足產線端設備算力限制,模型推理速度提升300%。 LabVIEW生態整合 作為工業自動領域主流開發環境,LabVIEW與深度
    發表于 12-03 13:50

    如何深度學習機器視覺的應用場景

    深度學習視覺應用場景大全 工業制造領域 復雜缺陷檢測:處理傳統算法難以描述的非標準缺陷模式 非標產品分類:對形狀、顏色、紋理多變的產品進行智能分類 外觀質量評估:基于
    的頭像 發表于 11-27 10:19 ?223次閱讀

    如何在機器視覺中部署深度學習神經網絡

    人士而言往往難以理解,人們也常常誤以為需要扎實的編程技能才能真正掌握并合理使用這項技術。事實上,這種印象忽視了該技術為機器視覺(乃至生產自動)帶來的潛力,因為深度學習并非只屬于計算機
    的頭像 發表于 09-10 17:38 ?902次閱讀
    如何在機器視覺中部署<b class='flag-5'>深度</b><b class='flag-5'>學習</b>神經網絡

    廣電計量與聯新安達成戰略合作

    9月1日,廣電計量與湖南聯新安信息科技有限公司(以下簡稱“聯新安”)在廣電計量科技產業園舉行戰略合作簽約儀式。雙方將圍繞人工智能應用、軟件測試工具開發、行業標準制定、政府項目申報等領域開展
    的頭像 發表于 09-02 18:26 ?860次閱讀

    深度學習對工業物聯網有哪些幫助

    、實施路徑三個維度展開分析: 一、深度學習如何突破工業物聯網的技術瓶頸? 1. 非結構數據處理:解鎖“沉睡數據”價值 傳統困境 :工業物聯網中70%以上的數據為非結構數據(如設備振
    的頭像 發表于 08-20 14:56 ?1030次閱讀

    自動駕駛中Transformer大模型會取代深度學習嗎?

    [首發于智駕最前沿微信公眾號]近年來,隨著ChatGPT、Claude、文心一言等大語言模型在生成文本、對話交互等領域的驚艷表現,“Transformer架構是否正在取代傳統深度學習”這一話題一直被
    的頭像 發表于 08-13 09:15 ?4186次閱讀
    自動駕駛中Transformer大模型會取代<b class='flag-5'>深度</b><b class='flag-5'>學習</b>嗎?

    深度學習遇上嵌入式資源困境,特征空間如何破局?

    近年來,隨著人工智能(AI)技術的迅猛發展,深度學習(Deep Learning)成為最熱門的研究領域之一。在語音識別、圖像識別、自然語言處理等領域
    發表于 07-14 14:50 ?1243次閱讀
    當<b class='flag-5'>深度</b><b class='flag-5'>學習</b>遇上嵌入式資源困境,特征空間如何破局?

    明晚開播 |數據智能系列講座第7期:面向高能力的視覺感知系統空間建模與微調學習

    鷺島論壇數據智能系列講座第7期「面向高能力的視覺感知系統空間建模與微調學習」明晚8點精彩開播期待與您云相聚,共襄學術盛宴!|直播信息報告題目面向高
    的頭像 發表于 06-24 08:01 ?1065次閱讀
    明晚開播 |數據智能系列講座第7期:面向高<b class='flag-5'>泛</b><b class='flag-5'>化</b>能力的視覺感知系統空間建模與微調<b class='flag-5'>學習</b>

    直播預約 |數據智能系列講座第7期:面向高能力的視覺感知系統空間建模與微調學習

    鷺島論壇數據智能系列講座第7期「面向高能力的視覺感知系統空間建模與微調學習」6月25日(周三)20:00精彩開播期待與您云相聚,共襄學術盛宴!|直播信息報告題目面向高
    的頭像 發表于 05-29 10:04 ?637次閱讀
    直播預約 |數據智能系列講座第7期:面向高<b class='flag-5'>泛</b><b class='flag-5'>化</b>能力的視覺感知系統空間建模與微調<b class='flag-5'>學習</b>

    嵌入式AI技術之深度學習:數據樣本預處理過程中使用合適的特征變換對深度學習的意義

    ? 作者:蘇勇Andrew 使用神經網絡實現機器學習,網絡的每個層都將對輸入的數據做一次抽象,多層神經網絡構成深度學習的框架,可以深度理解
    的頭像 發表于 04-02 18:21 ?1521次閱讀

    行業首創:基于深度學習視覺平臺的AI驅動輪胎檢測自動

    全球領先的輪胎制造商 NEXEN TIRE 在其輪胎生產檢測過程中使用了基于友思特伙伴Neurocle開發的AI深度學習視覺平臺,實現缺陷檢測率高達99.96%,是該行業首個使用AI平臺技術推動缺陷檢測自動流程的企業。
    的頭像 發表于 03-19 16:51 ?1019次閱讀
    行業首創:基于<b class='flag-5'>深度</b><b class='flag-5'>學習</b>視覺平臺的AI驅動輪胎檢測自動<b class='flag-5'>化</b>

    【AIBOX 應用案例】單目深度估計

    ?Firefly所推出的NVIDIA系列的AIBOX可實現深度估計,該技術是一種從單張或者多張圖像預測場景深度信息的技術,廣泛應用于計算機視覺領域,尤其是在三維重建、場景理解和環境感知
    的頭像 發表于 03-19 16:33 ?1111次閱讀
    【AIBOX 應用案例】單目<b class='flag-5'>深度</b>估計