国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

幾種流行的優化器的介紹以及優缺點分析

深度學習自然語言處理 ? 來源:深度學習自然語言處理 ? 作者:Philipp Wirth ? 2020-10-10 10:16 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

導讀

幾種流行的優化器的介紹以及優缺點分析,并給出了選擇優化器的幾點指南。

本文概述了計算機視覺、自然語言處理和機器學習中常用的優化器。此外,你會找到一個基于三個問題的指導方針,以幫助你的下一個機器學習項目選擇正確的優化器。

找一份相關的研究論文,開始使用相同的優化器。

參考表1并將數據集的屬性與不同優化器的優缺點進行比較。

根據可用的資源調整你的選擇。

介紹

為你的機器學習項目選擇一個好的優化器是非常困難的。熱門的深度學習庫,如PyTorch或TensorFlow,提供了廣泛的優化器的選擇,不同的優化器,每個都有自己的優缺點。然而,選擇錯誤的優化器可能會對你的機器學習模型的性能產生重大的負面影響,這使得優化器在構建、測試和部署機器學習模型的過程中成為一個關鍵的設計選擇。

根據優化器的不同,模型的性能可能會有很大的不同。

選擇優化器的問題在于,由于no-free-lunch定理,沒有一個單一的優化器可以在所有場景中超越其他的。事實上,優化器的性能高度依賴于設置。所以,中心問題是:

哪個優化器最適合我的項目的特點?

下面的內容給出了回答上述問題的一個指南。它由兩個主要段落組成:在第一部分,我將向你快速介紹最常用的優化器。在第二部分中,我將為你提供一個三步計劃來為你的項目選擇最好的優化器。

一些最常用的優化器

在深度學習中,幾乎所有流行的優化器都基于梯度下降。這意味著他們反復估計給定的損失函數L的斜率,并將參數向相反的方向移動(因此向下爬升到一個假設的全局最小值)。這種優化器最簡單的例子可能是隨機梯度下降(或SGD),自20世紀50年代以來一直使用。在2010年代,自適應梯度的使用,如AdaGrad或Adam已經變得越來越流行了。然而,最近的趨勢表明,部分研究界重新使用SGD而不是自適應梯度方法。此外,當前深度學習的挑戰帶來了新的SGD變體,如LARS或LAMB。例如,谷歌研究在其最新論文中使用LARS訓練了一個強大的自監督模型。

下面的部分將介紹最流行的優化器。如果你已經熟悉了這些概念,請轉到“如何選擇正確的優化器”部分。

我們將使用以下符號:用w表示參數,用g表示模型的梯度,α為每個優化器的全局學習率,t為時間步長。

Stochastic Gradient Descent (SGD)

Stochastic Gradient Descent (SGD)的更新規則

在SGD中,優化器基于一個小batch估計最陡下降的方向,并在這個方向前進一步。由于步長是固定的,SGD會很快陷入平坦區或陷入局部極小值。

SGD with Momentum

帶動量的SGD的更新規則

其中β < 1,使用了動量,SGD可以在持續的方向上進行加速(這就是為什么也被叫做“重球方法”)。這個加速可以幫助模型擺脫平坦區,使它更不容易陷入局部最小值。

AdaGrad

AdaGrad的更新規則

AdaGrad是首個成功的利用自適應學習率的方法之一(因此得名)。AdaGrad根據梯度的平方和的倒數的平方根來衡量每個參數的學習速率。這個過程將稀疏梯度方向上的梯度放大,從而允許在這些方向上執行更大的步驟。其結果是:AdaGrad在具有稀疏特征的場景中收斂速度更快。

RMSprop

RMSprop的更新規則

RMSprop是一個未發布的優化器,在過去幾年中被過度使用。這個想法與AdaGrad相似,但是梯度的重新縮放不那么激進:梯度的平方的總和被梯度平方的移動平均值所取代。RMSprop通常與動量一起使用,可以理解為Rprop對mini-batch設置的適應。

Adam

Adam的更新規則

Adam將AdaGrad,RMSprop和動量法結合在一起。步長方向由梯度的移動平均值決定,步長約為全局步長的上界。此外,梯度的每個維度都被重新縮放,類似于RMSprop。Adam和RMSprop(或AdaGrad)之間的一個關鍵區別是,矩估計m和v被糾正為偏向于零。Adam以通過少量的超參數調優就能獲得良好性能而聞名。

LARS

LARS的更新規則

LARS是使用動量的SGD的一種擴展,具有適應每層學習率的能力。它最近引起了研究界的注意。原因是由于可用數據量的穩步增長,機器學習模型的分布式訓練已經流行起來。其結果是批大小開始增長。然而,這導致了訓練中的不穩定。Yang等人認為,這些不穩定性源于某些層的梯度范數和權重范數之間的不平衡。因此,他們提出了一個優化器,該優化器基于一個“trust”參數η < 1和該層的梯度的范數的倒數,對每一層的學習率進行縮放。

如何選擇正確的優化器?

如上所述,為你的機器學習問題選擇正確的優化器是困難的。更具體地說,沒有一勞永逸的解決方案,必須根據手頭的特定問題仔細選擇優化器。在下一節中,我將提出在決定使用某個優化器之前應該問自己的三個問題。

與你的數據集和任務類似的state-of-the-art的結果是什么?使用過了哪些優化器,為什么?

如果你正在使用新的機器學習方法,可能會有一篇或多篇涵蓋類似問題或處理類似數據的可靠論文。通常,論文的作者已經做了廣泛的交叉驗證,并且只報告了最成功的配置。試著理解他們選擇優化器的原因。

舉例:假設你想訓練生成對抗性網絡(GAN)來對一組圖像執行超分辨率。在一些研究之后,你偶然發現了一篇論文:”Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network,” ,其中研究人員使用Adam優化器來解決完全相同的問題。Wilson等人認為,訓練GANs并不等于解決最優化問題,Adam可能非常適合這樣的場景。因此,在這種情況下,Adam是優化器的一個很好的選擇。

你的數據集是否具有某些優化器的優勢?如果有,是哪些,如何利用這些優勢?

表1顯示了不同優化器及其優缺點的概述。嘗試找到與數據集的特征、訓練設置和目標相匹配的優化器。

某些優化器在具有稀疏特征的數據上表現得非常好,而另一些優化器在將模型應用于之前未見過的數據時可能表現得更好。一些優化器在大batch中工作得很好,而另一些優化器可以收斂到很陡峭的極小值但是泛化效果不好。

表1:流行的優化器的總結,突出它們的優點和缺點。state memory列表示優化器所需的字節數 —— 除了梯度所需的內存之外。其中,n為機器學習模型的參數個數。例如,沒有動量的SGD只需要內存來存儲梯度,而有動量的SGD也需要存儲梯度的移動平均值。

例子:對于你當前工作的項目,你必須將用戶反饋分為積極反饋和消極反饋。你考慮使用bag-of-words作為機器學習模型的輸入特征。由于這些特征可能非常稀疏,你決定使用自適應梯度的方法。但是你想用哪一種呢?考慮表1,你看到看到AdaGrad具有自適應梯度方法中最少的可調參數。看到你的項目有限的時間表,你選擇了AdaGrad作為優化器。

你的項目所具有資源是什么?

項目中可用的資源也會影響選擇哪個優化器。計算限制或內存約束,以及項目的時間表可以縮小可行選擇的范圍。再次查看表1,你可以看到不同的內存需求和每個優化器的可調參數數量。此信息可以幫助你評估你的設置是否支持優化器所需的資源。

例子:你在做一個項目,在該項目中,你想在家用計算機上的圖像數據集上訓練一個自監督模型(例如SimCLR)。對于SimCLR這樣的模型,性能隨著batch size大小的增加而增加。因此,你希望盡可能地節省內存,以便能夠進行大batch的訓練。你選擇一個簡單的不帶動量的隨機梯度下降作為你的優化器,因為與其他優化器相比,它需要最少的額外內存來存儲狀態。

總結

嘗試所有可能的優化器來為自己的項目找到最好的那一個并不總是可能的。在這篇博客文章中,我概述了最流行的優化器的更新規則、優缺點和需求。此外,我列出了三個問題來指導你做出明智的決定,即機器學習項目應該使用哪個優化器。

作為一個經驗法則:如果你有資源找到一個好的學習率策略,帶動量的SGD是一個可靠的選擇。如果你需要快速的結果而不需要大量的超參數調優,請使用自適應梯度方法。

責任編輯:lq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 函數
    +關注

    關注

    3

    文章

    4417

    瀏覽量

    67516
  • 機器學習
    +關注

    關注

    66

    文章

    8553

    瀏覽量

    136954
  • 數據集
    +關注

    關注

    4

    文章

    1236

    瀏覽量

    26196

原文標題:在機器學習項目中該如何選擇優化器

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    電磁流量計優缺點的詳細介紹

    電磁流量計是基于法拉第電磁感應定律測量導電液體體積流量的儀表,廣泛應用于水處理、化工、制藥、食品飲料、造紙、冶金等行業。以下是電磁流量計的優缺點的詳細介紹,供參考: 一、電磁流量計的優點 1.無壓損
    的頭像 發表于 01-06 10:22 ?973次閱讀

    對比分析電能質量在線監測裝置支持的斷點續傳文件傳輸協議的優缺點

    優缺點對比分析: 一、各協議優缺點逐一拆解 1. FTP(文件傳輸協議) 優點 斷點續傳機制成熟 :依托REST命令可精準定位字節偏移量,支持大文件分塊續傳,且內置 CRC 校驗保障數據完整性,是裝置的基礎標配功能,適配性強。
    的頭像 發表于 12-05 17:49 ?3430次閱讀
    對比<b class='flag-5'>分析</b>電能質量在線監測裝置支持的斷點續傳文件傳輸協議的<b class='flag-5'>優缺點</b>

    改進wallance樹乘法器優化方法

    首先,根據之前分享的乘法器的優缺點,我們針對17周期的乘法器進行優化,為乘法設計的專用數據通路,為了保持e203的低功耗、低面積的優點、我們仍采用基4booth算法進行部分積生成,而對于原有的17
    發表于 10-23 06:37

    正確的連接電機傳動軸的幾種常見連接方式及其優缺點

    方式及其優缺點分析。 1. 聯軸器連接 ? 聯軸器是電機與傳動軸之間最常用的連接方式之一,其核心功能是傳遞扭矩并補償兩軸之間的偏差(如徑向、軸向或角向偏差)。根據結構不同,聯軸器可分為以下幾類: ? (1)剛性聯軸器 ?
    的頭像 發表于 09-10 07:41 ?3232次閱讀

    無線局域網的優缺點和使用要點

    近年來,無線局域網 已普遍應用于我們生活的方方面面。本文將介紹無線局域網的基礎知識、優缺點、與 Wi-Fi 及有線局域網的區別,以及有效使用的要點。全球領先的短距離無線模塊供應商 KAGA FEI
    的頭像 發表于 08-14 16:04 ?2975次閱讀
    無線局域網的<b class='flag-5'>優缺點</b>和使用要點

    商業云手機核心優缺點分析

    商業云手機核心優缺點分析,綜合技術性能、成本效率及場景適配性等多維度對比: 核心優勢? 成本革命? 硬件零投入?:免除實體手機采購(旗艦機均價6000元),企業百臺規模可省60萬+ CAPEX
    的頭像 發表于 06-16 08:11 ?1041次閱讀
    商業云手機核心<b class='flag-5'>優缺點</b><b class='flag-5'>分析</b>

    VirtualLab:光柵的優化分析

    光柵是光學工程師使用的最基本的工具。為了設計和分析這類組件,快速物理光學建模和設計軟件VirtualLab Fusion為用戶提供了許多有用的工具。其中包括參數優化,以輕松優化系統,以及
    發表于 05-23 08:49

    橋式整流電路的原理、優缺點及應用場景分析

    控制系統等領域占據重要地位。本文將從技術原理出發,深入剖析橋式整流電路的優缺點,并結合實際應用場景探討其設計優化方向。 一、橋式整流電路的基本原理 橋式整流電路(Bridge Rectifier)由4個二極管按菱形結構連接而成。當輸入交
    的頭像 發表于 05-05 15:00 ?4850次閱讀
    橋式整流電路的原理、<b class='flag-5'>優缺點</b>及應用場景<b class='flag-5'>分析</b>

    PCBA 表面處理:優缺點大揭秘,應用場景全解析

    的表面處理工藝,不僅能提升PCBA板的焊接質量,還能延長其使用壽命。以下將詳細介紹幾種常見的PCBA表面處理工藝,分析它們的優缺點及應用場景,幫助您做出最佳的工藝選擇。 PCBA表面處
    的頭像 發表于 05-05 09:39 ?1402次閱讀
    PCBA 表面處理:<b class='flag-5'>優缺點</b>大揭秘,應用場景全解析

    3D打印耗材種類有哪些?各有什么優缺點

    這篇文章將為你詳細介紹3D打印耗材的基礎知識,幫助你了解這些材料的特性、優缺點以及它們適合的應用場景。
    的頭像 發表于 04-29 09:40 ?5.3w次閱讀
    3D打印耗材種類有哪些?各有什么<b class='flag-5'>優缺點</b>?

    傳感的模擬輸出和數字輸出的優缺點分析

    優化系統性能具有重要意義。以下是對這兩種輸出方式的詳細分析。 一、模擬輸出的優缺點 優點: 1. 高精度測量:模擬輸出傳感能夠提供極高的測量精度,因為模擬信號是連續變化的,理論上可
    的頭像 發表于 04-17 18:28 ?1407次閱讀
    傳感<b class='flag-5'>器</b>的模擬輸出和數字輸出的<b class='flag-5'>優缺點</b><b class='flag-5'>分析</b>

    CMOS,Bipolar,FET這三種工藝的優缺點是什么?

    在我用photodiode工具選型I/V放大電路的時候,系統給我推薦了AD8655用于I/V,此芯片為CMOS工藝 但是查閱資料很多都是用FET工藝的芯片,所以請教下用于光電信號放大轉換(主要考慮信噪比和帶寬)一般我們用哪種工藝的芯片, CMOS,Bipolar,FET這三種工藝的優缺點是什么?
    發表于 03-25 06:23

    功率放大器的類型及優缺點是什么

    功率放大器是電子電路中常見的一種設備,用于將輸入信號的功率放大到更高的水平。根據不同的工作原理和應用場景,可以將功率放大器分為幾種不同的類型。下面西安安泰將會介紹幾種常見的功率放大器類型以及
    的頭像 發表于 03-24 11:00 ?1138次閱讀
    功率放大器的類型及<b class='flag-5'>優缺點</b>是什么

    壓接連接器使用裸銅線的優缺點分析

    壓接連接器使用裸銅線是一種高效、可靠的電氣連接方式,廣泛應用于電力、通信和工業領域。需要我們正確看待它的優缺點,高效使用。
    的頭像 發表于 03-18 11:01 ?1169次閱讀

    液壓伺服系統工作原理液及優缺點

    液壓伺服系統是一種通過調節液壓元件的流量和壓力來實現對負載的位置、速度和力的精確控制的系統。以下是對其工作原理及優缺點的詳細分析: 一、工作原理 液壓伺服系統的工作原理主要分為兩個階段:感應階段
    的頭像 發表于 03-16 16:43 ?1617次閱讀
    液壓伺服系統工作原理液及<b class='flag-5'>優缺點</b>