国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

深度學習筆記6:神經網絡優化算法之從SGD到Adam

人工智能實訓營 ? 2018-08-24 18:31 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

從前面的學習中,帶大家一起學會了如何手動搭建神經網絡,以及神經網絡的正則化等實用層面的內容。這些都使得我們能夠更深入的理解神經網絡的機制,而并不是初次接觸深度學習就上手框架,雖然對外宣稱神經網絡是個黑箱機制,但是作為學習者我們極度有必要搞清楚算法在每個環節到底都干了些什么。

今天筆者需要講的是深度學習的一個大的主題——優化算法。采用何種方式對損失函數進行迭代優化,這是機器學習的一大主題之一,當一個機器學習問題有了具體的模型和評估策略,所有的機器學習問題都可以形式化為一個最優化問題。這也是為什么我們說優化理論和凸優化算法等學科是機器學習一大支柱的原因所在。從純數學的角度來看,所有的數學模型盡管形式不一,各有頭面,但到最后幾乎到可以歸約為最優化問題。所以,有志于奮戰在機器學習和深度學習領域的各位,學好最優化,責無旁貸啊。

要說機器學習和深度學習的優化算法,梯度下降必然是核心所在。神經網絡發展至今,優化算法層出不窮,但大底是出不了梯度下降的框框架架。這一篇筆記,筆者就和大家一起學習和回顧深度學習中常用的優化算法。在前面手動搭建神經網絡的代碼實踐中,我們對于損失函數的優化采用了一般的梯度下降法,所以本篇總結就從梯度下降法開始。

梯度下降法 Gradient Descent


640?wx_fmt=png

想必大家對于梯度下降是很熟悉了,選擇負梯度方向進行參數更新算是常規操作了。話不多說,對于多層神經網絡如何執行梯度下降:

defupdate_parameters_with_gd(parameters,grads,learning_rate):
"""
Updateparametersusingonestepofgradientdescent

Arguments:
parameters--pythondictionarycontainingyourparameterstobeupdated:
parameters['W'+str(l)]=Wl
parameters['b'+str(l)]=bl
grads--pythondictionarycontainingyourgradientstoupdateeachparameters:
grads['dW'+str(l)]=dWl
grads['db'+str(l)]=dbl
learning_rate--thelearningrate,scalar.
Returns:
parameters--pythondictionarycontainingyourupdatedparameters
"""
L=len(parameters)//2#numberoflayersintheneuralnetworks
#Updateruleforeachparameter
forlinrange(L):
parameters['W'+str(l+1)]=parameters['W'+str(l+1)]-learning_rate*grads['dW'+str(l+1)]
parameters['b'+str(l+1)]=parameters['b'+str(l+1)]-learning_rate*grads['db'+str(l+1)]
returnparameters

在上述代碼中,我們傳入含有權值和偏置的字典、梯度字段和更新的學習率作為參數,按照開頭的公式編寫權值更新代碼,一個簡單的多層網絡的梯度下降算法就寫出來了。

小批量梯度下降法 mini-batch Gradient Descent

在工業數據環境下,直接對大數據執行梯度下降法訓練往往處理速度緩慢,這時候將訓練集分割成小一點的子集進行訓練就非常重要了。這個被分割成的小的子集就叫做 mini-batch,意為小批量。對每一個小批量同時執行梯度下降會大大提高訓練效率。在實際利用代碼實現的時候,小批量梯度下降算法通常包括兩個步驟:充分打亂數據(shuffle)和分組組合數據(partition)。如下圖所示。

640?wx_fmt=png
shuffle
640?wx_fmt=png
partition

具體代碼實現為:

def random_mini_batches(X, Y, mini_batch_size = 64, seed = 0):
  """
  Creates a list of random minibatches from (X, Y)

  Arguments:
  X -- input data, of shape (input size, number of examples)
  Y -- true "label" vector (1 for blue dot / 0 for red dot), of shape (1, number of examples)
  mini_batch_size -- size of the mini-batches, integer

  Returns:
  mini_batches -- list of synchronous (mini_batch_X, mini_batch_Y)
  """

  np.random.seed(seed)    
  m = X.shape[1]         
  mini_batches = []  # Step 1: Shuffle (X, Y)
  permutation = list(np.random.permutation(m))
  shuffled_X = X[:, permutation]
  shuffled_Y = Y[:, permutation].reshape((1,m))  # Step 2: Partition (shuffled_X, shuffled_Y). Minus the end case.
  num_complete_minibatches = math.floor(m/mini_batch_size) 
  for k in range(0, num_complete_minibatches):
    mini_batch_X = shuffled_X[:, 0:mini_batch_size]
    mini_batch_Y = shuffled_Y[:, 0:mini_batch_size]

    mini_batch = (mini_batch_X, mini_batch_Y)
    mini_batches.append(mini_batch)  # Handling the end case (last mini-batch < mini_batch_size)
  if m % mini_batch_size != 0:
    mini_batch_X = shuffled_X[:, 0: m-mini_batch_size*math.floor(m/mini_batch_size)]
    mini_batch_Y = shuffled_Y[:, 0: m-mini_batch_size*math.floor(m/mini_batch_size)]

    mini_batch = (mini_batch_X, mini_batch_Y)
    mini_batches.append(mini_batch)  
return mini_batches

小批量梯度下降的實現思路非常清晰,先打亂數據在分組數據,需要注意的細節在于最后一個小批量所含的訓練樣本數,通常而言最后一個小批量會少于前面批量所含樣本數。

隨機梯度下降 Stochastic Gradient Descent

當小批量所含的訓練樣本數為 1 的時候,小批量梯度下降法就變成了隨機梯度下降法(SGD)。SGD雖然以單個樣本為訓練單元訓練速度會很快,但犧牲了向量化運算所帶來的便利性,在較大數據集上效率并不高。
我們可以看一下梯度下降和隨機梯度下降在實現上的差異:

# GD
X = data_input Y = labels parameters = initialize_parameters(layers_dims)
for i in range(0, num_iterations): # Forward propagation a, caches = forward_propagation(X, parameters) # Compute cost. cost = compute_cost(a, Y) # Backward propagation. grads = backward_propagation(a, caches, parameters) # Update parameters. parameters = update_parameters(parameters, grads)

# SGDX = data_input Y = labels parameters = initialize_parameters(layers_dims)
for i in range(0, num_iterations):
for j in range(0, m): # Forward propagation a, caches = forward_propagation(X[:,j], parameters) # Compute cost cost = compute_cost(a, Y[:,j]) # Backward propagation grads = backward_propagation(a, caches, parameters) # Update parameters. parameters = update_parameters(parameters, grads)

所以,從本質上看,梯度下降法、小批量梯度下降法和隨機梯度下降法,并沒有區別。唯一的區別就在于它們執行一次訓練過程所需要用到的訓練樣本數。梯度下降法用到的是全集訓練數據,隨機梯度下降則是單個樣本數據,而小批量則是介于二者之間。

帶動量的梯度下降法(momentum)

640?wx_fmt=png
正如上圖中看到的一樣,我們假設梯度下降的橫向為參數 W 的下降方向,而偏置 b 的下降方向為縱軸,我們總是希望在縱軸上的震蕩幅度小一點,學習速度慢一點,而在橫軸上學習速度快一點,無論是小批量梯度下降還是隨機梯度下降,好像都不能避免這個問題。為了解決這個問題,帶動量的梯度下降法來了。帶動量的梯度下降考慮歷史梯度的加權平均值作為速率進行優化。執行公式如下:

640?wx_fmt=png
根據上述公式編寫帶動量的梯度下降法實現代碼:

defupdate_parameters_with_momentum(parameters,grads,v,beta,learning_rate):
"""
UpdateparametersusingMomentum

Arguments:
parameters--pythondictionarycontainingyourparameters:
parameters['W'+str(l)]=Wl
parameters['b'+str(l)]=bl
grads--pythondictionarycontainingyourgradientsforeachparameters:
grads['dW'+str(l)]=dWl
grads['db'+str(l)]=dbl
v--pythondictionarycontainingthecurrentvelocity:
v['dW'+str(l)]=...
v['db'+str(l)]=...
beta--themomentumhyperparameter,scalar
learning_rate--thelearningrate,scalar

Returns:
parameters--pythondictionarycontainingyourupdatedparameters
v--pythondictionarycontainingyourupdatedvelocities
"""

L=len(parameters)//2#numberoflayersintheneuralnetworks

#Momentumupdateforeachparameter
forlinrange(L):#computevelocities
v['dW'+str(l+1)]=beta*v['dW'+str(l+1)]+(1-beta)*grads['dW'+str(l+1)]
v['db'+str(l+1)]=beta*v['db'+str(l+1)]+(1-beta)*grads['db'+str(l+1)]#updateparameters
parameters['W'+str(l+1)]=parameters['W'+str(l+1)]-learning_rate*v['dW'+str(l+1)]
parameters['b'+str(l+1)]=parameters['b'+str(l+1)]-learning_rate*v['db'+str(l+1)]
returnparameters,v

實現帶動量的梯度下降的關鍵點有兩個:一是動量是考慮歷史梯度進行梯度下降的,二是這里的需要指定的超參數變成了兩個:一個是學習率 learning_rate,一個是梯度加權參數beta

Adam算法

Adam 全稱為 Adaptive Moment Estimation,是在帶動量的梯度下降法的基礎上融合了一種稱為 RMSprop(加速梯度下降)的算法而成的。相較于帶動量的梯度下降法,無論是RMSprop 還是 Adam,其中的改進思路都在于如何讓橫軸上的學習更快以及讓縱軸上的學習更慢。RMSprop 和 Adam 在帶動量的梯度下降法的基礎上,引入了平方梯度,并對速率進行了偏差糾正。具體計算公式如下:

640?wx_fmt=png

實現代碼如下:

def update_parameters_with_adam(parameters, grads, v, s, t, learning_rate = 0.01,
                beta1 = 0.9, beta2 = 0.999, epsilon = 1e-8):
  """
  Update parameters using Adam

  Arguments:
  parameters -- python dictionary containing your parameters:
          parameters['W' + str(l)] = Wl
          parameters['b' + str(l)] = bl
  grads -- python dictionary containing your gradients for each parameters:
          grads['dW' + str(l)] = dWl
          grads['db' + str(l)] = dbl
  v -- Adam variable, moving average of the first gradient, python dictionary
  s -- Adam variable, moving average of the squared gradient, python dictionary
  learning_rate -- the learning rate, scalar.
  beta1 -- Exponential decay hyperparameter for the first moment estimates 
  beta2 -- Exponential decay hyperparameter for the second moment estimates 
  epsilon -- hyperparameter preventing division by zero in Adam updates

  Returns:
  parameters -- python dictionary containing your updated parameters 
  v -- Adam variable, moving average of the first gradient, python dictionary
  s -- Adam variable, moving average of the squared gradient, python dictionary
  """

  L = len(parameters) // 2         
  v_corrected = {}            
  s_corrected = {}             

  # Perform Adam update on all parameters
  for l in range(L):
    v["dW" + str(l+1)] = beta1 * v["dW" + str(l+1)] + (1 - beta1) * grads['dW'+str(l+1)]
    v["db" + str(l+1)] = beta1 * v["db" + str(l+1)] + (1 - beta1) * grads['db'+str(l+1)]    # Compute bias-corrected first moment estimate. Inputs: "v, beta1, t". Output: "v_corrected".  
    v_corrected["dW" + str(l+1)] = v["dW" + str(l+1)] / (1 - beta1**t)
    v_corrected["db" + str(l+1)] = v["db" + str(l+1)] / (1 - beta1**t)    # Moving average of the squared gradients. Inputs: "s, grads, beta2". Output: "s".
    s["dW" + str(l+1)] = beta2 * s["dW" + str(l+1)] + (1 - beta2) * (grads["dW" + str(l+1)])**2
    s["db" + str(l+1)] = beta2 * s["db" + str(l+1)] + (1 - beta2) * (grads["db" + str(l+1)])**2


    # Compute bias-corrected second raw moment estimate. Inputs: "s, beta2, t". Output: "s_corrected".
    s_corrected["dW" + str(l+1)] = s["dW" + str(l+1)] / (1 - beta2**t)
    s_corrected["db" + str(l+1)] = s["db" + str(l+1)] / (1 - beta2**t)    # Update parameters. Inputs: "parameters, learning_rate, v_corrected, s_corrected, epsilon". Output: "parameters".

    parameters["W" + str(l+1)] = parameters["W" + str(l+1)] - learning_rate * v_corrected["dW" + str(l+1)] / (np.sqrt(s_corrected["dW" + str(l+1)]) + epsilon)
    parameters["b" + str(l+1)] = parameters["b" + str(l+1)] - learning_rate * v_corrected["db" + str(l+1)] / (np.sqrt(s_corrected["db" + str(l+1)]) + epsilon)  
return parameters, v, s

除了以上這些算法,還有一些像 Adadelta 之類的算法我們沒有提到,有需要了解的同學可以自行查找相關資料。最后用一個圖來展示各種優化算法的效果:


本文由《自興動腦人工智能》項目部 凱文 投稿。


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 人工智能
    +關注

    關注

    1817

    文章

    50098

    瀏覽量

    265423
  • 機器學習
    +關注

    關注

    66

    文章

    8553

    瀏覽量

    136962
  • 深度包檢測
    +關注

    關注

    0

    文章

    2

    瀏覽量

    5753
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    面向嵌入式部署的神經網絡優化:模型壓縮深度解析

    1.為什么需要神經網絡模型壓縮? 神經網絡已經成為解決復雜機器學習問題的強大工具。然而,這種能力往往伴隨著模型規模和計算復雜度的增加。當輸入維度較大(例如長時序窗口、高分辨率特征空間)時,模型需要
    的頭像 發表于 02-24 15:37 ?4813次閱讀
    面向嵌入式部署的<b class='flag-5'>神經網絡</b><b class='flag-5'>優化</b>:模型壓縮<b class='flag-5'>深度</b>解析

    神經網絡的初步認識

    日常生活中的智能應用都離不開深度學習,而深度學習則依賴于神經網絡的實現。什么是神經網絡
    的頭像 發表于 12-17 15:05 ?335次閱讀
    <b class='flag-5'>神經網絡</b>的初步認識

    自動駕駛中常提的卷積神經網絡是個啥?

    在自動駕駛領域,經常會聽到卷積神經網絡技術。卷積神經網絡,簡稱為CNN,是一種專門用來處理網格狀數據(比如圖像)的深度學習模型。CNN在圖像處理中尤其常見,因為圖像本身就可以看作是由像
    的頭像 發表于 11-19 18:15 ?2079次閱讀
    自動駕駛中常提的卷積<b class='flag-5'>神經網絡</b>是個啥?

    CNN卷積神經網絡設計原理及在MCU200T上仿真測試

    數的提出很大程度的解決了BP算法優化深層神經網絡時的梯度耗散問題。當x&gt;0 時,梯度恒為1,無梯度耗散問題,收斂快;當x&lt;0 時,該層的輸出為0。 CNN
    發表于 10-29 07:49

    NMSIS神經網絡庫使用介紹

    () riscv_fully_connected_q7()   在NS上跑時和arm的神經網絡庫一致,可在github上下載CMSIS的庫,然后加入自己庫所在的路徑下即可。
    發表于 10-29 06:08

    構建CNN網絡模型并優化的一般化建議

    :Dropout層隨機跳過神經網絡模型中某些神經元之間的連接,通過隨機制造缺陷進行訓練提升整個神經網絡的魯棒性。 6)指定合理的學習率策
    發表于 10-28 08:02

    在Ubuntu20.04系統中訓練神經網絡模型的一些經驗

    , batch_size=512, epochs=20)總結 這個核心算法中的卷積神經網絡結構和訓練過程,是用來對MNIST手寫數字圖像進行分類的。模型將圖像作為輸入,通過卷積和池化層提取圖像的特征,然后通過全連接層進行分類預測。訓練過程中,模型通過最小化損失函數來
    發表于 10-22 07:03

    CICC2033神經網絡部署相關操作

    在完成神經網絡量化后,需要將神經網絡部署硬件加速器上。首先需要將所有權重數據以及輸入數據導入存儲器內。 在仿真環境下,可將其存于一個文件,并在 Verilog 代碼中通過 read
    發表于 10-20 08:00

    人工智能工程師高頻面試題匯總:循環神經網絡篇(題目+答案)

    ,提前準備一些面試常問的問題,比如概率論與統計知識、機器學習的那些算法,或者深度學習的框架,還有怎么優化模型,循環
    的頭像 發表于 10-17 16:36 ?708次閱讀
    人工智能工程師高頻面試題匯總:循環<b class='flag-5'>神經網絡</b>篇(題目+答案)

    液態神經網絡(LNN):時間連續性與動態適應性的神經網絡

    1.算法簡介液態神經網絡(LiquidNeuralNetworks,LNN)是一種新型的神經網絡架構,其設計理念借鑒自生物神經系統,特別是秀麗隱桿線蟲的
    的頭像 發表于 09-28 10:03 ?1226次閱讀
    液態<b class='flag-5'>神經網絡</b>(LNN):時間連續性與動態適應性的<b class='flag-5'>神經網絡</b>

    如何在機器視覺中部署深度學習神經網絡

    圖 1:基于深度學習的目標檢測可定位已訓練的目標類別,并通過矩形框(邊界框)對其進行標識。 在討論人工智能(AI)或深度學習時,經常會出現“神經網絡
    的頭像 發表于 09-10 17:38 ?902次閱讀
    如何在機器視覺中部署<b class='flag-5'>深度</b><b class='flag-5'>學習</b><b class='flag-5'>神經網絡</b>

    AI的核心操控:算法硬件的協同進化

    到頂層的應用算法,共同構成AI的“智能引擎”。 算法層:模型架構與訓練控制 現代AI的核心是深度學習算法,其操控依賴于
    的頭像 發表于 09-08 17:51 ?991次閱讀

    無刷電機小波神經網絡轉子位置檢測方法的研究

    摘要:論文通過對無刷電機數學模型的推導,得出轉角:與三相相電壓之間存在映射關系,因此構建了一個以三相相電壓為輸人,轉角為輸出的小波神經網絡來實現轉角預測,并采用改進遺傳算法來訓練網絡結構與參數,借助
    發表于 06-25 13:06

    神經網絡專家系統在電機故障診斷中的應用

    摘要:針對傳統專家系統不能進行自學習、自適應的問題,本文提出了基于種經網絡專家系統的并步電機故障診斷方法。本文將小波神經網絡和專家系統相結合,充分發揮了二者故障診斷的優點,很大程度上降低了對電機
    發表于 06-16 22:09

    嵌入式AI技術深度學習:數據樣本預處理過程中使用合適的特征變換對深度學習的意義

    ? 作者:蘇勇Andrew 使用神經網絡實現機器學習網絡的每個層都將對輸入的數據做一次抽象,多層神經網絡構成深度
    的頭像 發表于 04-02 18:21 ?1519次閱讀