厕所偷拍第一页,玖玖久久,99久久精品免费观看国产

導讀

從成千上萬小時的模型訓練中累計的經驗和教訓。

在我們的機器學習實驗室，我們在許多高性能的機器已經積累了成千上萬個小時的訓練。然而，并不是只有計算機在這個過程中學到了很多東西：我們自己也犯了很多錯誤，修復了很多錯誤。

在這里，我們根據我們的經驗(主要基于 TensorFlow)提出了一些訓練深度神經網絡的實用技巧。有些建議對你來說可能是顯而易見的，但對我們中的某個人來說卻不是。其他的建議可能不適用，甚至對你的特定任務來說是不好的建議：謹慎使用！

我們承認這些都是眾所周知的方法。我們也站在巨人的肩膀上！我們這篇文章的目的僅僅是對它們進行高層次的總結，以便在實踐中使用。

通用 Tips

使用 ADAM 優化器。它真的很好用。比起傳統的優化方法，如原始的梯度下降，我更喜歡它。注意：如果要保存和恢復權重，記得在設置好AdamOptimizer之后設置Saver ，因為 ADAM 也有需要恢復的狀態(即每個權重的學習率)。

ReLU 是最好的非線性(激活函數)。這有點像說 Sublime 是最好的文本編輯器。但實際上，ReLUs 是快速的、簡單的，而且令人驚訝的是，它們能夠工作，并且沒有梯度衰減的問題。雖然 sigmoid 是一種常見的教科書式激活函數，但它不能很好地通過 DNNs 傳播梯度。

不要在輸出層使用激活函數。這應該是顯而易見的，但這是一個很容易犯的錯誤，如果你用一個共享函數構建每個層：一定要在輸出處關閉激活函數。

一定要在每一層添加一個偏差。這是 ML 101：偏差本質上是將飛機轉換成最佳位置。在y=mx+b中，b 是偏差，允許直線向上或向下移動到“最合適”的位置。

使用 variance-scaled 初始化。在 Tensorflow 中，就像tf.contrib.layers.variance_scaling_initializer()。在我們的經驗中，這比常規的高斯分布、截斷的正太分布和 Xavier 更能泛化/縮放。粗略地說， variance scaling 初始化根據每一層的輸入或輸出的數量來調整初始隨機權重的方差(TensorFlow 中的默認值是輸入的數量)，從而幫助信號更深入地傳播到網絡中，而不需要額外的“技巧”，比如 clipping 或 batch normalization。Xavier 是很相似的方法，但是 Xavier 的所有層的方差幾乎相同，在那些層的形狀變化很大的網絡(通常是卷積網絡)中，可能不能很好地處理每一層相同的變化。

白化(歸一化)你的輸入數據。訓練時，減去數據集的均值，然后除以其標準差。你需要向各個方向拉伸和拉伸的幅度越少，你的網絡學習就會越快、越容易。保持輸入數據的均值以不變的方差為中心有助于解決這個問題。你還必須對每個測試輸入執行相同的標準化，因此要確保你的訓練集與真實數據相似。

以合理保留其動態范圍的方式縮放輸入數據。這與歸一化有關，但應該在歸一化之前進行。例如，實際范圍為[0,140000000]的數據“x”通常可以用tanh(x)或tanh(x/C)來處理，其中 C是某個常數，它拉伸曲線以適應 tanh 函數動態的、傾斜的部分中的更多輸入范圍。特別是在輸入數據的一端或兩端可能是無界的情況下，神經網絡在(0,1)之間可以更好地學習。

不要費心降低學習速度(通常)。學習率下降在 SGD 中更為常見，但 ADAM 自然地處理了這個問題。如果你絕對想要榨干每一盎司的表現：在訓練結束后短時間內降低學習速度，你可能會看到一個突然的，非常小的誤差下降，然后它會再次變平。

如果你的卷積層有 64 或 128 個濾波器，那可能就足夠了。特別是對于深度網絡。實際上，128 已經很多了。如果你已經有了大量的濾波器，那么添加更多的濾波器可能不會改善性能。

池化用于轉換不變性。池化本質上是讓網絡學習圖像“那部分”的“大意”。例如，最大池可以幫助卷積網絡對圖像中特征的平移、旋轉和縮放變得健壯。

調試神經網絡

如果你的網絡沒有學習(意思是：在訓練過程中，損失沒有收斂，或者你沒有得到你期望的結果)，試試下面的建議：

過擬合！如果你的網絡沒有在學習，首先要做的就是在單個數據樣本上讓網絡過擬合。這樣的話，準確度應該是 100%或 99.99%，或者接近于 0 的誤差。如果你的神經網絡不能對單個數據點進行過擬合，那么可能是體系結構出現嚴重問題，但問題可能很微妙。如果你可以過擬合一個數據點，但是在更大的集合上的訓練仍然不收斂，請嘗試以下建議。

降低學習率。你的網絡學習速度會變慢，但它可能會進入一個以前無法進入的最小值，因為之前它的步長太大了。(直覺上，當你真正想進入溝底時，你的錯誤是最低的，想象一下跨過路邊的水溝。)

提高學習率。這將加快訓練，幫助收緊反饋回路，這意味著你會更早知道你的網絡是否在工作。雖然網絡應該更快地收斂，但它的結果可能不會很好，而且“收斂”的過程實際上可能會跳來跳去。(使用 ADAM 的時候，我們發現~0.001 是一個非常好的值，在許多實驗中都是這樣。)

減小 minibatch 大小。將 minibatch 大小減少到 1 可以提供與權重更新相關的更細粒度的反饋，你可以使用 TensorBoard(或其他調試/可視化工具)報告這些更新。

去掉 batch normalization。隨著批大小減少到 1，這樣做可以梯度消失或梯度爆炸。幾個星期以來，我們的網絡都沒有收斂，當我們刪除了 batch normalization 之后，我們意識到在第二次迭代時輸出都是 NaN。Batch norm 的作用是給需要止血帶的東西貼上創可貼。它有它用的位置，但只有在你網絡是沒有 bug 的情況下才可以用。

增加 minibatch 大小。更大的 minibatch — 如果可以的話，使用整個訓練集 — 減少梯度更新中的方差，使每次迭代更精確。換句話說，讓權重更新的方向是正確的。但是！它的有用性有一個有效的上限，物理內存的限制。通常，我們發現這不如前兩個建議那么有用，這兩個建議將 minibatch 大小減少到 1 并刪除 batch normalization。

檢查一下 reshaping。劇烈的 reshaping(比如改變圖像的 X、Y 維度)會破壞空間的局部性，使得網絡更難學習，因為它也必須學習 reshaping。(自然景觀變得支離破碎。自然特征在空間上是局部的，這就是為什么 conv 網如此有效的原因。如果使用多個圖像/通道進行 reshape，要特別小心，使用numpy.stack()進行適當的對齊。

仔細檢查你的損失函數。如果使用復合函數，嘗試將其簡化為 L1 或 L2。我們發現 L1 對異常值的敏感度較低，當遇到有噪聲的批處理或訓練點時，L1 的調整幅度較小。

仔細檢查你的可視化效果，如果適用的話。你的可視化庫(matplotlib, OpenCV 等)是調整數值的比例，還是剪切它們？還可以考慮使用一種感覺上一致的配色方案。

用一個例子來學習一下

為了使上面描述的過程更接近實際，這里有一些損失圖(通過 TensorBoard 畫出來的)，用于我們構建的卷積神經網絡的一些實際回歸實驗。

起初，這個網絡根本沒有學習：

構建神經網絡的經驗和教訓總結

我們嘗試對值進行 clipping，以防止它們超出界限：

構建神經網絡的經驗和教訓總結

嗯。看看這些沒做平滑的值有多瘋狂。學習率太高？我們試著降低學習速度，只對一個輸入進行訓練：

構建神經網絡的經驗和教訓總結

你可以看到學習率的最初幾個變化發生在什么地方(大約在第 300 步和第 3000 步)。顯然，我們衰減得太快了。所以，在衰減之前給它更多的時間，它可以做得更好：

構建神經網絡的經驗和教訓總結

你可以看到我們在 2000 步和 5000 步時衰減。這個更好，但仍然不是很好，因為它沒有趨近于 0。

然后，我們禁用了學習率衰減，并嘗試將值移動到一個更窄的范圍內，不過不是通過輸入 tanh。雖然這明顯使錯誤值低于 1，但我們仍然不能過擬合訓練集：

構建神經網絡的經驗和教訓總結

通過刪除 batch normalization，我們發現，在經過一兩次迭代之后，網絡可以快速輸出 NaN。我們禁用了 batch normalization，并將初始化更改為 variance scaling。這些改變了一切！我們能夠過擬合我們的測試集，只是一個或兩個輸入。雖然底部的圖表蓋住了 Y 軸，但初始誤差值遠遠高于 5，表明誤差減少了近 4 個數量級：

構建神經網絡的經驗和教訓總結

上面的圖表非常平滑，但是你可以看到它與測試輸入過擬合的速度非常快，隨著時間的推移，整個訓練集的損失降到了 0.01 以下。這并沒有降低學習率。在學習率下降一個數量級后，我們繼續訓練，得到了更好的結果：

構建神經網絡的經驗和教訓總結

這些結果好多了！但是如果我們以幾何的方式衰減學習率而不是把訓練分成兩部分呢？

將每一步的學習率乘以 0.9995，結果并不好：

構建神經網絡的經驗和教訓總結

大概是因為衰減太快了，乘數為 0.999995 的情況要好一些，但結果幾乎等于完全不衰減。我們從這個特殊的實驗序列中得出結論，batch normalization 隱藏了糟糕的初始化所導致的急劇變化的梯度，降低學習率對 ADAM 優化器并沒有特別的幫助，除了在最后可能會故意降低。與 batch normalization 一起，clipping 只是掩蓋了真正的問題。我們還通過將高方差輸入值放入 tanh 來處理它們。

我們希望隨著你對構建深度神經網絡越來越熟悉，你會發現這些基本技巧非常有用。通常，只是一些簡單的事情就能改變一切。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

神經網絡

神經網絡

+關注

關注
42

文章
4838

瀏覽量
107767
ADAM

ADAM

+關注

關注
0

文章
15

瀏覽量
10086

搜索歷史

構建神經網絡的經驗和教訓總結

評論