国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

機器學習中的正則化的相關知識點

中科院長春光機所 ? 來源:極市平臺 ? 作者:極市平臺 ? 2021-01-20 15:27 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

正則化是一種為了減小測試誤差的行為(有時候會增加訓練誤差)。當我們用較為復雜的模型擬合數據時,容易出現過擬合現象,導致模型的泛化能力下降,這時我們就需要使用正則化,降低模型的復雜度。本文總結闡釋了正則化的相關知識點,幫助大家更好的理解正則化這一概念。

目錄

LP范數

L1范數

L2范數

L1范數和L2范數的區別

Dropout

Batch Normalization

歸一化、標準化 & 正則化

Reference

在總結正則化(Regularization)之前,我們先談一談正則化是什么,為什么要正則化。

個人認為正則化這個字眼有點太過抽象和寬泛,其實正則化的本質很簡單,就是對某一問題加以先驗的限制或約束以達到某種特定目的的一種手段或操作。在算法中使用正則化的目的是防止模型出現過擬合。一提到正則化,很多同學可能馬上會想到常用的L1范數和L2范數,在匯總之前,我們先看下LP范數是什么鬼。

LP范數

范數簡單可以理解為用來表征向量空間中的距離,而距離的定義很抽象,只要滿足非負、自反、三角不等式就可以稱之為距離。

LP范數不是一個范數,而是一組范數,其定義如下:

48d22580-57b9-11eb-8b86-12bb97331649.png

pp的范圍是[1,∞)[1,∞)。pp在(0,1)(0,1)范圍內定義的并不是范數,因為違反了三角不等式。

根據pp的變化,范數也有著不同的變化,借用一個經典的有關P范數的變化圖如下:

490ab706-57b9-11eb-8b86-12bb97331649.jpg

上圖表示了pp從0到正無窮變化時,單位球(unit ball)的變化情況。在P范數下定義的單位球都是凸集,但是當0

那問題來了,L0范數是啥玩意?

L0范數表示向量中非零元素的個數,用公式表示如下:

493d18cc-57b9-11eb-8b86-12bb97331649.png

我們可以通過最小化L0范數,來尋找最少最優的稀疏特征項。但不幸的是,L0范數的最優化問題是一個NP hard問題(L0范數同樣是非凸的)。因此,在實際應用中我們經常對L0進行凸松弛,理論上有證明,L1范數是L0范數的最優凸近似,因此通常使用L1范數來代替直接優化L0范數。

L1范數

根據LP范數的定義我們可以很輕松的得到L1范數的數學形式:

497ed852-57b9-11eb-8b86-12bb97331649.png

通過上式可以看到,L1范數就是向量各元素的絕對值之和,也被稱為是"稀疏規則算子"(Lasso regularization)。那么問題來了,為什么我們希望稀疏化?稀疏化有很多好處,最直接的兩個:

特征選擇

可解釋性

L2范數

L2范數是最熟悉的,它就是歐幾里得距離,公式如下:

49a0c0d4-57b9-11eb-8b86-12bb97331649.png

L2范數有很多名稱,有人把它的回歸叫“嶺回歸”(Ridge Regression),也有人叫它“權值衰減”(Weight Decay)。以L2范數作為正則項可以得到稠密解,即每個特征對應的參數ww都很小,接近于0但是不為0;此外,L2范數作為正則化項,可以防止模型為了迎合訓練集而過于復雜造成過擬合的情況,從而提高模型的泛化能力。

L1范數和L2范數的區別

引入PRML一個經典的圖來說明下L1和L2范數的區別,如下圖所示:

49f52886-57b9-11eb-8b86-12bb97331649.jpg

如上圖所示,藍色的圓圈表示問題可能的解范圍,橘色的表示正則項可能的解范圍。而整個目標函數(原問題+正則項)有解當且僅當兩個解范圍相切。從上圖可以很容易地看出,由于L2范數解范圍是圓,所以相切的點有很大可能不在坐標軸上,而由于L1范數是菱形(頂點是凸出來的),其相切的點更可能在坐標軸上,而坐標軸上的點有一個特點,其只有一個坐標分量不為零,其他坐標分量為零,即是稀疏的。所以有如下結論,L1范數可以導致稀疏解,L2范數導致稠密解。

從貝葉斯先驗的角度看,當訓練一個模型時,僅依靠當前的訓練數據集是不夠的,為了實現更好的泛化能力,往往需要加入先驗項,而加入正則項相當于加入了一種先驗。

L1范數相當于加入了一個Laplacean先驗;

L2范數相當于加入了一個Gaussian先驗。

如下圖所示:

4a7f64ba-57b9-11eb-8b86-12bb97331649.jpg

Dropout

Dropout是深度學習中經常采用的一種正則化方法。它的做法可以簡單的理解為在DNNs訓練的過程中以概率pp丟棄部分神經元,即使得被丟棄的神經元輸出為0。Dropout可以實例化的表示為下圖:

4ad6f932-57b9-11eb-8b86-12bb97331649.jpg

我們可以從兩個方面去直觀地理解Dropout的正則化效果:

在Dropout每一輪訓練過程中隨機丟失神經元的操作相當于多個DNNs進行取平均,因此用于預測時具有vote的效果。

減少神經元之間復雜的共適應性。當隱藏層神經元被隨機刪除之后,使得全連接網絡具有了一定的稀疏化,從而有效地減輕了不同特征的協同效應。也就是說,有些特征可能會依賴于固定關系的隱含節點的共同作用,而通過Dropout的話,就有效地組織了某些特征在其他特征存在下才有效果的情況,增加了神經網絡的魯棒性。

Batch Normalization

批規范化(Batch Normalization)嚴格意義上講屬于歸一化手段,主要用于加速網絡的收斂,但也具有一定程度的正則化效果。

這里借鑒下魏秀參博士的知乎回答中對covariate shift的解釋(https://www.zhihu.com/question/38102762)。

注:以下內容引自魏秀參博士的知乎回答

大家都知道在統計機器學習中的一個經典假設是“源空間(source domain)和目標空間(target domain)的數據分布(distribution)是一致的”。如果不一致,那么就出現了新的機器學習問題,如transfer learning/domain adaptation等。而covariate shift就是分布不一致假設之下的一個分支問題,它是指源空間和目標空間的條件概率是一致的,但是其邊緣概率不同。大家細想便會發現,的確,對于神經網絡的各層輸出,由于它們經過了層內操作作用,其分布顯然與各層對應的輸入信號分布不同,而且差異會隨著網絡深度增大而增大,可是它們所能“指示”的樣本標記(label)仍然是不變的,這便符合了covariate shift的定義。

BN的基本思想其實相當直觀,因為神經網絡在做非線性變換前的激活輸入值(X=WU+BX=WU+B,UU是輸入)隨著網絡深度加深,其分布逐漸發生偏移或者變動(即上述的covariate shift)。之所以訓練收斂慢,一般是整體分布逐漸往非線性函數的取值區間的上下限兩端靠近(對于Sigmoid函數來說,意味著激活輸入值X=WU+BX=WU+B是大的負值或正值),所以這導致后向傳播時低層神經網絡的梯度消失,這是訓練深層神經網絡收斂越來越慢的本質原因。而BN就是通過一定的規范化手段,把每層神經網絡任意神經元這個輸入值的分布強行拉回到均值為0方差為1的標準正態分布,避免因為激活函數導致的梯度彌散問題。所以與其說BN的作用是緩解covariate shift,倒不如說BN可緩解梯度彌散問題。

歸一化、標準化 & 正則化

正則化我們以及提到過了,這里簡單提一下歸一化和標準化。

歸一化(Normalization):歸一化的目標是找到某種映射關系,將原數據映射到[a,b]區間上。一般a,b會取[?1,1],[0,1]這些組合。

一般有兩種應用場景:

把數變為(0, 1)之間的小數

把有量綱的數轉化為無量綱的數

常用min-max normalization:

4b354f32-57b9-11eb-8b86-12bb97331649.png

標準化(Standardization):用大數定理將數據轉化為一個標準正態分布,標準化公式為:

4b5dd308-57b9-11eb-8b86-12bb97331649.png

歸一化和標準化的區別:

我們可以這樣簡單地解釋:

歸一化的縮放是“拍扁”統一到區間(僅由極值決定),而標準化的縮放是更加“彈性”和“動態”的,和整體樣本的分布有很大的關系。

值得注意:

歸一化:縮放僅僅跟最大、最小值的差別有關。

標準化:縮放和每個點都有關系,通過方差(variance)體現出來。與歸一化對比,標準化中所有數據點都有貢獻(通過均值和標準差造成影響)。

為什么要標準化和歸一化?

提升模型精度:歸一化后,不同維度之間的特征在數值上有一定比較性,可以大大提高分類器的準確性。

加速模型收斂:標準化后,最優解的尋優過程明顯會變得平緩,更容易正確的收斂到最優解。如下圖所示:

4b958a3c-57b9-11eb-8b86-12bb97331649.png

責任編輯:lq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 函數
    +關注

    關注

    3

    文章

    4417

    瀏覽量

    67521
  • 神經元
    +關注

    關注

    1

    文章

    369

    瀏覽量

    19175
  • 機器學習
    +關注

    關注

    66

    文章

    8553

    瀏覽量

    136959

原文標題:一文讀懂機器學習中的正則化

文章出處:【微信號:cas-ciomp,微信公眾號:中科院長春光機所】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    手把手教你學51單片機-C語言版

    則是盡可能的先舉例子,建立起鮮活的形象,然后去探求其中的奧秘,逐一解釋例程的每個知識點的原理,這樣會非常有利于對于例程的理解。 3、細致講解,形象比喻 自然萬物都是相通的,單片機也不例外。其實
    發表于 03-05 11:47

    算法工程師需要具備哪些技能?

    :自動任務(如數據預處理、模型訓練調度)。Git版本控制:團隊協作開發(如分支管理、代碼合并)。 機器學習監督學習:線性回歸、邏輯回歸、決策樹、SVM等。無監督
    發表于 02-27 10:53

    機器學習和深度學習需避免的 7 個常見錯誤與局限性

    無論你是剛入門還是已經從事人工智能模型相關工作一段時間,機器學習和深度學習中都存在一些我們需要時刻關注并銘記的常見錯誤。如果對這些錯誤置之不理,日后可能會引發諸多麻煩!只要我們密切關注
    的頭像 發表于 01-07 15:37 ?193次閱讀
    <b class='flag-5'>機器</b><b class='flag-5'>學習</b>和深度<b class='flag-5'>學習</b><b class='flag-5'>中</b>需避免的 7 個常見錯誤與局限性

    單片機學習的8個知識點分享

    1、上拉電阻的選擇 在單片機電路,上拉電阻的選擇是很重要,它能夠提高電路的驅動能力和穩定性,同時也能保護內部電路免受外部干擾。選擇合適的上拉電阻需要考慮以下因素: ①電阻值:上拉電阻的電阻值需要
    發表于 11-20 07:58

    AI 驅動三維逆向:云降噪算法工具與機器學習建模能力的前沿應用

    在三維逆向工程領域,傳統方法在處理復雜數據和構建高精度模型時面臨諸多挑戰。隨著人工智能(AI)技術的發展,云降噪算法工具與機器學習建模能力的應用,為三維逆向工程帶來了創新性解決方案,顯著提升
    的頭像 發表于 08-20 10:00 ?709次閱讀
    AI 驅動三維逆向:<b class='flag-5'>點</b>云降噪算法工具與<b class='flag-5'>機器</b><b class='flag-5'>學習</b>建模能力的前沿應用

    【「Yocto項目實戰教程:高效定制嵌入式Linux系統」閱讀體驗】+基礎概念學習理解

    指導。 三、讀后感 這本書內容豐富且實用,完全可以當作我的工具書。當項目中涉及到相關知識時,我能夠快速從中找到常用的知識點,為解決實際問題提供有力的支持。
    發表于 08-04 22:29

    FPGA在機器學習的具體應用

    ,越來越多地被應用于機器學習任務。本文將探討 FPGA 在機器學習的應用,特別是在加速神經網
    的頭像 發表于 07-16 15:34 ?2899次閱讀

    最新人工智能硬件培訓AI基礎入門學習課程參考2025版(離線AI語音視覺識別篇)

    視覺開發板開箱即用的離線AI能力,分類列出學習課程知識點和實操參考,希望能夠幫助大家快速掌握離線 AI 智能硬件的基礎知識與實戰技能,同時了解相關AI技術在實際場景的應用情況。正文按入
    發表于 07-04 11:14

    【「Yocto項目實戰教程:高效定制嵌入式Linux系統」閱讀體驗】01初讀體驗

    書的心得體會,獲取閱讀重點等信息。 推薦序知識點 從推薦序,可以獲得以下知識點: 這本書的學習過程可以實操,沒有硬件條件的可以使用qem
    發表于 06-30 21:49

    使用MATLAB進行無監督學習

    無監督學習是一種根據未標注數據進行推斷的機器學習方法。無監督學習旨在識別數據隱藏的模式和關系,無需任何監督或關于結果的先驗
    的頭像 發表于 05-16 14:48 ?1449次閱讀
    使用MATLAB進行無監督<b class='flag-5'>學習</b>

    C51單片機及C語言知識點必備秘籍

    單片機關鍵知識點一覽: 系列一 1:單片機簡敘 2:單片機引腳介紹 3:單片機存儲器結構 4:第一個單片機小程序 5:單片機延時程序分析 6:單片機并行口結構 7:單片機的特殊
    發表于 05-15 14:00

    電機選型計算公式與知識點匯總

    純分享帖,需要者可點擊附件獲取完整資料~~~*附件:電機選型計算公式與知識點匯總.pdf 【免責聲明】內容轉自今日電機,因轉載眾多,無法確認真正原始作者,故僅標明轉載來源。版權歸原出處所有,純分享帖,侵權請聯系刪除內容以保證您的權益。
    發表于 04-29 16:10

    汽車電子的關鍵車規質量標準

    在之前的文章《汽車質量標準初階入門:哪些認證標準與我們息息相關,我們探討了當時的車規質量標準。自那時起,汽車市場獲得了長足發展,電子設備在車輛內外扮演的角色愈發重要。本文重新審視了這一主題并更新了相關
    的頭像 發表于 04-24 15:13 ?1505次閱讀
    汽車電子<b class='flag-5'>中</b>的關鍵車規質量標準

    嵌入式硬件雜談:推挽、開漏、高阻態、上拉電阻

    對于嵌入式硬件這個龐大的知識體系而言,太多離散的知識點很容易疏漏,因此對于這些容易忘記甚至不明白的知識點做成一個梳理,供大家參考以及學習,本文主要針對推挽、開漏、高阻態、上拉電阻這些
    的頭像 發表于 04-17 19:31 ?2151次閱讀
    嵌入式硬件雜談:推挽、開漏、高阻態、上拉電阻

    電氣工程師必知必會的100個電?知識點分享

    電??程師也都是從電?學徒??步?步積累成長起來的。積跬步?千?,匯細流成江海!朋友們,現在讓我們??個捷徑,花半個?時的時間來積累100個必知必會的電?知識點吧!
    的頭像 發表于 03-14 11:05 ?1858次閱讀