国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

batch normalization時(shí)的一些缺陷

深度學(xué)習(xí)自然語(yǔ)言處理 ? 來(lái)源:深度學(xué)習(xí)自然語(yǔ)言處理 ? 作者:Sahil Uppal ? 2020-11-03 17:27 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

導(dǎo)讀

batch normalization時(shí)的一些缺陷。

Batch Normalization確實(shí)是深度學(xué)習(xí)領(lǐng)域的重大突破之一,也是近年來(lái)研究人員討論的熱點(diǎn)之一。Batch Normalization是一種被廣泛采用的技術(shù),使訓(xùn)練更加快速和穩(wěn)定,已成為最有影響力的方法之一。然而,盡管它具有多種功能,但仍有一些地方阻礙了該方法的發(fā)展,正如我們將在本文中討論的那樣,這表明做歸一化的方法仍有改進(jìn)的余地。

我們?yōu)槭裁匆肂atch Normalization?

在討論任何事情之前,首先,我們應(yīng)該知道Batch Normalization是什么,它是如何工作的,并討論它的用例。

什么是Batch Normalization

在訓(xùn)練過(guò)程中,當(dāng)我們更新之前的權(quán)值時(shí),每個(gè)中間激活層的輸出分布會(huì)在每次迭代時(shí)發(fā)生變化。這種現(xiàn)象稱(chēng)為內(nèi)部協(xié)變量移位(ICS)。所以很自然的一件事,如果我想防止這種情況發(fā)生,就是修正所有的分布。簡(jiǎn)單地說(shuō),如果我的分布變動(dòng)了,我會(huì)限制住這個(gè)分布,不讓它移動(dòng),以幫助梯度優(yōu)化和防止梯度消失,這將幫助我的神經(jīng)網(wǎng)絡(luò)訓(xùn)練更快。因此減少這種內(nèi)部協(xié)變量位移是推動(dòng)batch normalization發(fā)展的關(guān)鍵原則。

它如何工作

Batch Normalization通過(guò)在batch上減去經(jīng)驗(yàn)平均值除以經(jīng)驗(yàn)標(biāo)準(zhǔn)差來(lái)對(duì)前一個(gè)輸出層的輸出進(jìn)行歸一化。這將使數(shù)據(jù)看起來(lái)像高斯分布。

其中μ和*σ^2^*分別為批均值和批方差。

并且,我們學(xué)習(xí)了一個(gè)新的平均值和協(xié)方差γ和β。所以,簡(jiǎn)而言之,你可以認(rèn)為batch normalization是幫助你控制batch分布的一階和二階動(dòng)量。

vgg16網(wǎng)絡(luò)的中間卷積層的特征分布輸出。(左)沒(méi)有任何歸一化,(右)應(yīng)用了batch normalization

優(yōu)點(diǎn)

我將列舉使用batch normalization的一些好處,但是我不會(huì)詳細(xì)介紹,因?yàn)橐呀?jīng)有很多文章討論了這個(gè)問(wèn)題。

更快的收斂。

降低初始權(quán)重的重要性。

魯棒的超參數(shù)。

需要較少的數(shù)據(jù)進(jìn)行泛化。

1. 更快的收斂,2. 對(duì)超參數(shù)更魯棒

Batch Normalization的詛咒

好,讓我們回到本文的出發(fā)點(diǎn),在許多情況下batch normalization開(kāi)始傷害性能或根本不起作用。

在使用小batch size的時(shí)候不穩(wěn)定

如上所述,batch normalization必須計(jì)算平均值和方差,以便在batch中對(duì)之前的輸出進(jìn)行歸一化。如果batch大小比較大的話(huà),這種統(tǒng)計(jì)估計(jì)是比較準(zhǔn)確的,而隨著batch大小的減少,估計(jì)的準(zhǔn)確性持續(xù)減小。

ResNet-50在Batch Norm使用32、16、8、4、2張/GPU圖像時(shí)的驗(yàn)證錯(cuò)誤

以上是ResNet-50的驗(yàn)證錯(cuò)誤圖。可以推斷,如果batch大小保持為32,它的最終驗(yàn)證誤差在23左右,并且隨著batch大小的減小,誤差會(huì)繼續(xù)減小(batch大小不能為1,因?yàn)樗旧砭褪瞧骄?。損失有很大的不同(大約10%)。

如果batch大小是一個(gè)問(wèn)題,為什么我們不使用更大的batch?我們不能在每種情況下都使用更大的batch。在finetune的時(shí)候,我們不能使用大的batch,以免過(guò)高的梯度對(duì)模型造成傷害。在分布式訓(xùn)練的時(shí)候,大的batch最終將作為一組小batch分布在各個(gè)實(shí)例中。

導(dǎo)致訓(xùn)練時(shí)間的增加

NVIDIA和卡耐基梅隆大學(xué)進(jìn)行的實(shí)驗(yàn)結(jié)果表明,“盡管Batch Normalization不是計(jì)算密集型,而且收斂所需的總迭代次數(shù)也減少了。”但是每個(gè)迭代的時(shí)間顯著增加了,而且還隨著batch大小的增加而進(jìn)一步增加。

ResNet-50 在ImageNet上使用 Titan X Pascal

你可以看到,batch normalization消耗了總訓(xùn)練時(shí)間的1/4。原因是batch normalization需要通過(guò)輸入數(shù)據(jù)進(jìn)行兩次迭代,一次用于計(jì)算batch統(tǒng)計(jì)信息,另一次用于歸一化輸出。

訓(xùn)練和推理時(shí)不一樣的結(jié)果

例如,在真實(shí)世界中做“物體檢測(cè)”。在訓(xùn)練一個(gè)物體檢測(cè)器時(shí),我們通常使用大batch(YOLOv4和Faster-RCNN都是在默認(rèn)batch大小= 64的情況下訓(xùn)練的)。但在投入生產(chǎn)后,這些模型的工作并不像訓(xùn)練時(shí)那么好。這是因?yàn)樗鼈兘邮艿氖谴骲atch的訓(xùn)練,而在實(shí)時(shí)情況下,它們的batch大小等于1,因?yàn)樗仨氁粠瑤幚怼?紤]到這個(gè)限制,一些實(shí)現(xiàn)傾向于基于訓(xùn)練集上使用預(yù)先計(jì)算的平均值和方差。另一種可能是基于你的測(cè)試集分布計(jì)算平均值和方差值。

對(duì)于在線學(xué)習(xí)不好

與batch學(xué)習(xí)相比,在線學(xué)習(xí)是一種學(xué)習(xí)技術(shù),在這種技術(shù)中,系統(tǒng)通過(guò)依次向其提供數(shù)據(jù)實(shí)例來(lái)逐步接受訓(xùn)練,可以是單獨(dú)的,也可以是通過(guò)稱(chēng)為mini-batch的小組進(jìn)行。每個(gè)學(xué)習(xí)步驟都是快速和便宜的,所以系統(tǒng)可以在新的數(shù)據(jù)到達(dá)時(shí)實(shí)時(shí)學(xué)習(xí)。

典型的在線學(xué)習(xí)pipeline

由于它依賴(lài)于外部數(shù)據(jù)源,數(shù)據(jù)可能單獨(dú)或批量到達(dá)。由于每次迭代中batch大小的變化,對(duì)輸入數(shù)據(jù)的尺度和偏移的泛化能力不好,最終影響了性能。

對(duì)于循環(huán)神經(jīng)網(wǎng)絡(luò)不好

雖然batch normalization可以顯著提高卷積神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和泛化速度,但它們很難應(yīng)用于遞歸結(jié)構(gòu)。batch normalization可以應(yīng)用于RNN堆棧之間,其中歸一化是“垂直”應(yīng)用的,即每個(gè)RNN的輸出。但是它不能“水平地”應(yīng)用,例如在時(shí)間步之間,因?yàn)樗鼤?huì)因?yàn)橹貜?fù)的重新縮放而產(chǎn)生爆炸性的梯度而傷害到訓(xùn)練。

[^注]: 一些研究實(shí)驗(yàn)表明,batch normalization使得神經(jīng)網(wǎng)絡(luò)容易出現(xiàn)對(duì)抗漏洞,但我們沒(méi)有放入這一點(diǎn),因?yàn)槿狈ρ芯亢妥C據(jù)。

可替換的方法

這就是使用batch normalization的一些缺點(diǎn)。在batch normalization無(wú)法很好工作的情況下,有幾種替代方法。

Layer Normalization

Instance Normalization

Group Normalization (+ weight standardization)

Synchronous Batch Normalization

總結(jié)

所以,看起來(lái)訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)很簡(jiǎn)單,但我不認(rèn)為它很容易。從這個(gè)意義上說(shuō),我可以選擇的架構(gòu)很少,每個(gè)模型都有固定的學(xué)習(xí)速度,固定的優(yōu)化器和固定的技巧。這些技巧是通過(guò)自然選擇選擇的,就像有人想出了一些技巧,人們引入之后如果有效,就會(huì)保留,如果無(wú)效,人們最終會(huì)忘記,并沒(méi)有人再去使用它。除此之外,batch normalization是深度學(xué)習(xí)發(fā)展中的一個(gè)里程碑技術(shù)。然而,正如前面所討論的,沿著batch 維度進(jìn)行歸一化引入了一些問(wèn)題,這表明歸一化技術(shù)仍有改進(jìn)的空間。

責(zé)任編輯:xj

原文標(biāo)題:【重點(diǎn)】Batch Normalization的詛咒

文章出處:【微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 數(shù)據(jù)
    +關(guān)注

    關(guān)注

    8

    文章

    7335

    瀏覽量

    94765
  • Batch
    +關(guān)注

    關(guān)注

    0

    文章

    6

    瀏覽量

    7407
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5599

    瀏覽量

    124398

原文標(biāo)題:【重點(diǎn)】Batch Normalization的詛咒

文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    爬壁機(jī)器人磁鐵的一些常見(jiàn)問(wèn)題

    爬壁機(jī)器人近幾年比較火,它是類(lèi)能夠在垂直墻面、天花板、傾斜表面上移動(dòng)和作業(yè)的特種機(jī)器人,今天我們不聊其它,只聊下關(guān)于磁吸附應(yīng)用中的磁鐵,以下是小編整理的關(guān)于爬壁機(jī)器人中磁鐵的一些常見(jiàn)問(wèn)題。
    的頭像 發(fā)表于 01-09 10:06 ?266次閱讀
    爬壁機(jī)器人磁鐵的<b class='flag-5'>一些</b>常見(jiàn)問(wèn)題

    在并聯(lián)使用MOS存在一些問(wèn)題,要怎樣做才能避免這些問(wèn)題?

    在并聯(lián)使用MOS存在一些問(wèn)題,那我們要怎樣做才能避免這些問(wèn)題? 首先,器件的致性定要好。 在功率MOSFET多管并聯(lián)時(shí),器件內(nèi)部參數(shù)的微小差異就會(huì)引起并聯(lián)各支路電流的不平衡而導(dǎo)致單管過(guò)流損壞。 其次是功率。如果功率高于25%
    發(fā)表于 12-10 08:19

    關(guān)于六類(lèi)網(wǎng)線一些問(wèn)題的解答

    今天我們就圍繞網(wǎng)友一些常見(jiàn)的關(guān)于六類(lèi)網(wǎng)線的問(wèn)題進(jìn)行下匯總式解答: 問(wèn) 六類(lèi)網(wǎng)線可以當(dāng)電源用嗎? 答 六類(lèi)網(wǎng)線并不是設(shè)計(jì)用于傳輸電力的電纜,因此般不建議將其用于電源傳輸。 盡管六類(lèi)網(wǎng)線的線芯可以
    的頭像 發(fā)表于 12-09 11:13 ?560次閱讀

    貼片電容精度J±5%的一些詳細(xì)知識(shí)

    貼片電容精度J±5%表示電容的實(shí)際值與標(biāo)稱(chēng)值之間的偏差范圍在±5%以?xún)?nèi) ,以下是關(guān)于貼片電容精度J±5%的一些詳細(xì)知識(shí): 、精度等級(jí)含義 J±5% :字母“J”在貼片電容的標(biāo)識(shí)中通常表示標(biāo)稱(chēng)精度
    的頭像 發(fā)表于 11-20 14:38 ?648次閱讀
    貼片電容精度J±5%的<b class='flag-5'>一些</b>詳細(xì)知識(shí)

    對(duì)浮點(diǎn)指令擴(kuò)展中一些問(wèn)題的解決與分享

    出現(xiàn)無(wú)法寫(xiě)的情況。 結(jié)論 以上就是我們組在擴(kuò)展浮點(diǎn)指令中出現(xiàn)的一些問(wèn)題,這些問(wèn)題總體上歸結(jié)于對(duì)蜂鳥(niǎo)的代碼沒(méi)有整體性的把握,對(duì)內(nèi)容的掌握程度還不夠。在后續(xù)的工作中應(yīng)注意理清功能的整體架構(gòu)而對(duì)所有的相關(guān)部分進(jìn)行修改。
    發(fā)表于 10-24 11:47

    蜂鳥(niǎo)E203的浮點(diǎn)指令集F的一些實(shí)現(xiàn)細(xì)節(jié)

    蜂鳥(niǎo)E203的浮點(diǎn)指令集F的一些實(shí)現(xiàn)細(xì)節(jié) 既然E203不是多發(fā)射,且為了節(jié)省面積,一些指令使用FPU內(nèi)的同個(gè)子模塊來(lái)執(zhí)行,即FPU同時(shí)只能進(jìn)行種計(jì)算,我們只在FPU內(nèi)部署了11個(gè)
    發(fā)表于 10-24 08:57

    在Ubuntu20.04系統(tǒng)中訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型的一些經(jīng)驗(yàn)

    本帖欲分享在Ubuntu20.04系統(tǒng)中訓(xùn)練神經(jīng)網(wǎng)絡(luò)模型的一些經(jīng)驗(yàn)。我們采用jupyter notebook作為開(kāi)發(fā)IDE,以TensorFlow2為訓(xùn)練框架,目標(biāo)是訓(xùn)練個(gè)手寫(xiě)數(shù)字識(shí)別的神經(jīng)網(wǎng)絡(luò)
    發(fā)表于 10-22 07:03

    求助,關(guān)于TC387使能以及配置SOTA 中一些問(wèn)題求解

    你好, 之前我拿到貴司給個(gè)demo,里面有一些使能以及配置SWAP的代碼, 這里有些疑問(wèn) 問(wèn)題1. 判斷SOTA功能是否生效,demo中使用的是 SCU_STMEM1中的bit位, 代碼如下
    發(fā)表于 08-08 07:31

    射頻工程師需要知道的一些常見(jiàn)轉(zhuǎn)接頭

    ,是由于轉(zhuǎn)接頭的損壞造成的,而且有些接頭的連接固定的方式不對(duì),每次修好的儀器,過(guò)去后客戶(hù)又按照他們?cè)瓉?lái)的方式去擰緊了。特別是在一些生產(chǎn)型的企業(yè),由于操作人員流動(dòng)性比較
    的頭像 發(fā)表于 08-06 17:39 ?1221次閱讀
    射頻工程師需要知道的<b class='flag-5'>一些</b>常見(jiàn)轉(zhuǎn)接頭

    Debian和Ubuntu哪個(gè)好一些

    兼容性對(duì)比Debian和Ubuntu哪個(gè)好一些,并為您揭示如何通過(guò)RAKsmart服務(wù)器釋放Linux系統(tǒng)的最大潛能。
    的頭像 發(fā)表于 05-07 10:58 ?1140次閱讀

    在FX2LP USB上配置GPIF中斷時(shí)遇到一些問(wèn)題,求解決

    你好,我在 FX2LP USB 上配置 GPIF 中斷時(shí)遇到一些問(wèn)題。 我啟用了 INT4 中斷并從 GPIF 中選擇了源 INT4,然后啟用了 GPIF 完成中斷,但我看不到中斷 4 工作。 我該如何做呢?
    發(fā)表于 05-06 08:00

    如何添加一些網(wǎng)絡(luò)上的庫(kù)到mpy固件的說(shuō)明或手冊(cè)教程?

    下有沒(méi)有關(guān)于如何添加一些網(wǎng)絡(luò)上的庫(kù)到mpy固件的說(shuō)明或手冊(cè)教程? 問(wèn)題2: 關(guān)于mpy的image庫(kù)在哪里能了解學(xué)習(xí)內(nèi)部代碼,只了解一些python,想知道怎么從c轉(zhuǎn)換成mpy能調(diào)用的,自己寫(xiě)的c也能轉(zhuǎn)成py調(diào)用
    發(fā)表于 04-29 08:16

    文搞懂波峰焊工藝及缺陷預(yù)防

    效果,需要考慮焊料配方、助焊劑、元件和PCB的匹配、工裝設(shè)計(jì)及過(guò)程控制參數(shù)等因素。但是,當(dāng)出現(xiàn)焊接不良時(shí),可能有多個(gè)原因?qū)е隆O旅娼榻B一些常見(jiàn)的波峰焊焊接不良、產(chǎn)生原因的分析方法及改善建議。
    發(fā)表于 04-09 14:44

    樹(shù)莓派在自動(dòng)化控制項(xiàng)目中的一些潛在應(yīng)用

    自動(dòng)化控制項(xiàng)目中的一些潛在應(yīng)用。之前,我們已經(jīng)為Arduino平臺(tái)探討了相同的話(huà)題。我們確定Arduino是個(gè)出色的教育工具,但由于一些限制,它無(wú)法在工業(yè)環(huán)境中完全
    的頭像 發(fā)表于 03-25 09:45 ?620次閱讀
    樹(shù)莓派在自動(dòng)化控制項(xiàng)目中的<b class='flag-5'>一些</b>潛在應(yīng)用

    收藏的一些庫(kù)存,直流無(wú)刷技術(shù)+源碼+論文(建議打包)

    這也是我網(wǎng)絡(luò)上淘過(guò)來(lái)收藏的一些資料,免費(fèi)跟大家起分享下,建議下載哦,收藏不易
    發(fā)表于 03-17 20:17