国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

關(guān)于Pre-trained模型加速模型學(xué)習(xí)的建議

深度學(xué)習(xí)自然語言處理 ? 來源:深度學(xué)習(xí)自然語言處理 ? 作者:深度學(xué)習(xí)自然語言 ? 2020-11-03 18:08 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

首先,為什么要調(diào)整模型?

像卷積神經(jīng)網(wǎng)絡(luò)( CNN )這樣的深度學(xué)習(xí)模型具有大量的參數(shù);一般稱之為超參數(shù),因為它們不是固定值,需要迭代優(yōu)化。通常可以通過網(wǎng)格搜索的方法來查找這些超參數(shù)的最佳值,但需要大量硬件和時間開銷。那么,一個真正的數(shù)據(jù)科學(xué)家是否滿足于只是猜測這些超參數(shù)呢?答案當(dāng)然是否定的。

改進模型的最佳方法之一是,基于專業(yè)團隊的設(shè)計和體系結(jié)構(gòu)上來進行改進,但這些專業(yè)的知識往往需要對某一領(lǐng)域具有深入的了解,且通常需要有強大的硬件支持。一般這些專業(yè)的團隊都喜歡把他們的訓(xùn)練好的模型(pre-trained model)開源出來,無償提供給別人使用。基于這些pre-trained model來做研究和應(yīng)用,可以省去大量的時間和資源。

深度學(xué)習(xí)技巧

這里分享幾種方法,如何基于預(yù)訓(xùn)練好的模型來降低深度學(xué)習(xí)模型訓(xùn)練時間,提升模型的準(zhǔn)確性:

1、選擇最適用于做pre-trained模型的網(wǎng)絡(luò)結(jié)構(gòu):了解遷移學(xué)習(xí)(transfer learning)的優(yōu)點,或者一些強大的CNN網(wǎng)絡(luò)結(jié)構(gòu)。主要考慮,有些領(lǐng)域之間看起來不明顯,但領(lǐng)域之間卻共享一些具有潛在特性(share potential latent features)。

2、使用較小的學(xué)習(xí)率:由于預(yù)先訓(xùn)練的權(quán)重(weights)通常比隨機初始化的權(quán)重更好,因此調(diào)整需要更精細!如何選擇主要取決于training landscape和學(xué)習(xí)的進展情況,但需要仔細檢查每個epoch的training errors,分析如何能讓模型達到收斂。

3、使用Dropout:就像Ridge和LASSO正則化技術(shù)對于回歸模型一樣,對于所有模型都存在需要優(yōu)化的參數(shù)alpha或Dropout。這是一個超參數(shù),取決于需要解決的具體問題,只能通過不停實驗的方法得到。先對超參數(shù)做比較大的調(diào)整(gridsearch時選擇一個比較大的變化范圍),比如NP. logspace(),然后像上面的一樣減小學(xué)習(xí)速率。循環(huán)上述過程直到找到最優(yōu)值。

4、限制權(quán)重大小:可以限制某些層的權(quán)重的最大范數(shù)(絕對值),可以提升模型泛化的能力。

5、不要改變第一層網(wǎng)絡(luò)的權(quán)值:神經(jīng)網(wǎng)絡(luò)的第一個隱含層傾向于捕捉通用和可解釋(universal and interpretable)的特征,如形狀、曲線或交叉(shapes、curves and interactions),這些特征通常與跨域(domains)相關(guān)。應(yīng)該經(jīng)常把這些特征放到一邊,把重點放在進一步優(yōu)化meta latent level在水平上。這可能意味需要添加隱藏層!

6、修改輸出層:把模型參數(shù)替換成適用于要解決新領(lǐng)域的新的激活函數(shù)和輸出大小。但是,不要把自己局限于最明顯的解決方案中。比如,盡管MNIST只需要10個輸出類,但這些數(shù)字有共同的變化,允許有12 - 16個類可能會更好地解決這些問題,并提高模型性能!

Keras中的技巧

如何在Keras MNIST中修改Dropout和限制權(quán)重的大小:

Dropout最佳實踐

1、使用20–50 %的,比較小的Dropout,建議20 %的輸入(Inputs)。值取得太小,不起作用;值取得太大,不好收斂。

2、在輸入層和隱藏層上使用Dropout。這一方法已被證明可以提高深入學(xué)習(xí)的效果。

3、使用較大的(帶衰減率)學(xué)習(xí)速率(learning rate with decay),以及較大的動量(momentum)。

4、限制模型的權(quán)重!大的學(xué)習(xí)速率容易導(dǎo)致梯度爆炸。通過對網(wǎng)絡(luò)權(quán)值施加約束(如最大范數(shù)正則化(max-norm regularization),其大小為5 )可以改善結(jié)果。

5、使用更大的網(wǎng)絡(luò)。在較大的網(wǎng)絡(luò)上使用Dropout,可能會獲得更好的性能,從而使模型有更多的機會學(xué)習(xí)獨立表示(Independent representations)。

給一個例子,如何在Keras中修改MNIST模型最后一層,輸出14個類別:

如何在網(wǎng)絡(luò)的最初五層中固定網(wǎng)絡(luò)的權(quán)值(Freeze weights):

此外,可以將該層的學(xué)習(xí)速率設(shè)置為零,或者使用參數(shù)的自適應(yīng)學(xué)習(xí)算法,如Adadelta或Adam。這有點復(fù)雜,在Caffe等其他平臺上可以更好地實現(xiàn)。

預(yù)訓(xùn)練模型庫

Keras
Kaggle List https://www.kaggle.com/gaborfodor/keras-pretrained-models
Keras Application:https://keras.io/applications/
OpenCV Example:https://www.learnopencv.com/keras-tutorial-fine-tuning-using-pre-trained-models/


TensorFlow
VGG16:https://github.com/ry/tensorflow-vgg16
Inception V3:https://github.com/tensorflow/models/blob/master/inception

ResNet:https://github.com/ry/tensorflow-resnet


Torch
LoadCaie:https://github.com/szagoruyko/loadcaffe


Caffe
Model Zoo:https://github.com/BVLC/caffe/wiki/Model-Zoo

TensorBoard的Graph的可視化

了解模型的整體結(jié)構(gòu)通常很重要。下面給出一個例子,如何直接使用Python可視化訓(xùn)練的模型:

http://nbviewer.jupyter.org/github/tensorflow/tensorflow/blob/master/tensorflow/examples/tutorials/deepdream/deepdream.ipynb

責(zé)任編輯:xj

原文標(biāo)題:基于Pre-trained模型加速模型學(xué)習(xí)的6點建議

文章出處:【微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 模型
    +關(guān)注

    關(guān)注

    1

    文章

    3752

    瀏覽量

    52111
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5599

    瀏覽量

    124398
  • cnn
    cnn
    +關(guān)注

    關(guān)注

    3

    文章

    355

    瀏覽量

    23422

原文標(biāo)題:基于Pre-trained模型加速模型學(xué)習(xí)的6點建議

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    強化學(xué)習(xí)會讓自動駕駛模型學(xué)習(xí)更快嗎?

    [首發(fā)于智駕最前沿微信公眾號]在談及自動駕駛大模型訓(xùn)練時,有的技術(shù)方案會采用模仿學(xué)習(xí),而有些會采用強化學(xué)習(xí)。同樣作為大模型的訓(xùn)練方式,強化學(xué)習(xí)
    的頭像 發(fā)表于 01-31 09:34 ?643次閱讀
    強化<b class='flag-5'>學(xué)習(xí)</b>會讓自動駕駛<b class='flag-5'>模型</b><b class='flag-5'>學(xué)習(xí)</b>更快嗎?

    利用NVIDIA Cosmos開放世界基礎(chǔ)模型加速物理AI開發(fā)

    NVIDIA 最近發(fā)布了 NVIDIA Cosmos 開放世界基礎(chǔ)模型(WFM)的更新,旨在加速物理 AI 模型的測試與驗證數(shù)據(jù)生成。借助 NVIDIA Omniverse 庫和 Cosmos,開發(fā)者可以大規(guī)模生成基于物理學(xué)的合
    的頭像 發(fā)表于 12-01 09:25 ?1136次閱讀

    構(gòu)建CNN網(wǎng)絡(luò)模型并優(yōu)化的一般化建議

    通過實踐,本文總結(jié)了構(gòu)建CNN網(wǎng)絡(luò)模型并優(yōu)化的一般化建議,這些建議將會在構(gòu)建高準(zhǔn)確率輕量級CNN神經(jīng)網(wǎng)絡(luò)模型方面提供幫助。 1)避免單層神經(jīng)網(wǎng)絡(luò):我們清楚神經(jīng)網(wǎng)絡(luò)本身是需要不斷抽象出
    發(fā)表于 10-28 08:02

    成都匯陽投資關(guān)于模型白熱化,應(yīng)用加速分化

    ? ? ? ?大模型加速多模態(tài)研發(fā) ,閉源模型逐步逆襲開源 多模態(tài)技術(shù)路線尚未收斂 , 國內(nèi)外大模型廠商持續(xù)刷新 SOAT。 圖片領(lǐng)域 ,GPT-4o 圖像生成功能引發(fā)熱潮后 ,谷
    的頭像 發(fā)表于 09-09 09:30 ?920次閱讀

    Cognizant加速AI模型企業(yè)級開發(fā)

    -Cognizant推出AI Training Data Services,助力企業(yè)級AI模型加速開發(fā) Cognizant是數(shù)據(jù)與AI模型訓(xùn)練合作伙伴,長期深受大型數(shù)字原生先鋒企業(yè)信賴,助力其訓(xùn)練
    的頭像 發(fā)表于 07-31 17:25 ?711次閱讀

    最新人工智能硬件培訓(xùn)AI 基礎(chǔ)入門學(xué)習(xí)課程參考2025版(大模型篇)

    教育等領(lǐng)域發(fā)揮著越來越重要的作用。?針對日前前來咨詢的廣大客戶對面向大模型智能硬件的學(xué)習(xí)需求,我們根據(jù)CSK6大模型語音視覺開發(fā)板已有功能,整理了一份適合基于本開發(fā)板進行教學(xué)活動的學(xué)習(xí)
    發(fā)表于 07-04 11:10

    模型推理顯存和計算量估計方法研究

    ,如乘法、加法等; (2)根據(jù)各層計算操作的類型和復(fù)雜度,確定每層所需的計算量; (3)將各層計算量相加,得到模型總的計算量。 基于硬件加速的算力估計 隨著硬件加速技術(shù)的發(fā)展,許多深度學(xué)習(xí)
    發(fā)表于 07-03 19:43

    FA模型的DataAbility的切換介紹

    : AsyncCallback>): voidNAStage模型不支持uri跨進程訪問,建議通過want攜帶FD和文件信息進行跨進程文件訪問。 getType?(uri: string
    發(fā)表于 06-06 08:10

    FA模型卡片和Stage模型卡片切換

    卡片切換 卡片切換主要包含如下三部分: 卡片頁面布局:FA模型卡片和Stage模型卡片的布局都采用類web范式開發(fā)可以直接復(fù)用。 卡片配置文件:FA模型的卡片配置在config.json中
    發(fā)表于 06-06 08:10

    FA模型和Stage模型API切換概述

    API切換概述 FA模型和Stage模型由于線程模型和進程模型的差異,部分接口僅在FA模型下才能使用,針對這部分接口在SDK的接口中有FA
    發(fā)表于 06-06 06:29

    從FA模型切換到Stage模型時:module的切換說明

    module的切換 從FA模型切換到Stage模型時,開發(fā)者需要將config.json文件module標(biāo)簽下的配置遷移到module.json5配置文件module標(biāo)簽下,具體差異
    發(fā)表于 06-05 08:16

    FA模型訪問Stage模型DataShareExtensionAbility說明

    FA模型訪問Stage模型DataShareExtensionAbility 概述 無論FA模型還是Stage模型,數(shù)據(jù)讀寫功能都包含客戶端和服務(wù)端兩部分。 FA
    發(fā)表于 06-04 07:53

    模型時代的深度學(xué)習(xí)框架

    量是約為 25.63M,在ImageNet1K數(shù)據(jù)集上,使用單張消費類顯卡 RTX-4090只需大約35~40個小時 ,即可完成ResNet50模型的預(yù)訓(xùn)練。在 大模型時代 ,由于大模型參數(shù)規(guī)模龐大,無法跟CNN時代的小
    的頭像 發(fā)表于 04-25 11:43 ?841次閱讀
    大<b class='flag-5'>模型</b>時代的深度<b class='flag-5'>學(xué)習(xí)</b>框架

    KaihongOS操作系統(tǒng)FA模型與Stage模型介紹

    FA模型與Stage模型介紹 KaihongOS操作系統(tǒng)中,F(xiàn)A模型(Feature Ability)和Stage模型是兩種不同的應(yīng)用模型
    發(fā)表于 04-24 07:27

    AI眼鏡大模型激戰(zhàn):多大模型協(xié)同、交互時延低至1.3S

    電子發(fā)燒友網(wǎng)報道(文/莫婷婷)“百鏡大戰(zhàn)”開始時,也是AI大模型在智能眼鏡端加速落地的開始,一場關(guān)于智能眼鏡的“百模大戰(zhàn)”也同步進行。幾乎今年剛推出的AI智能眼鏡都搭載了AI大模型。隨
    的頭像 發(fā)表于 03-20 08:59 ?2716次閱讀
    AI眼鏡大<b class='flag-5'>模型</b>激戰(zhàn):多大<b class='flag-5'>模型</b>協(xié)同、交互時延低至1.3S