国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

機器學習的建模流程是怎樣的?

新機器視覺 ? 來源:算法進階 ? 作者:算法進階 ? 2021-06-23 15:50 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

前言

機器學習作為人工智能領域的核心組成,是計算機程序?qū)W習數(shù)據(jù)經(jīng)驗以優(yōu)化自身算法,并產(chǎn)生相應的“智能化的”建議與決策的過程。

一個經(jīng)典的機器學習的定義是:

A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.

一、機器學習概論

機器學習是關于計算機基于數(shù)據(jù)分布構建出概率統(tǒng)計模型,并運用模型對數(shù)據(jù)進行分析與預測的方法。按照學習數(shù)據(jù)分布的方式的不同,主要可以分為監(jiān)督學習和非監(jiān)督學習:

1.1 監(jiān)督學習

從有標注的數(shù)據(jù)(x為變量特征空間, y為標簽)中,通過選擇的模型及確定的學習策略,再用合適算法計算后學習到最優(yōu)模型,并用模型預測的過程。模型預測結果Y的取值有限的或者無限的,可分為分類模型或者回歸模型;

1.2 非監(jiān)督學習:

從無標注的數(shù)據(jù)(x為變量特征空間),通過選擇的模型及確定的學習策略,再用合適算法計算后學習到最優(yōu)模型,并用模型發(fā)現(xiàn)數(shù)據(jù)的統(tǒng)計規(guī)律或者內(nèi)在結構。按照應用場景,可以分為聚類,降維和關聯(lián)分析等模型;

二、機器學習建模流程

2.1 明確業(yè)務問題

明確業(yè)務問題是機器學習的先決條件,這里需要抽象出現(xiàn)實業(yè)務問題的解決方案:需要學習什么樣的數(shù)據(jù)作為輸入,目標是得到什么樣的模型做決策作為輸出。

(如一個簡單的新聞分類場景就是學習已有的新聞及其類別標簽數(shù)據(jù),得到一個分類模型,通過模型對每天新的新聞做類別預測,以歸類到每個新聞頻道。)

2.2 數(shù)據(jù)選擇:收集及輸入數(shù)據(jù)

數(shù)據(jù)決定了機器學習結果的上限,而算法只是盡可能逼近這個上限。意味著數(shù)據(jù)的質(zhì)量決定了模型的最終效果,在實際的工業(yè)應用中,算法通常占了很小的一部分,大部分工程師的工作都是在找數(shù)據(jù)、提煉數(shù)據(jù)、分析數(shù)據(jù)。數(shù)據(jù)選擇需要關注的是:

① 數(shù)據(jù)的代表性:無代表性的數(shù)據(jù)可能會導致模型的過擬合,對訓練數(shù)據(jù)之外的新數(shù)據(jù)無識別能力;

② 數(shù)據(jù)時間范圍:監(jiān)督學習的特征變量X及標簽Y如與時間先后有關,則需要明確數(shù)據(jù)時間窗口,否則可能會導致數(shù)據(jù)泄漏,即存在和利用因果顛倒的特征變量的現(xiàn)象。(如預測明天會不會下雨,但是訓練數(shù)據(jù)引入明天溫濕度情況);

③ 數(shù)據(jù)業(yè)務范圍:明確與任務相關的數(shù)據(jù)表范圍,避免缺失代表性數(shù)據(jù)或引入大量無關數(shù)據(jù)作為噪音;

2.3 特征工程:數(shù)據(jù)預處理及特征提取

特征工程就是將原始數(shù)據(jù)加工轉化為模型有用的特征,技術手段一般可分為:

數(shù)據(jù)預處理:特征表示,缺失值/異常值處理,數(shù)據(jù)離散化,數(shù)據(jù)標準化等;特征提取:特征衍生,特征選擇,特征降維等;

特征表示

數(shù)據(jù)需要轉換為計算機能夠處理的數(shù)值形式。如果數(shù)據(jù)是圖片數(shù)據(jù)需要轉換為RGB三維矩陣的表示。

字符類的數(shù)據(jù)可以用多維數(shù)組表示,有Onehot獨熱編碼表示、word2vetor分布式表示及bert動態(tài)編碼等;

異常值處理

收集的數(shù)據(jù)由于人為或者自然因素可能引入了異常值(噪音),這會對模型學習進行干擾。

通常需要對人為引起的異常值進行處理,通過業(yè)務判斷和技術手段(python、正則式匹配、pandas數(shù)據(jù)處理及matplotlib可視化等數(shù)據(jù)分析處理技術)篩選異常的信息,并結合業(yè)務情況刪除或者替換數(shù)值。

缺失值處理

數(shù)據(jù)缺失的部分,通過結合業(yè)務進行填充數(shù)值、不做處理或者刪除。根據(jù)缺失率情況及處理方式分為以下情況:

① 缺失率較高,并結合業(yè)務可以直接刪除該特征變量。經(jīng)驗上可以新增一個bool類型的變量特征記錄該字段的缺失情況,缺失記為1,非缺失記為0;

② 缺失率較低,結合業(yè)務可使用一些缺失值填充手段,如pandas的fillna方法、訓練隨機森林模型預測缺失值填充;

③ 不做處理:部分模型如隨機森林、xgboost、lightgbm能夠處理數(shù)據(jù)缺失的情況,不需要對缺失數(shù)據(jù)做任何的處理。

數(shù)據(jù)離散化

數(shù)據(jù)離散化能減小算法的時間和空間開銷(不同算法情況不一),并可以使特征更有業(yè)務解釋性。

離散化是將連續(xù)的數(shù)據(jù)進行分段,使其變?yōu)橐欢味坞x散化的區(qū)間,分段的原則有等距離、等頻率等方法。

數(shù)據(jù)標準化

數(shù)據(jù)各個特征變量的量綱差異很大,可以使用數(shù)據(jù)標準化消除不同分量量綱差異的影響,加速模型收斂的效率。常用的方法有:

① min-max 標準化:

將數(shù)值范圍縮放到(0,1),但沒有改變數(shù)據(jù)分布。max為樣本最大值,min為樣本最小值。

48509d66-d3f7-11eb-9e57-12bb97331649.png

② z-score 標準化:

將數(shù)值范圍縮放到0附近, 經(jīng)過處理的數(shù)據(jù)符合標準正態(tài)分布。u是平均值,σ是標準差。

486302ee-d3f7-11eb-9e57-12bb97331649.png

特征衍生

基礎特征對樣本信息的表述有限,可通過特征衍生出新含義的特征進行補充。特征衍生是對現(xiàn)有基礎特征的含義進行某種處理(組合/轉換之類),常用方法如:

① 結合業(yè)務的理解做衍生,比如通過12個月工資可以加工出:平均月工資,薪資變化值,是否發(fā)工資 等等;

② 使用特征衍生工具:如feature tools等技術;

特征選擇

特征選擇篩選出顯著特征、摒棄非顯著特征。特征選擇方法一般分為三類:

① 過濾法:按照特征的發(fā)散性或者相關性指標對各個特征進行評分后選擇,如方差驗證、相關系數(shù)、IV值、卡方檢驗及信息增益等方法。

② 包裝法:每次選擇部分特征迭代訓練模型,根據(jù)模型預測效果評分選擇特征的去留。

③ 嵌入法:使用某些模型進行訓練,得到各個特征的權值系數(shù),根據(jù)權值系數(shù)從大到小來選擇特征,如XGBOOST特征重要性選擇特征。

特征降維

如果特征選擇后的特征數(shù)目仍太多,這種情形下經(jīng)常會有數(shù)據(jù)樣本稀疏、距離計算困難的問題(稱為 “維數(shù)災難”),可以通過特征降維解決。常用的降維方法有:主成分分析法(PCA), 線性判別分析法(LDA)等。

2.4 模型訓練

模型訓練是選擇模型學習數(shù)據(jù)分布的過程。這過程還需要依據(jù)訓練結果調(diào)整算法的(超)參數(shù),使得結果變得更加優(yōu)良。

2.4.1數(shù)據(jù)集劃分

訓練模型前,一般會把數(shù)據(jù)集分為訓練集和測試集,并可再對訓練集再細分為訓練集和驗證集,從而對模型的泛化能力進行評估。

① 訓練集(training set):用于運行學習算法。

② 開發(fā)驗證集(development set)用于調(diào)整參數(shù),選擇特征以及對算法其它優(yōu)化。常用的驗證方式有交叉驗證Cross-validation,留一法等;

③ 測試集(test set)用于評估算法的性能,但不會據(jù)此改變學習算法或參數(shù)。

2.4.2模型選擇

常見的機器學習算法如下:

模型選擇取決于數(shù)據(jù)情況和預測目標。可以訓練多個模型,根據(jù)實際的效果選擇表現(xiàn)較好的模型或者模型融合。

模型選擇

2.4.3模型訓練

訓練過程可以通過調(diào)參進行優(yōu)化,調(diào)參的過程是一種基于數(shù)據(jù)集、模型和訓練過程細節(jié)的實證過程。超參數(shù)優(yōu)化需要基于對算法的原理的理解和經(jīng)驗,此外還有自動調(diào)參技術:網(wǎng)格搜索、隨機搜索及貝葉斯優(yōu)化等。

2.5 模型評估

模型評估的標準:模型學習的目的使學到的模型對新數(shù)據(jù)能有很好的預測能力(泛化能力)。現(xiàn)實中通常由訓練誤差及測試誤差評估模型的訓練數(shù)據(jù)學習程度及泛化能力。

2.5.1評估指標

① 評估分類模型:常用的評估標準有查準率P、查全率R、兩者調(diào)和平均F1-score 等,并由混淆矩陣的統(tǒng)計相應的個數(shù)計算出數(shù)值:

混淆矩陣

查準率是指分類器分類正確的正樣本(TP)的個數(shù)占該分類器所有預測為正樣本個數(shù)(TP+FP)的比例;

查全率是指分類器分類正確的正樣本個數(shù)(TP)占所有的正樣本個數(shù)(TP+FN)的比例。

F1-score是查準率P、查全率R的調(diào)和平均:496df1c6-d3f7-11eb-9e57-12bb97331649.png

② 評估回歸模型:常用的評估指標有RMSE均方根誤差 等。反饋的是預測數(shù)值與實際值的擬合情況。

497b01cc-d3f7-11eb-9e57-12bb97331649.png

③ 評估聚類模型:可分為兩類方式,一類將聚類結果與某個“參考模型”的結果進行比較,稱為“外部指標”(external index):如蘭德指數(shù),F(xiàn)M指數(shù) 等;另一類是直接考察聚類結果而不利用任何參考模型,稱為“內(nèi)部指標”(internal index):如緊湊度、分離度 等。

2.5.2模型評估及優(yōu)化

根據(jù)訓練集及測試集的指標表現(xiàn),分析原因并對模型進行優(yōu)化,常用的方法有:

2.6 模型決策

決策是機器學習最終目的,對模型預測信息加以分析解釋,并應用于實際的工作領域。

需要注意的是工程上是結果導向,模型在線上運行的效果直接決定模型的成敗,不僅僅包括其準確程度、誤差等情況,還包括其運行的速度(時間復雜度)、資源消耗程度(空間復雜度)、穩(wěn)定性的綜合考慮。

責任編輯:lq6

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 人工智能
    +關注

    關注

    1817

    文章

    50098

    瀏覽量

    265425
  • 機器學習
    +關注

    關注

    66

    文章

    8553

    瀏覽量

    136962

原文標題:機器學習入門指南(全)

文章出處:【微信號:vision263com,微信公眾號:新機器視覺】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    機器學習特征工程:分類變量的數(shù)值化處理方法

    編碼是機器學習流程里最容易被低估的環(huán)節(jié)之一,模型沒辦法直接處理文本形式的分類數(shù)據(jù),尺寸(Small/Medium/Large)、顏色(Red/Blue/Green)、城市、支付方式等都是典型的分類
    的頭像 發(fā)表于 02-10 15:58 ?339次閱讀
    <b class='flag-5'>機器</b><b class='flag-5'>學習</b>特征工程:分類變量的數(shù)值化處理方法

    機器學習和深度學習中需避免的 7 個常見錯誤與局限性

    無論你是剛入門還是已經(jīng)從事人工智能模型相關工作一段時間,機器學習和深度學習中都存在一些我們需要時刻關注并銘記的常見錯誤。如果對這些錯誤置之不理,日后可能會引發(fā)諸多麻煩!只要我們密切關注數(shù)據(jù)、模型架構
    的頭像 發(fā)表于 01-07 15:37 ?194次閱讀
    <b class='flag-5'>機器</b><b class='flag-5'>學習</b>和深度<b class='flag-5'>學習</b>中需避免的 7 個常見錯誤與局限性

    從0到1,10+年資深LabVIEW專家,手把手教你攻克機器視覺+深度學習(5000分鐘實戰(zhàn)課)

    “告別檢測系統(tǒng)能力缺陷!10+年LabVIEW視覺資深專家手把手教你:5000+分鐘高清教程(含工具、算法原理、實戰(zhàn)操作、項目優(yōu)化全流程講解)”——從傳統(tǒng)視覺算法→深度學習建模→工業(yè)級部署"
    的頭像 發(fā)表于 12-02 08:07 ?529次閱讀
    從0到1,10+年資深LabVIEW專家,手把手教你攻克<b class='flag-5'>機器</b>視覺+深度<b class='flag-5'>學習</b>(5000分鐘實戰(zhàn)課)

    如何深度學習機器視覺的應用場景

    檢測應用 微細缺陷識別:檢測肉眼難以發(fā)現(xiàn)的微小缺陷和異常 紋理分析:對材料表面紋理進行智能分析和缺陷識別 3D表面重建:通過深度學習進行高精度3D建模和檢測 電子行業(yè)應用 PCB板復雜缺陷檢測:連焊、虛焊、漏焊等焊接質(zhì)量問題 芯片
    的頭像 發(fā)表于 11-27 10:19 ?223次閱讀

    技術資訊 I 多板系統(tǒng) 3D 建模,提升設計精度和性能

    本文要點了解3D建模流程。洞悉多板系統(tǒng)3D建模如何提高設計精度、性能和成本效益。掌握3D建模在制造工藝中的優(yōu)勢。在PCBA領域,仿真與建模
    的頭像 發(fā)表于 11-21 17:45 ?2519次閱讀
    技術資訊 I 多板系統(tǒng) 3D <b class='flag-5'>建模</b>,提升設計精度和性能

    如何借助OpenUSD提升機器人開發(fā)流程效率

    機器人需求的日益增長,正以前所未有的規(guī)模推動對物理精確仿真的需求。通用場景描述(OpenUSD)是這一變革的關鍵,它為構建機器人可在其中學習的虛擬世界提供了強大的開源標準。
    的頭像 發(fā)表于 10-24 14:22 ?956次閱讀

    AI 驅(qū)動三維逆向:點云降噪算法工具與機器學習建模能力的前沿應用

    在三維逆向工程領域,傳統(tǒng)方法在處理復雜數(shù)據(jù)和構建高精度模型時面臨諸多挑戰(zhàn)。隨著人工智能(AI)技術的發(fā)展,點云降噪算法工具與機器學習建模能力的應用,為三維逆向工程帶來了創(chuàng)新性解決方案,顯著提升
    的頭像 發(fā)表于 08-20 10:00 ?713次閱讀
    AI 驅(qū)動三維逆向:點云降噪算法工具與<b class='flag-5'>機器</b><b class='flag-5'>學習</b><b class='flag-5'>建模</b>能力的前沿應用

    FPGA在機器學習中的具體應用

    隨著機器學習和人工智能技術的迅猛發(fā)展,傳統(tǒng)的中央處理單元(CPU)和圖形處理單元(GPU)已經(jīng)無法滿足高效處理大規(guī)模數(shù)據(jù)和復雜模型的需求。FPGA(現(xiàn)場可編程門陣列)作為一種靈活且高效的硬件加速平臺
    的頭像 發(fā)表于 07-16 15:34 ?2900次閱讀

    明晚開播 |數(shù)據(jù)智能系列講座第7期:面向高泛化能力的視覺感知系統(tǒng)空間建模與微調(diào)學習

    鷺島論壇數(shù)據(jù)智能系列講座第7期「面向高泛化能力的視覺感知系統(tǒng)空間建模與微調(diào)學習」明晚8點精彩開播期待與您云相聚,共襄學術盛宴!|直播信息報告題目面向高泛化能力的視覺感知系統(tǒng)空間建模與微調(diào)學習
    的頭像 發(fā)表于 06-24 08:01 ?1065次閱讀
    明晚開播 |數(shù)據(jù)智能系列講座第7期:面向高泛化能力的視覺感知系統(tǒng)空間<b class='flag-5'>建模</b>與微調(diào)<b class='flag-5'>學習</b>

    邊緣計算中的機器學習:基于 Linux 系統(tǒng)的實時推理模型部署與工業(yè)集成!

    學習如何訓練模型、導出模型,并在基于Linux的系統(tǒng)上運行實時推理,并通過MQTT發(fā)布結果。這是一個簡單但完整的流程——從工作站上的建模到在邊緣設備上運行工業(yè)風格
    的頭像 發(fā)表于 06-11 17:22 ?1000次閱讀
    邊緣計算中的<b class='flag-5'>機器</b><b class='flag-5'>學習</b>:基于 Linux 系統(tǒng)的實時推理模型部署與工業(yè)集成!

    VirtualLab Fusion應用:Herriott池的建模

    。Herriott單元是這種系統(tǒng)的一個例子,其特點是使用兩個球面反射鏡,在其中一個球面反射鏡上鉆一個離軸孔,以允許光束進出。鏡子的曲率改變了光束的方向并控制了它的發(fā)散。在此用例中,我們用光學建模和設計軟件
    發(fā)表于 06-11 08:52

    直播預約 |數(shù)據(jù)智能系列講座第7期:面向高泛化能力的視覺感知系統(tǒng)空間建模與微調(diào)學習

    建模與微調(diào)學習報告簡介構建高效、物理一致且具備良好泛化能力的視覺感知系統(tǒng),是視覺智能、邊緣計算與具身機器人中的關鍵挑戰(zhàn)。為提升系統(tǒng)的泛化與適應能力,一類方法致力于構
    的頭像 發(fā)表于 05-29 10:04 ?637次閱讀
    直播預約 |數(shù)據(jù)智能系列講座第7期:面向高泛化能力的視覺感知系統(tǒng)空間<b class='flag-5'>建模</b>與微調(diào)<b class='flag-5'>學習</b>

    智慧路燈的安裝流程怎樣

    了新的活力。而規(guī)范、科學的安裝流程,則是確保叁仟智慧路燈能夠穩(wěn)定運行、充分發(fā)揮其功能的基礎。深入了解叁仟智慧路燈的安裝流程,不僅有助于施工團隊高效開展工作,更能為智慧城市建設的穩(wěn)步推進提供有力保障。接下來,將從前期規(guī)劃
    的頭像 發(fā)表于 04-27 17:22 ?873次閱讀

    VirtualLab Fusion應用:漸變折射率(GRIN)鏡頭的建模

    VirtualLab Fusion工作流程 ?設置輸入點源 –[教程視頻] ?構造漸變折射率鏡片 –漸變折射率鏡片的構建和建模[用例] ?配置探測器 –PSF和MTF探測器的使用[用例] –電磁場探測器[用例] 電磁場探測器 VirtualLab Fusion技術
    發(fā)表于 03-18 08:57

    請問STM32部署機器學習算法硬件至少要使用哪個系列的芯片?

    STM32部署機器學習算法硬件至少要使用哪個系列的芯片?
    發(fā)表于 03-13 07:34