国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

為什么要使用集成學習 機器學習建模的偏差和方差

2a37_sessdw ? 來源:偶數科技 ? 作者:小偶 ? 2021-08-14 09:52 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

我們在生活中做出的許多決定都是基于其他人的意見,而通常情況下由一群人做出的決策比由該群體中的任何一個成員做出的決策會產生更好的結果,這被稱為群體的智慧。集成學習(Ensemble Learning)類似于這種思想,集成學習結合了來自多個模型的預測,旨在比集成該學習器的任何成員表現得更好,從而提升預測性能(模型的準確率),預測性能也是許多分類和回歸問題的最重要的關注點。

集成學習(Ensemble Learning)是將若干個弱分類器(也可以是回歸器)組合從而產生一個新的分類器。(弱分類器是指分類準確率略好于隨機猜想的分類器,即error rate 《 0.5)。

集成機器學習涉及結合來自多個熟練模型的預測,該算法的成功在于保證弱分類器的多樣性。而且集成不穩定的算法也能夠得到一個比較明顯的性能提升。集成學習是一種思想。當預測建模項目的最佳性能是最重要的結果時,集成學習方法很受歡迎,通常是首選技術。

為什么要使用集成學習?

(1) 性能更好:與任何單個模型的貢獻相比,集成可以做出更好的預測并獲得更好的性能;

(2) 魯棒性更強:集成減少了預測和模型性能的傳播或分散,平滑了模型的預期性能。

(3) 更加合理的邊界:弱分類器間存在一定差異性,導致分類的邊界不同。多個弱分類器合并后,就可以得到更加合理的邊界,減少整體的錯誤率,實現更好的效果;

(4) 適應不同樣本體量:對于樣本的過大或者過小,可分別進行劃分和有放回的操作產生不同的樣本子集,再使用樣本子集訓練不同的分類器,最后進行合并;

(5) 易于融合:對于多個異構特征數據集,很難進行融合,可以對每個數據集進行建模,再進行模型融合。

機器學習建模的偏差和方差

機器學習模型產生的錯誤通常用兩個屬性來描述:偏差和方差。

偏差是衡量模型可以捕獲輸入和輸出之間的映射函數的接近程度。它捕獲了模型的剛性:模型對輸入和輸出之間映射的函數形式的假設強度。

模型的方差是模型在擬合不同訓練數據時的性能變化量。它捕獲數據的細節對模型的影響。

理想情況下,我們更喜歡低偏差和低方差的模型,事實上,這也是針對給定的預測建模問題應用機器學習的目標。模型性能的偏差和方差是相關的,減少偏差通常可以通過增加方差來輕松實現。相反,通過增加偏差可以很容易地減少方差。

與單個預測模型相比,集成用在預測建模問題上實現更好的預測性能。實現這一點的方式可以理解為模型通過添加偏差來減少預測誤差的方差分量(即權衡偏差-方差的情況下)。

集成學習之Bagging思想

Bagging又稱自舉匯聚法(Bootstrap Aggregating),涉及在同一數據集的不同樣本上擬合許多學習器并對預測進行平均,通過改變訓練數據來尋找多樣化的集成成員。

Bagging思想就是在原始數據集上通過有放回的抽樣,重新選擇出N個新數據集來分別訓練N個分類器的集成技術。模型訓練數據中允許存在重復數據。

使用Bagging方法訓練出來的模型在預測新樣本分類的時候,會使用多數投票或者取平均值的策略來統計最終的分類結果。

基于Bagging的弱學習器(分類器/回歸器)可以是基本的算法模型,如Linear、Ridge、Lasso、Logistic、Softmax、ID3、C4.5、CART、SVM、KNN、Naive Bayes等。

隨機森林 (Random Forest)

1. 隨機森林算法原理

隨機森林是在Bagging策略的基礎上進行修改后的一種算法,方法如下:(1) 使用Bootstrap策略從樣本集中進行數據采樣;(2) 從所有特征中隨機選擇K個特征,構建正常決策樹;(3) 重復1,2多次,構建多棵決策樹;(4) 集成多棵決策樹,形成隨機森林,通過投票表決或取平均值對數據進行決策。

2. 隨機森林OOB Error

在隨機森林中可以發現Bootstrap采樣每次約有1/3的樣本不會出現在Bootstrap所采樣的樣本集合中,當然也沒有參加決策樹的建立,而這部分數據稱之為袋外數據OOB(out of bag),它可以用于取代測試集誤差估計方法。

對于已經生成的隨機森林,用袋外數據測試其性能,假設袋外數據總數為O,用這O個袋外數據作為輸入,帶進之前已經生成的隨機森林分類器,分類器會給出O個數據相應的分類,因為這O條數據的類型是已知的,則用正確的分類與隨機森林分類器的結果進行比較,統計隨機森林分類器分類錯誤的數目,設為X,則袋外數據誤差大小為X/O。

優點:這已經經過證明是無偏估計的,所以在隨機森林算法中不需要再進行交叉驗證或者單獨的測試集來獲取測試集誤差的無偏估計。

缺點:當數據量較小時,Bootstrap采樣產生的數據集改變了初始數據集的分布,這會引入估計偏差。

隨機森林算法變種

RF算法在實際應用中具有比較好的特性,應用也比較廣泛,主要應用在:分類、歸回、特征轉換、異常點檢測等。

以下為常見的RF變種算法:

Extra Trees (ET)

Totally Random Trees Embedding (TRTE)

Isolation Forest (IForest)

1. Extra Trees (ET)

Extra-Trees(Extremely randomized trees,極端隨機樹)是由Pierre Geurts等人于2006年提出。是RF的一個變種,原理基本和RF一樣。

但該算法與隨機森林有兩點主要的區別:(1) 隨機森林會使用Bootstrap進行隨機采樣,作為子決策樹的訓練集,應用的是Bagging模型;而ET使用所有的訓練樣本對每棵子樹進行訓練,也就是ET的每個子決策樹采用原始樣本訓練;(2) 隨機森林在選擇劃分特征點的時候會和傳統決策樹一樣(基于信息增益、信息增益率、基尼系數、均方差等),而ET是完全隨機的選擇劃分特征來劃分決策樹。

對于某棵決策樹,由于它的最佳劃分特征是隨機選擇的,因此它的預測結果往往是不準確的,但是多棵決策樹組合在一起,就可以達到很好的預測效果。

當ET構建完成,我們也可以應用全部訓練樣本得到該ET的誤差。因為盡管構建決策樹和預測應用的都是同一個訓練樣本集,但由于最佳劃分屬性是隨機選擇的,所以我們仍然會得到完全不同的預測結果,用該預測結果就可以與樣本的真實響應值比較,從而得到預測誤差。如果與隨機森林相類比的話,在ET中,全部訓練樣本都是OOB樣本,所以計算ET的預測誤差,也就是計算這個OOB誤差。

由于Extra Trees是隨機選擇特征值的劃分點,會導致決策樹的規模一般大于RF所生成的決策樹。也就是說Extra Trees模型的方差相對于RF進一步減少。在某些情況下,ET具有比隨機森林更強的泛化能力。

2. Totally Random Trees Embedding (TRTE)

TRTE是一種非監督學習的數據轉化方式。它將低維的數據映射到高維,從而讓映射到高維的數據更好的應用于分類回歸模型。

TRTE算法的轉換過程類似RF算法的方法,建立T個決策樹來擬合數據。當決策樹構建完成后,數據集里的每個數據在T個決策子樹中葉子節點的位置就定下來了,將位置信息轉換為向量就完成了特征轉換操作。

例如,有3棵決策樹,每棵決策樹有5個葉子節點,某個數據特征x劃分到第一個決策樹的第3個葉子節點,第二個決策樹的第1個葉子節點,第三個決策樹的第5個葉子節點。則x映射后的特征編碼為(0,0,1,0,0 1,0,0,0,0 0,0,0,0,1),有15維的高維特征。特征映射到高維之后,就可以進一步進行監督學習。

3. Isolation Forest (IForest)IForest是一種異常點檢測算法,使用類似RF的方式來檢測異常點。

IForest算法和RF算法的區別在于:

(1) 在隨機采樣的過程中,一般只需要少量數據即可;

(2) 在進行決策樹構建過程中,IForest算法會隨機選擇一個劃分特征,并對劃分特征隨機選擇一個劃分閾值;

(3) IForest算法構建的決策樹一般深度max_depth是比較小的。

IForest的目的是異常點檢測,所以只要能夠區分異常數據即可,不需要大量數據;另外在異常點檢測的過程中,一般不需要太大規模的決策樹。

對于異常點的判斷,則是將測試樣本x擬合到T棵決策樹上。計算在每棵樹上該樣本的葉子結點的深度ht(x)。從而計算出平均深度h(x);然后就可以使用下列公式計算樣本點x的異常概率值,p(s,m)的取值范圍為[0,1],越接近于1,則是異常點的概率越大。

1a9f287a-fca0-11eb-9bcf-12bb97331649.png

1ac7ec4c-fca0-11eb-9bcf-12bb97331649.png

m為樣本個數,ξ 為歐拉常數

隨機森林優缺點總結

本文我們一起了解了Bagging思想及其原理,以及基于Bagging的隨機森林相關知識。最后,讓我們一起總結下隨機森林的優缺點:

優點

訓練可以并行化,對于大規模樣本的訓練具有速度的優勢;

由于進行隨機選擇決策樹劃分特征列表,這樣在樣本維度比較高的時候,仍然具有比較好的訓練性能;

由于存在隨機抽樣,訓練出來的模型方差小,泛化能力強;

實現簡單;

對于部分特征缺失不敏感;

可以衡量特征的重要性。

缺點

在某些噪聲比較大的特征上,易過擬合;

取值比較多的劃分特征對RF的決策會產生更大的影響,從而有可能影響模型的效果。

編輯:jq

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 集成學習
    +關注

    關注

    0

    文章

    10

    瀏覽量

    7541
  • 分類器
    +關注

    關注

    0

    文章

    153

    瀏覽量

    13786
  • 數據采樣
    +關注

    關注

    0

    文章

    10

    瀏覽量

    6806

原文標題:機器學習建模中的Bagging思想

文章出處:【微信號:sessdw,微信公眾號:三星半導體互動平臺】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    人工智能與機器學習在這些行業的深度應用

    自人工智能和機器學習問世以來,多個在線領域的數字化格局迎來了翻天覆地的變化。這些技術從誕生之初就為企業賦予了競爭優勢,而在線行業正是受其影響最為顯著的領域。人工智能(AI)與機器學習
    的頭像 發表于 02-04 14:44 ?470次閱讀

    強化學習會讓自動駕駛模型學習更快嗎?

    是一種讓機器通過“試錯”學會決策的辦法。與監督學習不同,監督學習是有人提供示范答案,讓模型去模仿;而強化學習不會把每一步的“正確答案”都告訴你,而是把環境、動作和結果連起來,讓
    的頭像 發表于 01-31 09:34 ?641次閱讀
    強化<b class='flag-5'>學習</b>會讓自動駕駛模型<b class='flag-5'>學習</b>更快嗎?

    機器學習和深度學習中需避免的 7 個常見錯誤與局限性

    無論你是剛入門還是已經從事人工智能模型相關工作一段時間,機器學習和深度學習中都存在一些我們需要時刻關注并銘記的常見錯誤。如果對這些錯誤置之不理,日后可能會引發諸多麻煩!只要我們密切關注數據、模型架構
    的頭像 發表于 01-07 15:37 ?187次閱讀
    <b class='flag-5'>機器</b><b class='flag-5'>學習</b>和深度<b class='flag-5'>學習</b>中需避免的 7 個常見錯誤與局限性

    基于ETAS嵌入式AI工具鏈將機器學習模型部署到量產ECU

    AI在汽車行業的應用日益深化,如何將機器學習領域的先進模型(如虛擬傳感器)集成到ECU軟件中,已成為業界面臨的核心挑戰。
    的頭像 發表于 12-24 10:55 ?6102次閱讀
    基于ETAS嵌入式AI工具鏈將<b class='flag-5'>機器</b><b class='flag-5'>學習</b>模型部署到量產ECU

    如何深度學習機器視覺的應用場景

    檢測應用 微細缺陷識別:檢測肉眼難以發現的微小缺陷和異常 紋理分析:對材料表面紋理進行智能分析和缺陷識別 3D表面重建:通過深度學習進行高精度3D建模和檢測 電子行業應用 PCB板復雜缺陷檢測:連焊、虛焊、漏焊等焊接質量問題 芯片
    的頭像 發表于 11-27 10:19 ?220次閱讀

    如何在機器視覺中部署深度學習神經網絡

    人士而言往往難以理解,人們也常常誤以為需要扎實的編程技能才能真正掌握并合理使用這項技術。事實上,這種印象忽視了該技術為機器視覺(乃至生產自動化)帶來的潛力,因為深度學習并非只屬于計算機科學家或程序員。 從頭開始:什么
    的頭像 發表于 09-10 17:38 ?900次閱讀
    如何在<b class='flag-5'>機器</b>視覺中部署深度<b class='flag-5'>學習</b>神經網絡

    AI 驅動三維逆向:點云降噪算法工具與機器學習建模能力的前沿應用

    在三維逆向工程領域,傳統方法在處理復雜數據和構建高精度模型時面臨諸多挑戰。隨著人工智能(AI)技術的發展,點云降噪算法工具與機器學習建模能力的應用,為三維逆向工程帶來了創新性解決方案,顯著提升
    的頭像 發表于 08-20 10:00 ?701次閱讀
    AI 驅動三維逆向:點云降噪算法工具與<b class='flag-5'>機器</b><b class='flag-5'>學習</b><b class='flag-5'>建模</b>能力的前沿應用

    FPGA在機器學習中的具體應用

    隨著機器學習和人工智能技術的迅猛發展,傳統的中央處理單元(CPU)和圖形處理單元(GPU)已經無法滿足高效處理大規模數據和復雜模型的需求。FPGA(現場可編程門陣列)作為一種靈活且高效的硬件加速平臺
    的頭像 發表于 07-16 15:34 ?2889次閱讀

    明晚開播 |數據智能系列講座第7期:面向高泛化能力的視覺感知系統空間建模與微調學習

    鷺島論壇數據智能系列講座第7期「面向高泛化能力的視覺感知系統空間建模與微調學習」明晚8點精彩開播期待與您云相聚,共襄學術盛宴!|直播信息報告題目面向高泛化能力的視覺感知系統空間建模與微調學習
    的頭像 發表于 06-24 08:01 ?1058次閱讀
    明晚開播 |數據智能系列講座第7期:面向高泛化能力的視覺感知系統空間<b class='flag-5'>建模</b>與微調<b class='flag-5'>學習</b>

    邊緣計算中的機器學習:基于 Linux 系統的實時推理模型部署與工業集成

    你好,旅行者!歡迎來到Medium的這一角落。在本文中,我們將把一個機器學習模型(神經網絡)部署到邊緣設備上,利用從ModbusTCP寄存器獲取的實時數據來預測一臺復古音頻放大器的當前健康狀況。你將
    的頭像 發表于 06-11 17:22 ?994次閱讀
    邊緣計算中的<b class='flag-5'>機器</b><b class='flag-5'>學習</b>:基于 Linux 系統的實時推理模型部署與工業<b class='flag-5'>集成</b>!

    直播預約 |數據智能系列講座第7期:面向高泛化能力的視覺感知系統空間建模與微調學習

    建模與微調學習報告簡介構建高效、物理一致且具備良好泛化能力的視覺感知系統,是視覺智能、邊緣計算與具身機器人中的關鍵挑戰。為提升系統的泛化與適應能力,一類方法致力于構
    的頭像 發表于 05-29 10:04 ?633次閱讀
    直播預約 |數據智能系列講座第7期:面向高泛化能力的視覺感知系統空間<b class='flag-5'>建模</b>與微調<b class='flag-5'>學習</b>

    使用MATLAB進行無監督學習

    無監督學習是一種根據未標注數據進行推斷的機器學習方法。無監督學習旨在識別數據中隱藏的模式和關系,無需任何監督或關于結果的先驗知識。
    的頭像 發表于 05-16 14:48 ?1436次閱讀
    使用MATLAB進行無監督<b class='flag-5'>學習</b>

    國產地物光譜儀在“高光譜-機器學習”模型構建中的表現

    和可推廣性。 近年來,國產地物光譜儀在性能、穩定性和數據一致性等方面取得了顯著進步,不僅打破了對進口設備的長期依賴,也逐步展現出在“高光譜-機器學習”模型構建中的實力。 一、國產儀器的數據質量,是否足夠用于建模
    的頭像 發表于 04-18 16:15 ?741次閱讀
    國產地物光譜儀在“高光譜-<b class='flag-5'>機器</b><b class='flag-5'>學習</b>”模型構建中的表現

    面向AI與機器學習應用的開發平臺 AMD/Xilinx Versal? AI Edge VEK280

    解讀: *附件:VEK280_用戶指南 開發手冊.pdf 一、核心配置與架構 ? 自適應SoC芯片 基于AMD Versal? AI Edge系列VE2802自適應SoC,集成AI引擎機器學習
    的頭像 發表于 04-11 18:33 ?2435次閱讀
    面向AI與<b class='flag-5'>機器</b><b class='flag-5'>學習</b>應用的開發平臺 AMD/Xilinx Versal? AI Edge VEK280

    請問STM32部署機器學習算法硬件至少要使用哪個系列的芯片?

    STM32部署機器學習算法硬件至少要使用哪個系列的芯片?
    發表于 03-13 07:34