国产精品久久久aaaa,日日干夜夜操天天插,亚洲乱熟女香蕉一区二区三区少妇,99精品国产高清一区二区三区,国产成人精品一区二区色戒,久久久国产精品成人免费,亚洲精品毛片久久久久,99久久婷婷国产综合精品电影,国产一区二区三区任你鲁

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

機器學習特征選擇的三種方法

倩倩 ? 來源:云溪初閣 ? 2020-04-15 15:56 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

特征選擇,這是一個在機器學習中非常重要的東西,那些好的特征可以從整體上來提升模型的性能,可以幫助我們更加清晰的理解真個數據的特點及底層結構,對于后面的模型,算法有著非常重要的作用。

備注:在很多情況下,特征選擇并非必要的,業務特征的選擇有很強烈的業務契合度在里面,代表著這些特征在業務中的重要性也是很高,如果去掉,很有可能會有一定的副作用,但是無法說清這個副作用,這個需要進入到訓練中去訓練數據來驗證這個效果。

特征選擇作用

這里有些同學可能是剛開始接觸做特征選擇,并不是很了解為什么要做特征選擇,做了有什么作用?是否只是簡單地減少特征?是否這樣子做了,對結果有沒有影響?

這里每個人都有自己的理解,小編根據自己的經驗,總結有兩個,參考一下:

1、減少特征的數量,降低維度,這樣子可以在一定程度上加強模型的泛化能力,從而盡可能地減少過擬合,這里要注意一下:過擬合只能減少,無法消滅,好比這個世上,其實沒有最優解的一樣,擁有的只有不滿足。

2、在一定程度上降低特征后,從直觀上來看,很多時候可以一目了然看到特征與特征值之間的關聯,這個場景,需要實際業務的支撐,生產上的業務數據更加明顯,有興趣的同學可以私信我加群,一起研究。

特征選擇從何入手

這是一個非常重要的問題,有很多同學可能剛開始接觸或者想往這方面發展,拿到了一組數組,很多時候就是直接拿了一個算法,直接做分類或者做回歸或者做聚類,但是這樣子正常情況下,數據會存在很多噪音(科普:噪音可以理解為一些垃圾數據,對我們的結果或者期望造成了干擾),這樣子的數據不會很好。

那如果我要特征選擇呢,又不知從何入手?

這里有兩個方法,可以作為參考:

1、從業務范圍分析,直接觀察特征與業務的相關性,這點非常重要,那些對業務有著直接指標的數據,建議保留,否則,可以考慮手動刪除掉。

2、從發散特性分析,這個很多同學畢業后,就忘了這個東西,簡單用成語一個成語來理解一下:一成不變。如果這個特征滿足這種條件,那證明不發散,其實在數學中,用方差來計算的,這種不發散的特征,基本就沒有什么差異性了,例如某一項特征都是0,怎么有影響呢,這樣子的特征其實就沒什么用。

特征選擇的三種方法

進行特征選擇的時候,其實有一定的方法或者規律可言,總結起來有三個

1、過濾法:目前這是小編用的最普遍的方法,因為最簡單,與業務契合度最高,操作過程就是我可以設定某一個閾值,然后根據數據的發散情況或者與業務是否相關來打分,一般都是當低于這個閾值的時候,就可以考慮過濾掉。

2、嵌入法:這個方法無法直接從字面來理解,但是其實也是很好的東西,小編把它叫做過濾法的進化版。如何理解這個進化版,原先我們采用過濾法的時候,很多時候是人肉直接擼一擼,但是這時候特征多呢,給你200個特征,然后我就可能瞎了或者手廢掉了,此時的做法是此案用機器學習的算法或者模型來訓練,然后可以得到各個特征的權重值,做個排序,干掉那些排序地的,例如樹的特征選擇,這些算法,后面會逐一介紹。

3、包裝法:聽這個名字,是不是也是很迷糊,其實這個也比較好理解,不斷循環訓練模型,進行目標函數的計算,一般我們是采用預測的效果來評分,逐一選擇一定量的特征來做,不斷循環,得到結果進行對比,這樣就可以看到哪些特征不好。不過這個小編比較少用,計算上比較費時費力,后面的具體算法也會介紹到。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 算法
    +關注

    關注

    23

    文章

    4784

    瀏覽量

    98092
  • 機器學習
    +關注

    關注

    66

    文章

    8554

    瀏覽量

    136989
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    機器學習特征工程:分類變量的數值化處理方法

    編碼是機器學習流程里最容易被低估的環節之一,模型沒辦法直接處理文本形式的分類數據,尺寸(Small/Medium/Large)、顏色(Red/Blue/Green)、城市、支付方式等都是典型的分類
    的頭像 發表于 02-10 15:58 ?346次閱讀
    <b class='flag-5'>機器</b><b class='flag-5'>學習</b><b class='flag-5'>特征</b>工程:分類變量的數值化處理<b class='flag-5'>方法</b>

    嵌入式中的浮點型數據轉換為字節類型的三種方法

    什么是浮點數 浮點數是指一既包含小數又包含整數的數據類型。 浮點型變量分類 浮點型分為單精度(float型)和雙精度(double型)。浮點型變量使用定義。如下: float a; // 聲明
    發表于 01-07 06:28

    C語言中實現函數宏的三種方式

    ,在 {}、do{...}while(0) 和 ({}) 這三種函數宏的封裝方式之中,應盡可能不使用 {},考慮兼容性一般選擇使用 do{...}while(0),當需要函數宏返回時可以考慮使用 ({}) 或直接定義函數。
    發表于 12-29 07:34

    請問CW32芯片的三種工作模式是什么?

    CW32芯片的三種工作模式是什么?
    發表于 12-26 06:48

    有多少種方法可以進行頻響曲線測量?

    。下面列出APx500軟件包含的至少10種方法都可以進行頻響曲線的測量:FrequencyResponseContinuousSweepAcousticRespo
    的頭像 發表于 11-14 11:29 ?933次閱讀
    有多少<b class='flag-5'>種方法</b>可以進行頻響曲線測量?

    量子機器學習入門:三種數據編碼方法對比與應用

    在傳統機器學習中數據編碼確實相對直觀:獨熱編碼處理類別變量,標準化調整數值范圍,然后直接輸入模型訓練。整個過程更像是數據清洗,而非核心算法組件。量子機器學習的編碼完全是另一回事。傳統算
    的頭像 發表于 09-15 10:27 ?784次閱讀
    量子<b class='flag-5'>機器</b><b class='flag-5'>學習</b>入門:<b class='flag-5'>三種數據編碼方法</b>對比與應用

    MEMS中的三種測溫方式

    在集成MEMS芯片的環境溫度測量領域,熱阻、熱電堆和PN結原理是三種主流技術。熱阻是利用熱敏電阻,如金屬鉑或注入硅的溫度電阻系數恒定,即電阻隨溫度線性變化的特性測溫,電阻變化直接對應絕對溫度,需恒流源供電。
    的頭像 發表于 07-16 13:58 ?1678次閱讀
    MEMS中的<b class='flag-5'>三種</b>測溫方式

    介紹三種常見的MySQL高可用方案

    在生產環境中,為了確保數據庫系統的連續可用性、降低故障恢復時間以及實現業務的無縫切換,高可用(High Availability, HA)方案至關重要。本文將詳細介紹三種常見的 MySQL 高可用
    的頭像 發表于 05-28 17:16 ?1257次閱讀

    精選好文!噪聲系數測量的三種方法

    器件噪聲系數的三種方法。每種方法都有其優缺點,適用于特定的應用。下表是三種方法優缺點的總結。理論上,同一個射頻器件的測量結果應該一樣,但是由于射頻設備的限制(可用性、精度、頻率范圍、噪聲基底等),必須
    發表于 05-07 10:18

    雙極型極管放大電路的三種基本組態的學習課件免費下載

      本文檔的主要內容詳細介紹的是雙極型極管放大電路的三種基本組態的學習課件免費下載包括了:共集電極放大電路,共基極放大電路,三種基本組態的比較   輸入信號ui
    發表于 04-11 16:39 ?37次下載

    redis三種集群方案詳解

    在Redis中提供的集群方案總共有三種(一般一個redis節點不超過10G內存)。
    的頭像 發表于 03-31 10:46 ?1541次閱讀
    redis<b class='flag-5'>三種</b>集群方案詳解

    CMOS,Bipolar,FET這三種工藝的優缺點是什么?

    在我用photodiode工具選型I/V放大電路的時候,系統給我推薦了AD8655用于I/V,此芯片為CMOS工藝 但是查閱資料很多都是用FET工藝的芯片,所以請教下用于光電信號放大轉換(主要考慮信噪比和帶寬)一般我們用哪種工藝的芯片, CMOS,Bipolar,FET這三種工藝的優缺點是什么?
    發表于 03-25 06:23

    圖騰柱無橋PFC(功率因數校正)電路的三種閉環控制方法

    高效能圖騰柱無橋PFC閉環控制方案——為EE工程師量身打造的革新設計 *附件:圖騰柱無橋PFC(功率因數校正)電路的三種閉環控制方法.pdf 在服務器和數據中心等高功率密度場景中, 圖騰柱無橋PFC
    的頭像 發表于 03-24 20:53 ?2613次閱讀

    介紹三種數據保護策略的特點與適用場景

    在企業IT環境中,數據保護是不可忽視的重要環節,而復制(Replication)、快照(Snapshot)和備份(Backup)是三種常見的策略。它們在數據恢復、業務連續性以及災難恢復中扮演著不同的角色,但很多企業在選擇數據保護方案時,往往不清楚
    的頭像 發表于 03-21 11:46 ?1534次閱讀

    GaN、超級SI、SiC這三種MOS器件的用途區別

    如果想要說明白GaN、超級SI、SiC這三種MOS器件的用途區別,首先要做的是搞清楚這三種功率器件的特性,然后再根據材料特性分析具體應用。
    的頭像 發表于 03-14 18:05 ?2732次閱讀