国产精品制服一区二区,无码国产成人精品九色 ,精品国产乱码久久久一区二区

本文我們來討論特征預處理的相關問題。主要包括特征的歸一化和標準化，異常特征樣本清洗與樣本數據不平衡問題的處理。

1. 特征的標準化和歸一化

由于標準化和歸一化這兩個詞經?；煊茫员疚牟辉賲^別標準化和歸一化，而通過具體的標準化和歸一化方法來區別具體的預處理操作。

z-score標準化：這是最常見的特征預處理方式，基本所有的線性模型在擬合的時候都會做 z-score標準化。具體的方法是求出樣本特征x的均值mean和標準差std，然后用（x-mean)/std來代替原特征。這樣特征就變成了均值為0，方差為1了。在sklearn中，我們可以用StandardScaler來做z-score標準化。當然，如果我們是用pandas做數據預處理，可以自己在數據框里面減去均值，再除以方差，自己做z-score標準化。

max-min標準化：也稱為離差標準化，預處理后使特征值映射到[0,1]之間。具體的方法是求出樣本特征x的最大值max和最小值min，然后用(x-min)/(max-min)來代替原特征。如果我們希望將數據映射到任意一個區間[a,b]，而不是[0,1]，那么也很簡單。用(x-min)(b-a)/(max-min)+a來代替原特征即可。在sklearn中，我們可以用MinMaxScaler來做max-min標準化。這種方法的問題就是如果測試集或者預測數據里的特征有小于min，或者大于max的數據，會導致max和min發生變化，需要重新計算。所以實際算法中，除非你對特征的取值區間有需求，否則max-min標準化沒有 z-score標準化好用。

L1/L2范數標準化：如果我們只是為了統一量綱，那么通過L2范數整體標準化也是可以的，具體方法是求出每個樣本特征向量

x→的L2范數||x→||2,然后用x→/||x→||2代替原樣本特征即可。當然L1范數標準化也是可以的，即用x/||x||1

代替原樣本特征。通常情況下，范數標準化首選L2范數標準化。在sklearn中，我們可以用Normalizer來做L1/L2范數標準化。

此外，經常我們還會用到中心化，主要是在PCA降維的時候，此時我們求出特征x的平均值mean后，用x-mean代替原特征，也就是特征的均值變成了0, 但是方差并不改變。這個很好理解，因為PCA就是依賴方差來降維的。

雖然大部分機器學習模型都需要做標準化和歸一化，也有不少模型可以不做做標準化和歸一化，主要是基于概率分布的模型，比如決策樹大家族的CART，隨機森林等。當然此時使用標準化也是可以的，大多數情況下對模型的泛化能力也有改進。

2. 異常特征樣本清洗

我們在實際項目中拿到的數據往往有不少異常數據，有時候不篩選出這些異常數據很可能讓我們后面的數據分析模型有很大的偏差。那么如果我們沒有專業知識，如何篩選出這些異常特征樣本呢？常用的方法有兩種。

第一種是聚類，比如我們可以用KMeans聚類將訓練樣本分成若干個簇，如果某一個簇里的樣本數很少，而且簇質心和其他所有的簇都很遠，那么這個簇里面的樣本極有可能是異常特征樣本了。我們可以將其從訓練集過濾掉。

第二種是異常點檢測方法，主要是使用iForest或者one class SVM，使用異常點檢測的機器學習算法來過濾所有的異常點。

當然，某些篩選出來的異常樣本是否真的是不需要的異常特征樣本，最好找懂業務的再確認一下，防止我們將正常的樣本過濾掉了。

3. 處理不平衡數據

這個問題其實不算特征預處理的部分，不過其實它的實質還是訓練集中各個類別的樣本的特征分布不一致的問題，所以這里我們一起講。

我們做分類算法訓練時，如果訓練集里的各個類別的樣本數量不是大約相同的比例，就需要處理樣本不平衡問題。也許你會說，不處理會怎么樣呢？如果不處理，那么擬合出來的模型對于訓練集中少樣本的類別泛化能力會很差。舉個例子，我們是一個二分類問題，如果訓練集里A類別樣本占90%，B類別樣本占10%。而測試集里A類別樣本占50%， B類別樣本占50%，如果不考慮類別不平衡問題，訓練出來的模型對于類別B的預測準確率會很低，甚至低于50%。

如何解決這個問題呢？一般是兩種方法：權重法或者采樣法。

權重法是比較簡單的方法，我們可以對訓練集里的每個類別加一個權重class weight。如果該類別的樣本數多，那么它的權重就低，反之則權重就高。如果更細致點，我們還可以對每個樣本加權重sample weight，思路和類別權重也是一樣，即樣本數多的類別樣本權重低，反之樣本權重高。sklearn中，絕大多數分類算法都有class weight和 sample weight可以使用。

如果權重法做了以后發現預測效果還不好，可以考慮采樣法。

采樣法常用的也有兩種思路，一種是對類別樣本數多的樣本做子采樣, 比如訓練集里A類別樣本占90%，B類別樣本占10%。那么我們可以對A類的樣本子采樣，直到子采樣得到的A類樣本數和B類別現有樣本一致為止，這樣我們就只用子采樣得到的A類樣本數和B類現有樣本一起做訓練集擬合模型。第二種思路是對類別樣本數少的樣本做過采樣, 還是上面的例子，我們對B類別的樣本做過采樣，直到過采樣得到的B類別樣本數加上B類別原來樣本一起和A類樣本數一致，最后再去擬合模型。

上述兩種常用的采樣法很簡單，但是都有個問題，就是采樣后改變了訓練集的分布，可能導致泛化能力差。所以有的算法就通過其他方法來避免這個問題，比如SMOTE算法通過人工合成的方法來生成少類別的樣本。方法也很簡單，對于某一個缺少樣本的類別，它會隨機找出幾個該類別的樣本，再找出最靠近這些樣本的若干個該類別樣本，組成一個候選合成集合，然后在這個集合中不停的選擇距離較近的兩個樣本（x1,y）,(x2,y)，在這兩個樣本之間，比如中點，構造一個新的該類別樣本。舉個例子，比如該類別的候選合成集合有兩個樣本(x1,y),(x2,y),那么SMOTE采樣后，可以得到一個新的訓練樣本((x1+x2)/2,y),(x1+x22,y),通過這種方法，我們可以得到不改變訓練集分布的新樣本，讓訓練集中各個類別的樣本數趨于平衡。我們可以用imbalance-learn這個Python庫中的SMOTEENN類來做SMOTE采樣。

4. 結語

特征工程系列終于寫完了，這個系列的知識比較零散，更偏向工程方法，所以不像算法那么緊湊，寫的也不是很好，希望大家批評指正。如果有其他好的特征工程方法需要補充的，歡迎留言評論。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴