久久精品探花,久久青青草原国产最新片,久久久久人妻一区精品加勒比

編者按：Google產品分析Zlatan Kremonic分享了參加Kaggle競賽的經驗。

問題

Kaggle房價競賽要求參賽者預測2006年至2010年美國愛荷華州埃姆斯市的房價。數據集中包含79個變量，包括許多房屋屬性。你可以在Kaggle網站上了解更多細節：https://www.kaggle.com/c/house-prices-advanced-regression-techniques

方法

由于我們的目標變量是連續值（售價），因此這是一個典型的回歸問題，讓人聯想起波斯頓房價數據集。評估標準為預測和實際售價的接近程度（預測值的對數與觀測到的售價的對數的均方根誤差）。

數據集中包括大量變量，其中許多是類別變量，因此特征選取是這一問題的關鍵部分。特征選取的兩種常用方法：

直接使用scikit-learn中的SelectKBest方法。

LASSO回歸。

我在分析中嘗試了這兩種方法，發現LASSO回歸的結果要好一些。

另外，我們將使用XGBoost，并在結果中融合LASSO的輸出，以提升模型的精確度。我們的最終結果不錯，位于排行榜的前10%（撰寫本文時）。

探索性數據分析

因為變量很多，為了節約篇幅，我不會詳細演示所有探索性數據分析（我在文末列出了GitHub倉庫的鏈接，如果你對探索性數據分析的細節感興趣，可以查看其中的EDA.ipynb）。相反，我將直接給出我的主要觀察，這些觀察給特征工程提供了信息。

我們有大量的類別屬性，需要進行獨熱編碼。

一些數值列有null值，需要填充。

許多數值列的分布比較扭曲，需要處理。

如前所述，為了節約篇幅，這里僅僅給出導入庫、加載數據的代碼，不包括探索性數據分析部分的代碼。

import os

import pandas as pd

import numpy as np

from scipy.stats import skew

from sklearn.model_selection importGridSearchCV

from sklearn.linear_model importLasso

from sklearn.metrics import mean_squared_error

from xgboost.sklearn importXGBClassifier

import xgboost as xgb

import matplotlib.pyplot as plt

%matplotlib inline

train = pd.read_csv(os.path.join('data', 'train.csv'))

test = pd.read_csv(os.path.join('data', 'test.csv'))

y = train.iloc[:, -1]

train = train.iloc[:, 1:-1]

test = test.iloc[:, 1:]

submission = test.iloc[:, 0]

特征工程

首先，我們將MSSubClass變量（表示建筑分類編碼）從數值轉為字符串，因為這些編碼只是無序的類別。

def mssubclass(train, test, cols=['MSSubClass']):

for i in (train, test):

for z in cols:

i[z] = i[z].apply(lambda x: str(x))

return train, test

接著，我們將對所有數值特征取對數，包括因變量。由于數值特征包含很多零值，我們使用log1p，在取對數前先加一。

def log(train, test, y):

numeric_feats = train.dtypes[train.dtypes != "object"].index

for i in (train, test):

i[numeric_feats] = np.log1p(i[numeric_feats])

y = np.log1p(y)

return train, test, y

我們將用每列的均值填充null值：

def impute_mean(train, test):

for i in (train, test):

for s in [k for k in i.dtypes[i.dtypes != "object"].index if sum(pd.isnull(i[k])>0)]:

i[s] = i[s].fillna(i[s].mean())

return train, test

獨熱編碼時，同樣需要填充null值：

def dummies(train, test):

columns = [i for i in train.columns if type(train[i].iloc[1]) == str or type(train[i].iloc[1]) == float]

for column in columns:

train[column].fillna('NULL', inplace = True)

good_cols = [column+'_'+i for i in train[column].unique()[1:] if i in test[column].unique()]

train = pd.concat((train, pd.get_dummies(train[column], prefix = column)[good_cols]), axis = 1)

test = pd.concat((test, pd.get_dummies(test[column], prefix = column)[good_cols]), axis = 1)

del train[column]

del test[column]

return train, test

整個特征工程流程：

train, test = mssubclass(train, test)

train, test, y = log(train, test, y)

train, test = lotfrontage(train, test)

train, test = garageyrblt(train, test)

train, test = impute_mean(train, test)

train, test = dummies(train, test)

LASSO回歸

LASSO回歸同時起到了正則化和特征選取的作用，可以改善模型的預測效果。就我們的情況而言，LASSO回歸是完美的算法，因為它有助于降低特征數并緩解過擬合。

LASSO回歸中需要調節的超參數主要是正則化因子alpha。我們使用GridSearchCV（網格搜索交叉驗證）尋找alpha的最優值。

alpha_ridge = [1e-5, 1e-4, 1e-3, 1e-2, 1, 5, 10, 20]

coeffs = {}

for alpha in alpha_ridge:

r = Lasso(alpha=alpha, normalize=True, max_iter=1000000)

r = r.fit(train, y)

grid_search = GridSearchCV(Lasso(alpha=alpha, normalize=True), scoring='neg_mean_squared_error',

param_grid={'alpha': alpha_ridge}, cv=10, n_jobs=-1)

grid_search.fit(train, y)

最終我們得到alpha的最佳值0.0001。為了更直觀地理解alpha的影響，我們可以畫出所有alpha值的均方根誤差：

alpha = alpha_ridge

rmse = list(np.sqrt(-grid_search.cv_results_['mean_test_score']))

plt.figure(figsize=(6,5))

lasso_cv = pd.Series(rmse, index = alpha)

lasso_cv.plot(title = "Validation - LASSO", logx=True)

plt.xlabel("alpha")

plt.ylabel("rmse")

現在用模型擬合訓練數據：

lasso = Lasso(alpha=.0001, normalize=True, max_iter=1e6)

lasso = lasso.fit(train, y)

我們的模型有多少列？

coef = pd.Series(lasso.coef_, index = train.columns)

print("Lasso選中了" + str(sum(coef != 0)) + "個變量，并移除了其他" + str(sum(coef == 0)) + "個變量")

Lasso選中了103個變量，并移除了其他142個變量

此外，我們可以看到，根據我們的模型，房齡、面積、房屋狀況是最重要的變量。這很符合直覺——在創建模型時檢查模型是否符合常理總是不錯的。

imp_coef = pd.concat([coef.sort_values().head(10),

coef.sort_values().tail(10)])

plt.rcParams['figure.figsize'] = (5.0, 5.0)

imp_coef.plot(kind = "barh")

plt.title("Coefficients in the Lasso Model")

用LASSO模型預測測試數據，我們得到的均方根誤差為0.1209，這已經足以在排行榜上取得前25%的名次了。

XGBoost模型

由于XGBoost在數據科學競賽中的強力表現，從2016年起，這一算法變得家喻戶曉了。這一算法的挑戰之一是處理大數據集時，調整超參數耗時很久。然而，因為我們的數據集包含不到1500項觀測，所以我覺得這是一個嘗試XGBoost的好機會。為了節約篇幅，我這里不會披露超參數調整的細節。我主要使用的方法是每次交叉驗證一到兩個參數，以免給我的機器太大的負擔，同時在調整會話的間隔重新計算n_estimators的最優值。

下面是我實現的最終模型。它的得分是0.12278，事實上這比LASSO模型要差。

regr = xgb.XGBRegressor(

colsample_bytree=0.3,

gamma=0.0,

learning_rate=0.01,

max_depth=4,

min_child_weight=1.5,

n_estimators=1668,

reg_alpha=1,

reg_lambda=0.6,

subsample=0.2,

seed=42,

silent=1)

regr.fit(train, y)

y_pred_xgb = regr.predict(test)

融合模型結果

最后我們需要組合兩個模型的結果。我對兩個模型的預測取了加權平均。最終的得分是0.11765，明顯比兩個模型單獨預測的結果要好。這確認了集成學習的首要原則，假定誤差率互不相關，集成的誤差率低于單個模型。

predictions = np.expm1(.6*lasso_pred + .4*y_pred_xgb)

之前在特征工程時使用了log1p，所以現在用expm1還原原數值。注意這里給LASSO更大的權重（0.6），并不是因為在測試數據上LASSO的表現優于XGBoost，而是因為在訓練數據上LASSO的表現優于XGBoost（因為建模的時候不能“偷看”測試數據）。

結語

這項競賽是一個練習標準回歸技術的好機會。我只進行了最少的特征工程就取得了前10%的排名。

除了上面的模型，我也嘗試了SelectKBest（搭配Pipeline和網格搜索），將列數縮減至138，并得到了0.13215的分數。然而，將其與其他模型融合時，效果不佳。后來我又試了隨機森林回歸，得分是0.14377，這不算差，但要在我們的集成中加入這個模型，這個分數顯然還不夠高。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴

Google

Google

+關注

關注
5

文章
1807

瀏覽量
60519
數據集

數據集

+關注

關注
4

文章
1236

瀏覽量
26190

原文標題：LASSO回歸與XGBoost：融合模型預測房價

文章出處：【微信號：jqr_AI，微信公眾號：論智】歡迎添加關注！文章轉載請注明出處。

搜索歷史

Google產品分析Zlatan Kremonic分享了參加Kaggle競賽的經驗

評論