XGBOOST学习实战

程序员文章站 2022-05-27 09:46:47

...

XGBoost参数：

gbm = xgb.XGBClassifier(silent=1, max_depth=10, n_estimators=1000, learning_rate=0.05)

max_depth=3, 这代表的是树的最大深度，默认值为三层。max_depth越大，模型会学到更具体更局部的样本。

learning_rate=0.1,学习率，也就是梯度提升中乘以的系数，越小，使得下降越慢，但也是下降的越精确。

n_estimators=100,也就是弱学习器的最大迭代次数，或者说最大的弱学习器的个数。一般来说n_estimators太小，容易欠拟合，n_estimators太大，计算量会太大，并且n_estimators到一定的数量后，再增大n_estimators获得的模型提升会很小，所以一般选择一个适中的数值。默认是100。

silent=True,是我们训练xgboost树的时候后台要不要输出信息，True代表将生成树的信息都输出。

objective="binary:logistic",这个参数定义需要被最小化的损失函数。最常用的值有：

binary:logistic 二分类的逻辑回归，返回预测的概率(不是类别)。
multi:softmax 使用softmax的多分类器，返回预测的类别(不是概率)。在这种情况下，你还需要多设一个参数：num_class(类别数目)。
multi:softprob和multi:softmax参数一样，但是返回的是每个数据属于各个类别的概率。

nthread=-1, 多线程控制，根据自己电脑核心设，想用几个线程就可以设定几个，如果你想用全部核心，就不要设定，算法会自动识别

gamma=0,在节点分裂时，只有分裂后损失函数的值下降了，才会分裂这个节点。Gamma指定了节点分裂所需的最小损失函数下降值。这个参数的值越大，算法越保守。这个参数的值和损失函数息息相关，所以是需要调整的。

min_child_weight=1,决定最小叶子节点样本权重和。和GBM的 min_child_leaf 参数类似，但不完全一样。XGBoost的这个参数是最小样本权重的和，而GBM参数是最小样本总数。这个参数用于避免过拟合。当它的值较大时，可以避免模型学习到局部的特殊样本。但是如果这个值过高，会导致欠拟合。这个参数需要使用CV来调整

max_delta_step=0, 决定最小叶子节点样本权重和。和GBM的 min_child_leaf 参数类似，但不完全一样。XGBoost的这个参数是最小样本权重的和，而GBM参数是最小样本总数。这个参数用于避免过拟合。当它的值较大时，可以避免模型学习到局部的特殊样本。但是如果这个值过高，会导致欠拟合。这个参数需要使用CV来调整。

subsample=1, 和GBM中的subsample参数一模一样。这个参数控制对于每棵树，随机采样的比例。减小这个参数的值，算法会更加保守，避免过拟合。但是，如果这个值设置得过小，它可能会导致欠拟合。典型值：0.5-1

colsample_bytree=1, 用来控制每棵随机采样的列数的占比(每一列是一个特征)。典型值：0.5-1

colsample_bylevel=1,用来控制树的每一级的每一次分裂，对列数的采样的占比。其实subsample参数和colsample_bytree参数可以起到相似的作用。

reg_alpha=0,权重的L1正则化项。(和Lasso regression类似)。可以应用在很高维度的情况下，使得算法的速度更快。

reg_lambda=1, 权重的L2正则化项这个参数是用来控制XGBoost的正则化部分的。这个参数越大就越可以惩罚树的复杂度

scale_pos_weight=1,在各类别样本十分不平衡时，把这个参数设定为一个正值，可以使

base_score=0.5, 所有实例的初始化预测分数，全局偏置；为了足够的迭代次数，改变这个值将不会有太大的影响。

seed=0, 随机数的种子设置它可以复现随机数据的结果，也可以用于调整参数

题：https://tianchi.aliyun.com/competition/entrance/231620/introduction

代码：

import pandas as pd
import xgboost as xgb
from sklearn import preprocessing
 
 
train = pd.read_csv(r'D:\ML\train.csv')
tests = pd.read_csv(r'D:\ML\test.csv')
 
#把时间转化为日期，再转化为多个时间特征
train['time_stamp'] = pd.to_datetime(pd.Series(train['time_stamp']))
tests['time_stamp'] = pd.to_datetime(pd.Series(tests['time_stamp'])) 
train['Year'] = train['time_stamp'].apply(lambda x:x.year)
train['Month'] = train['time_stamp'].apply(lambda x: x.month)
train['weekday'] = train['time_stamp'].apply(lambda x: x.weekday())
train['time'] = train['time_stamp'].dt.time
tests['Year'] = tests['time_stamp'].apply(lambda x: x.year)
tests['Month'] = tests['time_stamp'].apply(lambda x: x.month)
tests['weekday'] = tests['time_stamp'].dt.dayofweek
tests['time'] = tests['time_stamp'].dt.time

# traind丢掉有缺失值的数据 ，补上test缺失值
train = train.drop('time_stamp', axis=1)
train = train.dropna(axis=0)
tests = tests.drop('time_stamp', axis=1)
tests = tests.fillna(method='pad')

#把数据变成标签化
for f in train.columns:
    if train[f].dtype=='object':
        if f != 'shop_id':
            print(f)
            lbl = preprocessing.LabelEncoder()     
            train[f] = lbl.fit_transform(list(train[f].values)) 
for f in tests.columns:
    if tests[f].dtype == 'object':
        print(f)
        lbl = preprocessing.LabelEncoder()
        lbl.fit(list(tests[f].values))
        tests[f] = lbl.transform(list(tests[f].values))
 
# 将train和tests转化成matrix类型
feature_columns_to_use = ['Year', 'Month', 'weekday',
'time', 'longitude', 'latitude',
'wifi_id1', 'wifi_strong1', 'con_sta1',
 'wifi_id2', 'wifi_strong2', 'con_sta2',
'wifi_id3', 'wifi_strong3', 'con_sta3',
'wifi_id4', 'wifi_strong4', 'con_sta4',
'wifi_id5', 'wifi_strong5', 'con_sta5',
'wifi_id6', 'wifi_strong6', 'con_sta6',
'wifi_id7', 'wifi_strong7', 'con_sta7',
'wifi_id8', 'wifi_strong8', 'con_sta8',
'wifi_id9', 'wifi_strong9', 'con_sta9',
'wifi_id10', 'wifi_strong10', 'con_sta10',]


big_train = train[feature_columns_to_use]
big_test = tests[feature_columns_to_use]
train_X = big_train.as_matrix()
test_X = big_test.as_matrix()
train_y = train['shop_id']

# XGBT决策树
gbm = xgb.XGBClassifier(silent=1, max_depth=10,
                    n_estimators=1000, learning_rate=0.05)
gbm.fit(train_X, train_y)
predictions = gbm.predict(test_X)
# 提取预测数据
submission = pd.DataFrame({'row_id': tests['row_id'],
                            'shop_id': predictions})
print(submission)
submission.to_csv("submission.csv",index=False）

XGBOOST学习实战

学习强国app怎么进入在家上学网课直播入口?

Linux shell脚本全面学习入门

搭建ssh框架的基本步骤（ssh框架整合实战教程）

抖音实战：教你悄无声息地挖同行墙角

详解ASP.NET Core MVC 源码学习：Routing 路由

MySQL索引及优化实战教程

java到哪里学习（史上最强Java学习路线图）

python学习流程控制语句详解

PHP+Redis开发的书签案例实战详解

Python中基础的socket编程实战攻略

XGBOOST学习实战

学习强国app怎么进入在家上学网课直播入口?

Linux shell脚本全面学习入门

搭建ssh框架的基本步骤（ssh框架整合实战教程）

抖音实战：教你悄无声息地挖同行墙角

详解ASP.NET Core MVC 源码学习：Routing 路由

MySQL索引及优化实战教程

java到哪里学习（史上最强Java学习路线图）

python学习 流程控制语句详解

PHP+Redis开发的书签案例实战详解

Python中基础的socket编程实战攻略

python学习流程控制语句详解