综合实训周报八
程序员文章站
2022-03-25 23:32:44
...
理论学习
本周了解了数据集中的信息,大致知道每列数据的大致意思和作用,发现大多数信息都丢失严重,并且不是很好填补缺失值,故决定将大多数数据都直接丢弃不用。
此外还上网查找了相关的资料,还是主要学习了如何选择参数,以及在填补缺失值方面有什么比较好的借鉴资料,不过收获较少。
实践学习
本周只是初步的处理数据,还没有进行正式的提交。
主要是删除了一些数据集。
有一些是缺失值太多舍弃。
drop = ['enttypeitem', 'opto', 'empnum', 'compform', 'parnum',
'exenum', 'opform', 'ptbusscope', 'venind', 'enttypeminu',
'midpreindcode', 'protype', 'reccap', 'forreccap',
'forregcap', 'congro']
还有一些是单一值过多。
del base['dom'], base['opscope']
del base['oploc']
使用了lgb模型。
lgb_model = lgb.LGBMRegressor(
num_leaves=64, reg_alpha=0., reg_lambda=0.01, metric='rmse',
max_depth=-1, learning_rate=0.05, min_child_samples=10, seed=2020,
n_estimators=2000, subsample=0.7, colsample_bytree=0.7, subsample_freq=1,
)
上一篇: 数据挖掘第八周周报