欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

综合实训周报八

程序员文章站 2022-03-25 23:32:44
...

目录标题

理论学习

本周了解了数据集中的信息,大致知道每列数据的大致意思和作用,发现大多数信息都丢失严重,并且不是很好填补缺失值,故决定将大多数数据都直接丢弃不用。
此外还上网查找了相关的资料,还是主要学习了如何选择参数,以及在填补缺失值方面有什么比较好的借鉴资料,不过收获较少。

实践学习

本周只是初步的处理数据,还没有进行正式的提交。
主要是删除了一些数据集。

有一些是缺失值太多舍弃。

drop = ['enttypeitem', 'opto', 'empnum', 'compform', 'parnum',
       'exenum', 'opform', 'ptbusscope', 'venind', 'enttypeminu',
       'midpreindcode', 'protype', 'reccap', 'forreccap',
       'forregcap', 'congro']

还有一些是单一值过多。

del base['dom'], base['opscope']
del base['oploc']

使用了lgb模型。

lgb_model = lgb.LGBMRegressor(
    num_leaves=64, reg_alpha=0., reg_lambda=0.01, metric='rmse',
    max_depth=-1, learning_rate=0.05, min_child_samples=10, seed=2020,
    n_estimators=2000, subsample=0.7, colsample_bytree=0.7, subsample_freq=1,
)