欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

【Datawhale】零基础入门数据挖掘 - 二手车交易价格预测[task3 特征工程]

程序员文章站 2022-06-30 10:22:38
...

一、特征工程(FS)

大致可分为两部分:预处理与特征选择(Feature selection)部分
【Datawhale】零基础入门数据挖掘 - 二手车交易价格预测[task3 特征工程]

二、task3代码-feature engineering

【Datawhale】[task3]3.3代码示例

三、问题

1、特征构造
# 训练集和测试集利用concat放在一起,方便构造特征? Train_data['train']=1 Test_data['train']=0#这是各自新增加了一列'train'吗?? data=pd.concat([Train_data,Test_data],ignore_index=True) # 忽略索引
2、分桶(箱)的结果??
【Datawhale】零基础入门数据挖掘 - 二手车交易价格预测[task3 特征工程]

四、总结

1、先分享几个Jupyter的常用快捷键,
用起来炒鸡便利:

快捷键 用途
Esc 出cell编辑模式
Y 将单元格切换至code状态
M 将单元格切换至markdown状态
A 在上方插入单元格
B 在下方插入单元格

(能不用鼠标就不用鼠标 嘿嘿嘿
2、pandas.to_datetime

pandas.to_datetime(arg,errors =‘raise’,utc = None,format = None,unit = None )

参数 含义
error 三种取值,‘ignore’, ‘raise’, ‘coerce’,默认为raise。 ‘raise’,则无效的解析将引发异常;‘coerce’,那么无效解析将被设置为NaT;‘ignore’,那么无效的解析将返回输入值

3、通过箱线图删除异常值,值得学习。
4、对数据分箱后,再观察分布
data['kilometer'].plot.hist()
看是否需要做归一化。
5、相关性分析(Task2中的相关性失败的话可以选用这种方式,就是有些麻烦)

print(data['power'].corr(data['price'],method='spearman'))

(戒骄戒躁,踏实前进

五、Ref.

By: 阿泽
PS:复旦大学计算机研究生
知乎:阿泽 https://www.zhihu.com/people/is-aze(主要面向初学者的知识整理)

相关标签: 日常学习