【Datawhale】零基础入门数据挖掘 - 二手车交易价格预测[task3 特征工程]
程序员文章站
2022-06-30 10:22:38
...
一、特征工程(FS)
大致可分为两部分:预处理与特征选择(Feature selection)部分
二、task3代码-feature engineering
三、问题
1、特征构造# 训练集和测试集利用concat放在一起,方便构造特征? Train_data['train']=1 Test_data['train']=0#这是各自新增加了一列'train'吗?? data=pd.concat([Train_data,Test_data],ignore_index=True) # 忽略索引
2、分桶(箱)的结果??
四、总结
1、先分享几个Jupyter的常用快捷键,
用起来炒鸡便利:
快捷键 | 用途 |
---|---|
Esc | 出cell编辑模式 |
Y | 将单元格切换至code状态 |
M | 将单元格切换至markdown状态 |
A | 在上方插入单元格 |
B | 在下方插入单元格 |
(能不用鼠标就不用鼠标 嘿嘿嘿
2、pandas.to_datetime
pandas.to_datetime(arg,errors =‘raise’,utc = None,format = None,unit = None )
参数 含义 error 三种取值,‘ignore’, ‘raise’, ‘coerce’,默认为raise。 ‘raise’,则无效的解析将引发异常;‘coerce’,那么无效解析将被设置为NaT;‘ignore’,那么无效的解析将返回输入值
3、通过箱线图删除异常值,值得学习。
4、对数据分箱后,再观察分布data['kilometer'].plot.hist()
,
看是否需要做归一化。
5、相关性分析(Task2中的相关性失败的话可以选用这种方式,就是有些麻烦)
print(data['power'].corr(data['price'],method='spearman'))
(戒骄戒躁,踏实前进
五、Ref.
By: 阿泽
PS:复旦大学计算机研究生
知乎:阿泽 https://www.zhihu.com/people/is-aze(主要面向初学者的知识整理)