数据挖掘入门-Task01
程序员文章站
2022-06-03 09:42:09
...
这部分主要是对数据进行探索性分析,结合直播内容做的总结(虽然直播的内容我没完全看过,需要回放录像)。
探索性数据分析(Exploratory Data Analysis,简称EDA),摘抄网上的一个中文解释,是指对已有的数据(特别是调查或观察得来的原始数据)在尽量少的先验假定下进行探索,通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法。其方由美国统计学家John Tukey提出的,主要有以下几点目的:
-
EDA的价值主要在于熟悉数据集,了解数据集,对数据集进行验证来确定所获得数据集可以用于接下来的机器学习或者深度学习使用。
-
当了解了数据集之后我们下一步就是要去了解变量间的相互关系以及变量与预测值之间的存在关系。
-
引导数据科学从业者进行数据处理以及特征工程的步骤,使数据集的结构和特征集让接下来的预测问题更加可靠。
-
完成对于数据的探索性分析,并对于数据进行一些图表或者文字总结并打卡。
赛题理解
- 赛题类型:回归、分类、其他
- 隐藏条件:
- 是否包含异常值、缺失、漂移等
- 是否包含多种情况(模型的泛化)
- 工序流程的差异性
赛题背景可能潜藏着一些条件,对于之后数据处理会有很大帮助
数据理解
- 载入数据
这块有很多能学习的数据科学库,例如numpy、pandas、scipy等,还有一些可视化工具,例如matplotlib、seabon。
数据总览
此部分扩充直播中的数据理解
## 1) 通过describe()来熟悉数据的相关统计量
Train_data.describe()
TODO:需要补图
## 2) 通过info()来熟悉数据类型
Train_data.info()
TODO:需要补图
2. 判断异常和缺失
## 1) 查看每列的存在nan情况
Train_data.isnull().sum()
最直观的还是去可视化数据,这样可以很清楚看到数据哪部分有所缺失或者有所异常,才好对症下药。
分析赛题
回归
- 数据分析,特征创建
- 选用模型
代码分析
- 使用pandas读取数据
- 各类指标可以使用sklearn.metrics构建
经验:数据比赛一般常用模型:XGB,LGBM;sklearn是一个非常常见的数据分析包,可以重点学学
baseline讲解
- 比赛流程
a. 先写一个baseline
b. 在baseline基础上进行优化