欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

数据探索之数据分析

程序员文章站 2022-03-26 08:12:10
...

1.1 数据质量分析

​ 数据质量分析的主要任务是检查原始数据中是否存在脏数据,常见的脏数据有:

  1. 缺失值

  2. 异常值

  3. 不一致的值

  4. 重复数据以及含有特殊符号的数据

1.1.1 缺失值分析

​ (1) 缺失值产生的原因

  1. 有些信息无法获取,或者获取信息的代价太大

  2. 信息遗漏

  3. 属性值不存在

​ (2) 缺失值的影响

  1. 数据挖掘建模将会丢失大量的有用信息

  2. 数据挖掘建模表现出的不确定性更加显著

  3. 包含空值的数据会使建模过程陷入混乱

​ (3) 缺失值的分析

使用简单的统计分析,可以得到含有缺失值的属性的个数,以及每个属性的未缺失数、缺失数与缺失率等

1.1.2 异常值分析

​ 异常值分析是检验数据是否有录入错误以及含有不合理的数据,异常值的分析也成为离群点分析。

(1) 简单统计量分析

即统计量的范围是否合理

(2) 3σ原则

​ 如果数据服从正态分布,再3σ原则下,异常值被定义为一组测定值中与平均值的偏差超过3倍标准差的值,在正态分布的假设下,距离平均值3σ之外的值出现的概率为P<=0.003,属于极个别的小概率事件。

(3) 箱型图提供了识别异常值的一个标准:异常值通常被定义为小于Ql - 1.5 IQR 或大于Qu + 1.5 IQR 的值。其中Ql为下四分位数,Qu为上四分位数,IQR为四分位数间距,其间包含了全部观察值的一半。

1.1.3 一致性分析

​ 数据不一致性是指数据的矛盾性、不相容性。在数据挖掘过程中,不一致数据的产生主要发生在数据集成的过程中,这可能是由于被挖掘数据是来自于从不同的数据源、对于重复存放的数据未能进行一致性更新造成的。(未进行同时更新)

1.2 数据特征分析

1.2.1 分布分析

​ 1.定量数据的分布分析

  1. 求极差

  2. 决定组距与组数

  3. 决定分点

  4. 列出频率分布表

  5. 绘制频率分布直方图

​ 2.定性数据的分布分析

通过饼图(扇形图)和条形图来描述定性变量的分布。

### 1.2.2 对比分析

### 1.2.3统计量分析

集中趋势:均值或者中位数

离中趋势:标准差(方差)、四分位间距

1.2.4周期性分析

1.2.5贡献度分析

1.2.6 相关性分析

​ 1.直接绘制散点图

​ 2.绘制散点图矩阵

​ 3.计算相关系数(pearson系数、Spearman系数)

1.3 主要数据探索函数

1. python主要用于数据探索的库主要是 pandasMatplotlib

  1. sum

  2. mean

  3. var 计算数据样本的方差

  4. std() 计算数据样本的标准差

  5. corr 计算数据样本的pearson 相关系数 D.corr(method=‘pearson’)

  6. cov 计算数据样本的协方差矩阵

  7. describe 直接给出样本数据的一些基本的统计量,如均值、中位数等

2. pandas 累积统计特征函数

  1. 累积计算(cum)

  2. 滚动计算(pd.rolling_) (按列计算)

3. 统计作图函数

(1) plot() :绘制线性二维图、折线图 格式为:plt.plot(x,y,S)

(2) pie() : 绘制饼形图 格式为: plt.pie(size)

(3) hist() : 绘制直方图 格式为: plt.hist(x,y)

(4) boxplot() : 绘制样本数据的箱型图 格式为: D.boxplot()

(5) plot(logy = True) 绘制y轴的对数图形 格式为 :D.plot(logy = True)

(6) plot(yerr = error) 绘制误差条形图 格式为:D.plot(yerr = error)

导入pandas相关作图函数库的方法为: import matplotlib.pyplot as plt