数据探索之数据分析
1.1 数据质量分析
数据质量分析的主要任务是检查原始数据中是否存在脏数据,常见的脏数据有:
-
缺失值
-
异常值
-
不一致的值
-
重复数据以及含有特殊符号的数据
1.1.1 缺失值分析
(1) 缺失值产生的原因
-
有些信息无法获取,或者获取信息的代价太大
-
信息遗漏
-
属性值不存在
(2) 缺失值的影响
-
数据挖掘建模将会丢失大量的有用信息
-
数据挖掘建模表现出的不确定性更加显著
-
包含空值的数据会使建模过程陷入混乱
(3) 缺失值的分析
使用简单的统计分析,可以得到含有缺失值的属性的个数,以及每个属性的未缺失数、缺失数与缺失率等
1.1.2 异常值分析
异常值分析是检验数据是否有录入错误以及含有不合理的数据,异常值的分析也成为离群点分析。
(1) 简单统计量分析
即统计量的范围是否合理
(2) 3σ原则
如果数据服从正态分布,再3σ原则下,异常值被定义为一组测定值中与平均值的偏差超过3倍标准差的值,在正态分布的假设下,距离平均值3σ之外的值出现的概率为P<=0.003,属于极个别的小概率事件。
(3) 箱型图提供了识别异常值的一个标准:异常值通常被定义为小于Ql - 1.5 IQR 或大于Qu + 1.5 IQR 的值。其中Ql为下四分位数,Qu为上四分位数,IQR为四分位数间距,其间包含了全部观察值的一半。
1.1.3 一致性分析
数据不一致性是指数据的矛盾性、不相容性。在数据挖掘过程中,不一致数据的产生主要发生在数据集成的过程中,这可能是由于被挖掘数据是来自于从不同的数据源、对于重复存放的数据未能进行一致性更新造成的。(未进行同时更新)
1.2 数据特征分析
1.2.1 分布分析
1.定量数据的分布分析
-
求极差
-
决定组距与组数
-
决定分点
-
列出频率分布表
-
绘制频率分布直方图
2.定性数据的分布分析
通过饼图(扇形图)和条形图来描述定性变量的分布。
### 1.2.2 对比分析
### 1.2.3统计量分析
集中趋势:均值或者中位数
离中趋势:标准差(方差)、四分位间距
1.2.4周期性分析
1.2.5贡献度分析
1.2.6 相关性分析
1.直接绘制散点图
2.绘制散点图矩阵
3.计算相关系数(pearson系数、Spearman系数)
1.3 主要数据探索函数
1. python主要用于数据探索的库主要是 pandas 和 Matplotlib
-
sum
-
mean
-
var 计算数据样本的方差
-
std() 计算数据样本的标准差
-
corr 计算数据样本的pearson 相关系数 D.corr(method=‘pearson’)
-
cov 计算数据样本的协方差矩阵
-
describe 直接给出样本数据的一些基本的统计量,如均值、中位数等
2. pandas 累积统计特征函数
-
累积计算(cum)
-
滚动计算(pd.rolling_) (按列计算)
3. 统计作图函数
(1) plot() :绘制线性二维图、折线图 格式为:plt.plot(x,y,S)
(2) pie() : 绘制饼形图 格式为: plt.pie(size)
(3) hist() : 绘制直方图 格式为: plt.hist(x,y)
(4) boxplot() : 绘制样本数据的箱型图 格式为: D.boxplot()
(5) plot(logy = True) 绘制y轴的对数图形 格式为 :D.plot(logy = True)
(6) plot(yerr = error) 绘制误差条形图 格式为:D.plot(yerr = error)
导入pandas相关作图函数库的方法为: import matplotlib.pyplot as plt
上一篇: 多线程截取视频帧