Python可视化查看数据集完整性: missingno库(用于数据分析前的数据检查)

程序员文章站 2022-10-24 14:12:18

数据分析之前首先要保证数据集的质量，missingno库提供了一个灵活易用的可视化工具来观察数据缺失情况，是基于matplotlib的，接受pandas数据源快速开始样例数据使用 NYPD Motor Vehicle Collisions Dataset 数据集. 运行下面命令获得数据pip ins... ......

数据分析之前首先要保证数据集的质量，missingno库提供了一个灵活易用的可视化工具来观察数据缺失情况，是基于matplotlib的，接受pandas数据源

快速开始

样例数据使用 nypd motor vehicle collisions dataset 数据集. 运行下面命令获得数据

pip install quilt
quilt install residentmario/missingno_data

加载数据到内存

from quilt.data.residentmario import missingno_data
collisions = missingno_data.nyc_collision_factors()
collisions = collisions.replace("nan", np.nan)

Python可视化查看数据集完整性: missingno库(用于数据分析前的数据检查)

有几个主要函数来不同方式的可视化展示数据集数据缺失情况

matrix

matrix是使用最多的函数，能快速直观地看到数据集的完整性情况，矩阵显示

import missingno as msno
%matplotlib inline
msno.matrix(collisions.sample(250))

Python可视化查看数据集完整性: missingno库(用于数据分析前的数据检查) 右边的迷你图总结了数据集的总的完整性分布，并标出了完整性最大和最小的点

最多支持50列

可以通过figsize指定图像大小，例如这样msno.matrix(collisions.sample(250),figsize=(12,5))

如果数据是时序的，那可以用freq参数

null_pattern = (np.random.random(1000).reshape((50, 20)) > 0.5).astype(bool)
null_pattern = pd.dataframe(null_pattern).replace({false: none})
msno.matrix(null_pattern.set_index(pd.period_range('1/1/2011', '2/1/2015', freq='m')) , freq='bq')

Python可视化查看数据集完整性: missingno库(用于数据分析前的数据检查)