欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  IT编程

Python数据分析之缺失值检测与处理详解

程序员文章站 2022-03-09 23:42:39
目录检测缺失值缺失值处理删除缺失值填补缺失值检测缺失值我们先创建一个带有缺失值的数据框(dataframe)。import pandas as pddf = pd.dataframe( {'a'...

检测缺失值

我们先创建一个带有缺失值的数据框(dataframe)。

import pandas as pd

df = pd.dataframe(
    {'a': [none, 2, none, 4],
     'b': [10, none, none, 40], 
     'c': [100, 200, none, 400],
     'd': [none, 2000, 3000, none]})
df

Python数据分析之缺失值检测与处理详解

数值类缺失值在 pandas 中被显示为 nan (not a number)。下面看看如何判断哪些列或者哪些行有缺失值。

1.info()

Python数据分析之缺失值检测与处理详解

info() 返回的结果中,我们只需要观察每一列对应的 non-null count 的数量是否等于 rangeindex(索引范围) 即可。

2.isnull()

isnull() 返回一个与原 dataframe 大小(列数,行数)相同的数据框,行列对应的数据代表着该位置是否为缺失值。

df.isnull()

Python数据分析之缺失值检测与处理详解

使用 sum() 来检测每列中的缺失值的数量。

df.isnull().sum()

Python数据分析之缺失值检测与处理详解

通过 .t 将 dataframe 转置,获取检测每行中缺失值的数量。

df.isnull().t.sum()

Python数据分析之缺失值检测与处理详解

缺失值处理

删除缺失值

如果出现缺失值的行/列重要性不大的话,可以直接使用 dropna() 删除带有缺失值的行/列。

df.dropna(axis=0,
          how='any',
          thresh=none,
          subset=none,
          inplace=false)

参数含义

  • axis:控制行列的参数,0 行,1 列。
  • how:any,如果有 nan,删除该行或列;all,如果所有值都是 nan,删除该行或列。
  • thresh:指定 nan 的数量,当 nan 数量达到才删除。
  • subset:要考虑的数据范围,如:删除缺失行,就用subset指定参考的列,默认是所有列。
  • inplace:是否修改原数据,true直接修改原数据,返回 none,false则返回处理后的数据框。

指定 axis = 1,如果列中有缺失值,则删除该列。

df.dropna(axis=1, how='any')

Python数据分析之缺失值检测与处理详解

由于每列都有缺失值,所以只剩索引。

指定 axis = 0(默认),如果行中有缺失值,则删除该行。

df.dropna(axis=0, how='any')

Python数据分析之缺失值检测与处理详解

以 abc 列为参照,删除这三列都是缺失值的行。

df.dropna(axis=0, subset=['a', 'b', 'c'], how='all')

Python数据分析之缺失值检测与处理详解

保留至少有3个非nan值的行。

df.dropna(axis=0, thresh=3)

Python数据分析之缺失值检测与处理详解

填补缺失值

另一种常见的缺失值处理方式就是使用 fillna() 填补缺失值。

df.fillna(value=none,
          method=none,
          axis=0,
          inplace=false,
          limit=none)

1. 直接指定填充值

df.fillna(666)

Python数据分析之缺失值检测与处理详解

2.用缺失值前/后的值填充

按前一个值填充

当method 值为 ffill 或 pad时,按前一个值进行填充。

当 axis = 0,用缺失值同一列的上一个值填充,如果缺失值在第一行则不填充。

当 axis = 1,用缺失值同一行的上一个值填充,如果缺失值在第一列则不填充。

df.fillna(axis=0, method='pad')

Python数据分析之缺失值检测与处理详解

按后一个值填充

当method 值为 backfill 或 bfill时,按后一个值进行填充。

当 axis = 0,用缺失值同一列的下一个值填充,如果缺失值在最后一行则不填充。

当 axis = 1,用缺失值同一行的下一个值填充,如果缺失值在最后一列则不填充。

df.fillna(axis=0, method='bfill')

Python数据分析之缺失值检测与处理详解

指定相应的方法来填充

df.fillna(df.mean())

Python数据分析之缺失值检测与处理详解

limit限制填充次数

在abcd列上,每列只填充第一个空值。

df.fillna(value=666, axis=1, limit=1)

Python数据分析之缺失值检测与处理详解

以上就是python数据分析之缺失值检测与处理详解的详细内容,更多关于python 缺失值检测处理的资料请关注其它相关文章!