Pandas数据处理基础5

程序员文章站 2022-03-29 08:06:24

...

数据填充

既然提到了数据删减，反之则可能会遇到数据填充的情况。而对于一个给定的数据集而言，我们一般不会乱填数据，而更多的是对缺失值进行填充。

在真实的生产环境中，我们需要处理的数据文件往往没有想象中的那么美好。其中，很大几率会遇到的情况就是缺失值。缺失值主要是指数据丢失的现象，也就是数据集中的某一块数据不存在。除此之外、存在但明显不正确的数据也被归为缺失值一类。例如，在一个时间序列数据集中，某一段数据突然发生了时间流错乱，那么这一小块数据就是毫无意义的，可以被归为缺失值。

检测缺失值

Pandas 为了更方便地检测缺失值，将不同类型数据的缺失均采用 NaN 标记。这里的 NaN 代表 Not a Number，它仅仅是作为一个标记。例外是，在时间序列里，时间戳的丢失采用 NaT 标记。

Pandas 中用于检测缺失值主要用到两个方法，分别是：isna() 和 notna()，故名思意就是「是缺失值」和「不是缺失值」。默认会返回布尔值用于判断。

df = pd.DataFrame(np.random.rand(9, 5), columns=list('ABCDE'))
# 插入 T 列，并打上时间戳
df.insert(value=pd.Timestamp('2017-10-1'), loc=0, column='Time')
# 将 1, 3, 5 列的 1，3，5 行置为缺失值
df.iloc[[1, 3, 5, 7], [0, 2, 4]] = np.nan
# 将 2, 4, 6 列的 2，4，6 行置为缺失值
df.iloc[[2, 4, 6, 8], [1, 3, 5]] = np.nan
df

输出结果：
Pandas数据处理基础5
然后，通过 isna() 或 notna() 中的一个即可确定数据集中的缺失值。

df.isna()

输出结果：
Pandas数据处理基础5
上面已经对缺省值的产生、检测进行了介绍。实际上，面对缺失值一般就是填充和剔除两项操作。填充和清除都是两个极端。如果你感觉有必要保留缺失值所在的列或行，那么就需要对缺失值进行填充。如果没有必要保留，就可以选择清除缺失值。

其中，缺失值剔除的方法 dropna() 已经在上面介绍过了。下面来看一看填充缺失值 fillna() 方法。

首先，我们可以用相同的标量值替换 NaN，比如用 0。

df.fillna(0)

输出结果：
Pandas数据处理基础5
除了直接填充值，我们还可以通过参数，将缺失值前面或者后面的值填充给相应的缺失值。例如使用缺失值前面的值进行填充：

df.fillna(method='pad')

输出结果：
Pandas数据处理基础5
或者是后面的值：

df.fillna(method='bfill')

输出结果：
Pandas数据处理基础5
最后一行由于没有对于的后序值，自然继续存在缺失值。

上面的例子中，我们的缺失值是间隔存在的。那么，如果存在连续的缺失值是怎样的情况呢？试一试。首先，我们将数据集的第 2，4 ，6 列的第 3，5 行也置为缺失值。

df.iloc[[3,5],[1,3,5]]=np.nan
df

输出结果：
Pandas数据处理基础5
然后来正向填充：

df.fillna(method='pad')

输出结果：
Pandas数据处理基础5 可以看到，连续缺失值也是按照前序数值进行填充的，并且完全填充。这里，我们可以通过 limit= 参数设置连续填充的限制数量。

df.fillna(method='pad', limit=1)  # 最多填充一项

输出结果：
Pandas数据处理基础5
除了上面的填充方式，还可以通过 Pandas 自带的求平均值方法等来填充特定列或行。举个例子：

df.fillna(df.mean()['C':'E']) #对 C 列和 E 列用平均值填充

输出结果：
Pandas数据处理基础5

Pandas数据处理基础5

数据填充

检测缺失值

整理总结 python 中时间日期类数据处理与类型转换(含 pandas)

html上传文件到服务器（html5零基础入门教程）

Pandas Shift函数的基础入门学习笔记

html上传文件到服务器（html5零基础入门教程）

html5基础标签(html5视频标签 html5新标签用法)

ASP.NET MVC5基础 – MVC文件架构

ASP.NET MVC5基础-控制器(Controller)详解

HTML5移动开发学习笔记之Canvas基础

html单选框样式（html5零基础入门教程）

Python基础——5模块