欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  IT编程

Python 利用数据对比的布尔值对数据进行筛选

程序员文章站 2022-03-27 12:54:09
我们在处理数据时,往往需要删除异常值,异常值有时并不是NAN或者是具体的数字,而是大于某个值的范围,这时,我们可以通过对比结果的布尔值对数据进行筛选;以下,先通过图来说明筛选的重要性:如果没有对数据进行筛选:由于里面有很多异常值,所以我们关心的取值区间就会被异常值遮盖,我们需要的是小于2.5的数据,因此,我们通过筛选,得到的图为:上述两张图所采用的数据是相同的,只不过对数据集通过布尔值进行了筛选,代码如下:df_sum=df_sum[df_sum[4]<=2.5]灵感来自df[df....

我们在处理数据时,往往需要删除异常值,异常值有时并不是NAN或者是具体的数字,而是大于某个值的范围,这时,我们可以通过对比结果的布尔值对数据进行筛选;

以下,先通过图来说明筛选的重要性:
如果没有对数据进行筛选:

Python 利用数据对比的布尔值对数据进行筛选
由于里面有很多异常值,所以我们关心的取值区间就会被异常值遮盖,我们需要的是小于2.5的数据,因此,我们通过筛选,得到的图为:
Python 利用数据对比的布尔值对数据进行筛选
上述两张图所采用的数据是相同的,只不过对数据集通过布尔值进行了筛选,代码如下:

df_sum=df_sum[df_sum[4]<=2.5]

灵感来自df[df.notnull()]是输出数列中不是空值的值,是输出了df[true]的所有值,因此我们可以考虑将所需的筛选条件写入df[ ]来实现数据筛选的功能

data=pd.Series([1,NA,3.5,NA,7])
print(data)
#
0     1.0
1     NA
2     3.5
3     NA
4     7.0
#
print(data[data.notnull()])
#
0     1.0
2     3.5
4     7.0   
#

df_sum是数据集,[ ]中是df_sum[4]<2.5是df_sum表格的列索引为4的列数据要求小于2.5,判断为True,则将该结果赋值给df_sum实现数据筛选功能

本文地址:https://blog.csdn.net/fuck11111100/article/details/107413430