python数据预处理
程序员文章站
2022-04-14 16:43:34
...
*1. #1.处理缺失数据
##识别出数据中的缺失值:以逗号分隔符(csv)文件为例
import pandas as pd
csv_data=pd.read_csv('./data/mydata.csv')
print(csv_data)
从输出结果我们可以看到,缺失的单元格数据被NaN所取代
`csv_data.isnull().sum()#输出每列缺失值
##删除缺失值
删除行(删除某个样本)
csv_data.dropna(axis=0)
删除列(删除某个特征)
csv_data.dropna(axis=1)
##填补缺失值
虽然删除缺失值使得数据处理非常分方便,但是缺点还是有的,比如因为删除过多而导致分析边的不可靠,删除太多特征列而导致无法获得有价值的信息。所以建议使用插值技术。
##填补缺失的数据
均值插补技术:用整个列的均值插补空缺的值