数据清洗
程序员文章站
2024-03-07 16:58:45
...
什么是数据清洗
数据清洗(Data cleaning)
对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。
数据清洗从名字上也看的出就是把“脏”的“洗掉”,指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。因为数据仓库中的数据是面向某一主题的数据的集合,这些数据从多个业务系统中抽取而来而且包含历史数据,这样就避免不了有的数据是错误数据、有的数据相互之间有冲突,这些错误的或有冲突的数据显然是我们不想要的,称为“脏数据”。我们要按照一定的规则把“脏数据”“洗掉”,这就是数据清洗。而数据清洗的任务是过滤那些不符合要求的数据,将过滤的结果交给业务主管部门,确认是否过滤掉还是由业务单位修正之后再进行抽取。
不符合要求的数据主要是有
①不完整的数据
②错误的数据
③重复的数据
数据清洗是与问卷审核不同,录入后的数据清理一般是由计算机而不是人工完成
确定数据分析的目的 |
---|
获取数据 |
清洗数据 |
探索数据 |
建模 |
成品结果交流 |
脏数据
残缺数据、错误数据、重复数据、不符合规则的数据…
干净的数据
可以直接带入模型的数据
数据清洗流程
数据读写---->数据的探索与描述---->数据简单处理---->重复值处理---->缺失值处理---->异常的处理---->文字字符串和表达式序列处理
数据清洗的常用方法
pd.read_csv(’ 文件路径’)
pd.read_excel(‘文件路径’)
df.info( )
df.describe( )
duplicated( )
drop_duplicates( )
去除数据间的空格
英文字母大小写转换
删除缺失值
均值填补法
随机深林
数据清洗相关包库
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline #jupyter notebook #cell中显示图像
导入数据集
df=pd.read_csv('文件路径',index_col=0)
df.head()
初步探索数据
#查看数据形状
df.shape
#查看数据的结构
df.info()
#快速查看数据的描述性统计信息
df.describe()
简单的数据处理
#列名
df.columns
#去掉空格
col=columns.values
col[0].strip()#去掉第一行的列空格
def.columns = [x.strip()for x in col]
#去掉所有空格
df.columns
#重复值
df.duplicated()#重复值返回true
df.[df.duplicated].sum#有多少个重复值
df.drop_duplicates(inplace=true)#在原数据删除重复值
上一篇: [docker]harbor仓库搭建