欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

数据清洗

程序员文章站 2024-03-07 16:58:45
...

什么是数据清洗

数据清洗(Data cleaning)

对数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并提供数据一致性。
数据清洗从名字上也看的出就是把“脏”的“洗掉”,指发现并纠正数据文件中可识别的错误的最后一道程序,包括检查数据一致性,处理无效值和缺失值等。因为数据仓库中的数据是面向某一主题的数据的集合,这些数据从多个业务系统中抽取而来而且包含历史数据,这样就避免不了有的数据是错误数据、有的数据相互之间有冲突,这些错误的或有冲突的数据显然是我们不想要的,称为“脏数据”。我们要按照一定的规则把“脏数据”“洗掉”,这就是数据清洗。而数据清洗的任务是过滤那些不符合要求的数据,将过滤的结果交给业务主管部门,确认是否过滤掉还是由业务单位修正之后再进行抽取。

不符合要求的数据主要是有
①不完整的数据
②错误的数据
③重复的数据

数据清洗是与问卷审核不同,录入后的数据清理一般是由计算机而不是人工完成

确定数据分析的目的
获取数据
清洗数据
探索数据
建模
成品结果交流

脏数据

残缺数据、错误数据、重复数据、不符合规则的数据…

干净的数据

可以直接带入模型的数据
数据清洗

数据清洗流程

数据读写---->数据的探索与描述---->数据简单处理---->重复值处理---->缺失值处理---->异常的处理---->文字字符串和表达式序列处理

数据清洗的常用方法

pd.read_csv(’ 文件路径’)
pd.read_excel(‘文件路径’)
df.info( )
df.describe( )
duplicated( )
drop_duplicates( )
去除数据间的空格
英文字母大小写转换
删除缺失值
均值填补法
随机深林

数据清洗相关包库

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline #jupyter notebook #cell中显示图像

导入数据集

df=pd.read_csv('文件路径',index_col=0)
df.head()

初步探索数据

#查看数据形状
df.shape
#查看数据的结构
df.info()
#快速查看数据的描述性统计信息
df.describe()

简单的数据处理

#列名
df.columns
#去掉空格
col=columns.values
col[0].strip()#去掉第一行的列空格
def.columns = [x.strip()for x in col]
#去掉所有空格
df.columns
#重复值
df.duplicated()#重复值返回true
df.[df.duplicated].sum#有多少个重复值
df.drop_duplicates(inplace=true)#在原数据删除重复值

数据清洗

相关标签: 笔记 大数据

上一篇: [docker]harbor仓库搭建

下一篇: