数据清洗

程序员文章站 2024-03-07 16:58:45

...

什么是数据清洗

数据清洗(Data cleaning)

对数据进行重新审查和校验的过程，目的在于删除重复信息、纠正存在的错误，并提供数据一致性。
数据清洗从名字上也看的出就是把“脏”的“洗掉”，指发现并纠正数据文件中可识别的错误的最后一道程序，包括检查数据一致性，处理无效值和缺失值等。因为数据仓库中的数据是面向某一主题的数据的集合，这些数据从多个业务系统中抽取而来而且包含历史数据，这样就避免不了有的数据是错误数据、有的数据相互之间有冲突，这些错误的或有冲突的数据显然是我们不想要的，称为“脏数据”。我们要按照一定的规则把“脏数据”“洗掉”，这就是数据清洗。而数据清洗的任务是过滤那些不符合要求的数据，将过滤的结果交给业务主管部门，确认是否过滤掉还是由业务单位修正之后再进行抽取。

不符合要求的数据主要是有
①不完整的数据
②错误的数据
③重复的数据

数据清洗是与问卷审核不同，录入后的数据清理一般是由计算机而不是人工完成

确定数据分析的目的
获取数据
清洗数据
探索数据
建模
成品结果交流

脏数据

残缺数据、错误数据、重复数据、不符合规则的数据…

干净的数据

可以直接带入模型的数据
数据清洗

数据清洗流程

数据读写---->数据的探索与描述---->数据简单处理---->重复值处理---->缺失值处理---->异常的处理---->文字字符串和表达式序列处理

数据清洗的常用方法

pd.read_csv(’ 文件路径’)
pd.read_excel(‘文件路径’)
df.info( )
df.describe( )
duplicated( )
drop_duplicates( )
去除数据间的空格
英文字母大小写转换
删除缺失值
均值填补法
随机深林

数据清洗相关包库

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline #jupyter notebook #cell中显示图像

导入数据集

df=pd.read_csv('文件路径'，index_col=0)
df.head()

初步探索数据

#查看数据形状
df.shape
#查看数据的结构
df.info()
#快速查看数据的描述性统计信息
df.describe()

简单的数据处理

#列名
df.columns
#去掉空格
col=columns.values
col[0].strip()#去掉第一行的列空格
def.columns = [x.strip()for x in col]
#去掉所有空格
df.columns
#重复值
df.duplicated()#重复值返回true
df.[df.duplicated].sum#有多少个重复值
df.drop_duplicates(inplace=true)#在原数据删除重复值

数据清洗

数据清洗

什么是数据清洗

数据清洗(Data cleaning)

脏数据

干净的数据

数据清洗流程

数据清洗的常用方法

数据清洗相关包库

导入数据集

初步探索数据

简单的数据处理

python数据统计与可视化(Pandas库)统计pm2.5

CSV格式数据清洗

DW-NLP-Task2 数据读取与数据分析

2020-11-23 数据科学库(6) pandas时间序列，911、pm2.5数据处理

初学数据挖掘——数据探索（六）：数据特征分析之相关性分析

Spring+MyBatis多数据源配置实现示例

pandas 数据统计

制造业工业软件&R语言数据挖掘之聚类算法探索

B站吴恩达深度学习视频笔记（11）——多样本梯度下降和向量化处理多批次数据

数据清洗