sklearn——数据预处理
程序员文章站
2022-07-14 11:50:59
...
数据挖掘流程:http://www.saedsayad.com/data_mining_map.htm
一、数据预处理简介
数据预处理:将未加工数据转换成适合分析的形式,包括多数据源的数据融合、数据清洗、维规约等等
为什么要进行预处理(数据通常存在以下问题)
名称 | 描 述 | 原 因 |
---|---|---|
杂乱性 | 数据缺乏统一标准和定义,数据结构有较大的差异 | 原始数据一般是从各个实际应用系统中获取的(多种数据库、多种文件系统),而这些系统的格式并不相同。 |
重复性 | 指对于同一个客观事物在数据库中存在其两个或两个以上完全相同的描述 | 由于业务的交叉和重叠,几乎所有系统中都存在数据的重复和信息的冗余现象。 |
不完整性 | 大量的模糊信息,某些数据设置的随机性,数据的缺失等。 | 由于实际系统设计时存在的缺陷以及一些使用过程中人为因素所造成。 |
二、数据预处理的功能
2.1 数据集成(Data Integration)
把不同来源、格式、特点性质的数据在逻辑上或物理上有机地集中,从而为企业提供全面的数据共享。
例如:
统一原始数据的矛盾之处(如命名、结构、单位、含义)
2.2 数据变换( Bata Trartsformstian )
通常用多维数据立方(Data Cube)组织数据,采用数据仓库中的切换、旋转和投影技术,把数据空间按照
不同的层次、粒度和维度进行抽象和聚集(即数据泛化),从而生成在不同抽象级别上的数据集。
数据变换一般方法
名称 | 描 述 | 原 因 |
---|---|---|
平滑 | 去掉数据中的噪音。 | 常用包括分箱、聚类和回归。 |
聚集 | 对数据进行汇总和聚集。这一步用 来为多粒度数据分析构造数据方。 | 聚集日销售数据,计算月和年销售额 |
数据泛化 | 使用概念分层,用高层次概念替换 低层次“原始”数据 | 分类,如street,泛化为较高层的概念, 如city ,country。 数值,如age,映射到较高层概念,如 young, middle-age,senior。 |
规范化 | 将属性数据按比例缩放,使之落入 一个小的特定区间 | 如将数据比例缩放到[-1.0 ,1.0] 或 [0.0 ,1.0]。 |
属性构造 (特征构造) | 构造新的属性并添加到属性集中, 以帮助挖掘过程。 | 平方根转换,平方转换等。 |
2.3 数据清洗(Data Cleaning )
噪声:被测量的变量的随机误差或者方差(一般指错误的数据)
离群点:数据集中包含一些数据对象,他们与数据的一般行为或模型不一致。(正常值,但偏离大多数数据)
问题 | 来源 |
---|---|
缺失值 | 由于人为或系统原因遗漏的值。 |
异常值 | 通常称为离群点(Outlier),属于观测量,既有可能是真实数据产生的,也有可能是噪声带来的,但和大部分观测量之间有明显不同的观测值。 |
去重复 | 对于同一个客观事物在数据库中存在其两个或两个以上完全相同的物理描述 |
噪音 | 噪音包括错误值或偏离期望的孤立点值, |
ETL方法 | 即抽取(extract)、转换(transform)、加载(load) |
检测原理 | 检测方法 | 缺点 |
---|---|---|
基于统计检测 | 假设给定的数据集服从某一随机分布(如正态分布等),用不一致性测试识别异常。 | 不适合多维空间,预先要知道样本空间中数据集的分布特征。 |
基于密度检测 | 通过基于局部离群点检测就能在样本空间数据分布不均匀的情况下也可以准确发现。 | / |
基于距离检测 | 如果样本空间D至少有N个样本点与对象O的距离大于d,那么对象O是以至少N个样本点和距离d为参数的基于距离的离群点。 | 参数的选取非常敏感,受时间复杂度限制,不适用于高维稀疏数据集。 |
基于偏差检测 | 检查一组对象的主要特征来识别离群点,那些些不符合这种特征的数据对象被判定为离群点。 | 实际应用少,在高维数据集中,很难获得该数据集的主要特征。 |
2.4 数据简化(Data simplify)
也称为数据“规约”,指在尽可能保持数据原貌的前提下,最大限度地精简数据量,它小得多,
但是保持原始数据的完整性。
▶ 维归约(dimensionlity)
也称“降维”,减少要考虑的变量及属性的个数。方法包括小波变换和主成分分析,他们把原始数据变换或
投影到较小的空间。另外属性子集选择也是一种维归约方法,其中不相关、弱相关或冗余的属性或维被检测和删除。
▶ 数量归约(numerosity reduction)
用替代的、较小的数据表示形式替换原始数据
▶ 数据压缩
使用变换,以便得到原始数据的归约或“压缩”表示。如果原始数据可以从压缩后的数据重构,而不损失信息,
则该数据归约称为无损的。反之,称之为有损的。维归约和数量归约也可以视为某种形式的数据压缩。
上一篇: sklearn浅析(一)——sklearn的组织结构
下一篇: VS code设置背景图