Python数据标准化的实例分析
说明
1、将原始数据转换为均值为0,标准差在1范围内。
2、对标准化而言:如果出现异常点,由于有一定数据量,少量异常点对平均值的影响不大,因此方差变化不大。
实例
def stand_demo(): """ 标准化 :return: """ # 1. 获取数据 data = pd.read_csv('dating.txt') data = data.iloc[:, :3] print('data:\n', data) # 2.实例化一个转换器类 transfer = standardscaler() # 3.调用fit_transform() data_new = transfer.fit_transform(data) print('data_new:\n', data_new) return none
知识点扩充:
几种标准化方法:
归一化max-min
min-max标准化方法是对原始数据进行线性变换。设mina和maxa分别为属性a的最小值和最大值,将a的一个原始值x通过min-max标准化映射成在区间[0,1]中的值x',其公式为:
新数据=(原数据-最小值)/(最大值-最小值)
这种方法能使数据归一化到一个区域内,同时不改变原来的数据结构。
实现中心化z-score
这种方法基于原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。将a的原始值x使用z-score标准化到x'。
z-score标准化方法适用于属性a的最大值和最小值未知的情况,或有超出取值范围的离群数据的情况。
新数据=(原数据-均值)/标准差
这种方法适合大多数类型数据,也是很多工具的默认标准化方法。标准化之后的数据是以0为均值,方差为以的正太分布。但是z-score方法是一种中心化方法,会改变原有数据的分布结构,不适合用于对稀疏数据做处理。
很多时候数据集会存在稀疏特征,表现为标准差小,很多元素值为0,最常见的稀疏数据集是用来做协同过滤的数据集,绝大部分数据都是0。对稀疏数据做标准化,不能采用中心化的方式,否则会破坏稀疏数据的结构。
用于稀疏数据的maxabs
最大值绝对值标准化(maxabs)即根据最大值的绝对值进行标准化,假设原转换的数据为x,新数据为x',那么x'=x/|max|,其中max为x锁在列的最大值。
该方法的数据区间为[-1, 1],也不破坏原数据结构的特点,因此也可以用于稀疏数据,一些稀疏矩阵。
针对离群点的robustscaler
有些时候,数据集中存在离群点,用z-score进行标准化,但是结果不理想,因为离群点在标准化后丧失了利群特性。
robustscaler针对离群点做标准化处理,该方法对数据中心化的数据的缩放健壮性有更强的参数控制能力。
到此这篇关于python数据标准化的实例分析的文章就介绍到这了,更多相关python数据标准化是什么内容请搜索以前的文章或继续浏览下面的相关文章希望大家以后多多支持!