Sklearn 中 OneHotEncoder 解析

程序员文章站 2022-07-13 08:07:52

...

将离散型特征使用one-hot编码，会让特征之间的距离计算更加合理。离散特征进行one-hot编码后，编码后的特征，其实每一维度的特征都可以看做是连续的特征。就可以跟对连续型特征的归一化方法一样，对每一维特征进行归一化。

from sklearn.preprocessing import OneHotEncode

参数：

OneHotEncoder(n_values=’auto’,  categorical_features=’all’,  dtype=<class ‘numpy.float64’>,  sparse=True,  handle_unknown=’error’)

handle_unknown是一个比较有用的参数，默认是"error"，指定为"ignore”更好，这个参数的目的是数据在转化为one-hot编码时，如果遇到一个属性值没有事先指定，程序应该怎么办？如果是error的话，程序就报错停止了，其实不方便处理数据，反而是ignore更好，程序可以继续执行
一个例子：

enc = OneHotEncoder()

enc.fit([["男", 0, 3], ["男", 1, 0], ["女", 2, 1], ["女", 0, 2]])

首先训练一下数据集，提取每一列的属性种类：

print(enc.categories_)
[array(['女', '男'], dtype=object), array([0, 1, 2], dtype=object), array([0, 1, 2, 3], dtype=object)]

一个例子：

from sklearn.preprocessing import  OneHotEncoder

enc = OneHotEncoder()
enc.fit([[0, 0, 3],
         [1, 1, 0],
         [0, 2, 1],
         [1, 0, 2]])

# 如果不加 toarray() 的话，输出的是稀疏的存储格式，即索引加值的形式，也可以通过参数指定 sparse = False 来达到同样的效果
ans = enc.transform([[0, 1, 3]]).toarray()  
print(ans) # 输出 [[ 1.  0.  0.  1.  0.  0.  0.  0.  1.]]

下面解释输出结果的意思。对于输入数组，这依旧是把每一行当作一个样本，每一列当作一个特征，

我们先来看第一个特征，即第一列 [0,1,0,1]

，也就是说它有两个取值 0 或者 1，那么 one-hot 就会使用两位来表示这个特征，[1,0] 表示 0， [0,1] 表示 1，在上例输出结果中的前两位 [1,0...]

也就是表示该特征为 0
第二个特征，第二列 [0,1,2,0]
，它有三种值，那么 one-hot 就会使用三位来表示这个特征，[1,0,0] 表示 0， [0,1,0] 表示 1，[0,0,1] 表示 2，在上例输出结果中的第三位到第六位 [...0,1,0,0...]
也就是表示该特征为 1
第二个特征，第三列 [3,0,1,2]
，它有四种值，那么 one-hot 就会使用四位来表示这个特征，[1,0,0,0] 表示 0， [0,1,0,0] 表示 1，[0,0,1,0] 表示 2，[0,0,0,1] 表示 3，在上例输出结果中的最后四位 [...0,0,0,1] 也就是表示该特征为 3
虽然训练样本中的数值仅仅代表类别，但是也必须使用数值格式的数据，如果使用字符串格式的数据会报错。

n_values=’auto’，表示每个特征使用几维的数值由数据集自动推断，即几种类别就使用几位来表示。

Sklearn 中 OneHotEncoder 解析

from sklearn.preprocessing import OneHotEncode

解析:php调用MsSQL存储过程使用内置RETVAL获取过程中的return值

vue中el解析简单介绍

jQuery中关于ScrollableGridPlugin.js（固定表头）插件的使用逐步解析

解析CentOS 7中系统文件与目录管理

Vue中的基础过渡动画及实现原理解析

解析PDU在机房管理中的作用

JAVA中4种解析XML文件的方法

Mybatis中的动态SQL语句解析

解析SQL2005中如何使用CLR函数获取行号

C# 中yield关键字解析