数据集的预处理

程序员文章站 2022-06-01 16:25:54

...

python进行机器学习的第一步——数据预处理

写文章的目的是为了巩固所学，和方便回顾查找。如有讲错的地方，欢迎指出，谢谢。

载入数据：（这里使用了泰坦尼克的数据集）

import pandas as pd
dataset = pd.read_csv('train.csv')
x = dataset.iloc[:,[2,4,5]].values  #采取了数据集中的舱等级，性别，年龄作为演示特征值
y = dataset.iloc[:,1].values  #存活为标记（因变量）
print(x)
print(y)

输出结果发现x存在部分值的缺失以及非数值型的值。(python中缺失值用nan标记）

#x的输出结果
[[3 'male' 22.0]
 [1 'female' 38.0]
 [3 'female' 26.0]
 ...
 [3 'female' nan]
 [1 'male' 26.0]
 [3 'male' 32.0]]

对缺失数值进行处理
① | 第一种方法是直接删除缺失值所在的样本。这个方法的缺陷是对于数据集比较小的，删除样本可能会对结果造成影响

② | 使用已有的方法进行处理。

from sklearn.preprocessing import Imputer
imputer = Imputer(missing_values='NaN',strategy = 'mean',axis = 0)
x[:,[2]] = imputer.fit_transform(x[:,[2]])
print(x)

输出：

#可以看到age的缺失值被策略进行了填充
[[3 'male' 22.0]
 [1 'female' 38.0]
 [3 'female' 26.0]
 ...
 [3 'female' 29.69911764705882]
 [1 'male' 26.0]
 [3 'male' 32.0]]

关于Imputer参数：
1. missing_value –>标记哪些是缺失值，匹配作用位置
2. strategy –>处理的策略：mean 是取平均值 | median是取中位数 | most_frequent是取出现频率最高进行替换
3. ：axis 是策略作用的范围，0表示在缺失那一列应用策略，然后取代，1则是在行应用策略

数据分类:
在进行机器学习的过程中实际是运用各种方程式对数据进行运算，而数据集中的 舱等级，性别表示的是不同类别，需要进行虚拟编码转化成有意义的数值。
船舱等级有三等，1，2，3，性别只有male或者female

性别只有2个取值，可以使用LabelEncoder处理

#对性别一列进行虚拟编号，区分类别，转化
from sklearn.preprocessing import LabelEncoder
labelencoder = LabelEncoder()
x[:,1] = labelencoder.fit_transform(x[:,1])
print(x)

输出：

[[3 1 22.0]
 [1 0 38.0]
 [3 0 26.0]
 ...
 [3 0 29.69911764705882]
 [1 1 26.0]
 [3 1 32.0]]

船舱等级有三个（两个以上），可以使用OneHotEncoder处理

from sklearn.preprocessing import OneHotEncoder
onehotencoder = OneHotEncoder(categorical_features=[0])
x = onehotencoder.fit_transform(x).toarray()
print(x)

输出:

[[ 0.          0.          1.          1.         22.        ]
 [ 1.          0.          0.          0.         38.        ]
 [ 0.          0.          1.          0.         26.        ]
 ...
 [ 0.          0.          1.          0.         29.69911765]
 [ 1.          0.          0.          1.         26.        ]
 [ 0.          0.          1.          1.         32.        ]]

特征缩放：
同是特征，特征的取值如果差别很大，不加处理直接训练可能会因此导致比较属性值较小的特征对训练结果做出的贡献被忽略，导致效果不好

很多算法都用到了欧式距离来描述数据间的关系
数据集的预处理
例如：一个人的年龄跟年薪之间，差别很大
A{‘age’ : 22,’Annual salary’ ：200000} ， B{‘age’ : 35,’Annual salary’ ：600000}
所得的欧式距离很大，几乎可以忽略年龄这一特征做出的贡献，这是我们需要避免的，因此需要进行特征缩放，是他们在同一个数量级

from sklearn.preprocessing import StandardScaler
standardscaler = StandardScaler()
x = standardscaler.fit_transform(x)

相关标签：数据预处理机器学习

上一篇：禁止 input 文本输入框自动补全历史输入记录

下一篇： input输入框禁止自动补全和下拉提示

数据集的预处理

python进行机器学习的第一步——数据预处理

写文章的目的是为了巩固所学，和方便回顾查找。如有讲错的地方，欢迎指出，谢谢。

MySql数据库备份的几种方式

Oracle数据库需要打补丁到最低的Patchset/PSU/RU翻译描述

大数据是新的石油谁采到了第一桶

大数据与电视媒体的未来

杨学山：大数据真正落地还有很长的路要走

解决mysql本地数据库不能用ip访问的问题

万能的大数据技术不是最精准的决策标尺

大数据时代“初级阶段”：一场投入产出比的风险博弈

解决vue 路由变化页面数据不刷新的问题

Excel折线图横坐标设置方法以年份和销售量的数据为例

数据集的预处理

python进行机器学习的第一步——数据预处理

写文章的目的是为了巩固所学，和方便回顾查找。如有讲错的地方，欢迎指出，谢谢。

MySql数据库备份的几种方式

Oracle数据库需要打补丁到最低的Patchset/PSU/RU翻译描述

大数据是新的石油 谁采到了第一桶

大数据与电视媒体的未来

杨学山：大数据真正落地还有很长的路要走

解决mysql本地数据库不能用ip访问的问题

万能的大数据 技术不是最精准的决策标尺

大数据时代“初级阶段”：一场投入产出比的风险博弈

解决vue 路由变化页面数据不刷新的问题

Excel折线图横坐标设置方法以年份和销售量的数据为例

大数据是新的石油谁采到了第一桶

万能的大数据技术不是最精准的决策标尺