机器学习:数据预处理
程序员文章站
2022-05-02 17:08:01
...
量纲不统一:意思就是当几个数据进行方差运算时,有些数据只是高数据的零头,容易忽略不计。所以需要数据预处理
归一化定义:
代码实现:
from sklearn.preprocessing import MinMaxScaler, StandardScaler
import pandas as pd
def minmax_demo():
"""
归一化
:return:
"""
# 1、获取数据
data = pd.read_csv(r"C:\Users\羊羊\Desktop\机器视觉\学习资料\黑马程序学习资料机器学习\02-代码\dating.txt")
data = data.iloc[:, :3]
#iloc的意思就是直接数字索引[行,列],行取多少到多少,列取多少到多少。这里只取了0.1.2列和所有行
print("data:\n", data)
# 2、实例化一个转换器类
transfer = MinMaxScaler(feature_range=[2, 3])
#范围在2到3进行归一化
# 3、调用fit_transform
data_new = transfer.fit_transform(data)
print("data_new:\n", data_new)
结果:
data:
milage Liters Consumtime
0 40920 8.326976 0.953952
1 14488 7.153469 1.673904
2 26052 1.441871 0.805124
3 75136 13.147394 0.428964
4 38344 1.669788 0.134296
.. ... ... ...
995 11145 3.410627 0.631838
996 68846 9.974715 0.669787
997 26575 10.650102 0.866627
998 48111 9.134528 0.728045
999 43757 7.882601 1.332446
[1000 rows x 3 columns]
data_new:
[[2.44832535 2.39805139 2.56233353]
[2.15873259 2.34195467 2.98724416]
[2.28542943 2.06892523 2.47449629]
...
[2.29115949 2.50910294 2.51079493]
[2.52711097 2.43665451 2.4290048 ]
[2.47940793 2.3768091 2.78571804]]
>>>