欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

机器学习-特征工程-数据集

程序员文章站 2024-01-24 16:02:34
...

1 数据集

学习目标:知道数据集分为训练集和测试集

                  会使用sklearn

1.1 可用数据集

机器学习-特征工程-数据集

机器学习-特征工程-数据集

机器学习-特征工程-数据集

1.2 scikitLean工具

简介

机器学习-特征工程-数据集

安装命令

scikit-learn 是一个强大的机器学习库。它的安装依赖于:
Scikit-learn requires:
Python (>= 2.6 or >= 3.3),
NumPy (>= 1.6.1),
SciPy (>= 0.9).

pip install --upgrade scikit-learn

pip install -U scikit-learn

 包含内容

机器学习-特征工程-数据集

1.3  ScikitLearn数据集

1.3.1 scikit-learn数据集API介绍

机器学习-特征工程-数据集

1.3.2 sklearn小数据集

机器学习-特征工程-数据集

机器学习-特征工程-数据集

1.3.3 sklearn 大数据集

机器学习-特征工程-数据集

1.3.4 sklearn数据集的使用

机器学习-特征工程-数据集

机器学习-特征工程-数据集

代码


from sklearn.datasets import load_iris
def datasets_demo():
    """sklearn数据集使用
       ::return
    """
    #获取数据集
    iris=load_iris()
    print("鸢尾花数据集:\n",iris)

    print("查看特征值:\n",iris["data"])
    print("查看目标值值:\n", iris.target)
    print("查看特征名字:\n", iris["feature_names"])
    print("查看目标值名字:\n", iris["target_names"])
    print("查看数据集描述:\n", iris.DESCR)
    return None

if __name__ == '__main__':

    datasets_demo()

1.3.5 数据集的划分

机器学习-特征工程-数据集

  机器学习-特征工程-数据集

 


from sklearn.datasets import load_iris
from sklearn.model_selection import  train_test_split
def datasets_demo():
    """sklearn数据集使用
       ::return
    """
    #获取数据集
    iris=load_iris()
    print("鸢尾花数据集:\n",iris)

    print("查看特征值:\n",iris["data"])
    print("查看目标值值:\n", iris.target)
    print("查看特征名字:\n", iris["feature_names"])
    print("查看目标值名字:\n", iris["target_names"])
    print("查看数据集描述:\n", iris.DESCR)
    #数据集划分
    x_train,x_test,y_train,y_test=train_test_split(iris.data,iris.target,test_size=20,random_state=22)
    print("训练集的特征值:\n",x_train,x_train.shape)
    return None

if __name__ == '__main__':

    datasets_demo()