欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

机器学习-实验(一)

程序员文章站 2022-07-14 18:50:04
...

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档


前言

看了吴恩达老师的视频,想着要实现里面的算法,把学习过程记录下来。欢迎大家一起交流


提示:以下是本篇文章正文内容,下面案例可供参考

一、数据集

数据集有很多种,由公司内部的数据集,比如百度,阿里等,也有许多数据接口,不过是需要花钱的。还有的就是适合我们学习用的数据集。

  • sklearn
  • kaggle
  • UCI

二、Sklearn-learn数据集的介绍

2.1 sklearn数据集

sklearn.datasrts
load_* 获取小规模数据集
fetch_*获取大规模数据集

数据集的返回值
datasets.base.Bunch(继承自字典)
可以用两种方式获取其中的而数据
1、dict[“key”] = values
2、bunch.key = values

from sklearn.datasets import load_iris

def dataset_demo():
    '''
    sklearn 数据集使用
    '''
    #获取数据集
    iris = load_iris()
    print("鸢尾花数据集\n",iris)
    print("查看数据集描述",iris["DESCR"])
    print("查看特征值名字\n",iris.feature_names,"\n",iris.data,iris.data.shape)
    return None

if __name__ =="__main__":
    dataset_demo()

2.数据集的划分

训练数据集:用于训练、构建模型
测试数据集:在模型检验时候使用,用于评估模型是否有效
测试集一般在20%~30% 左右
sklearn数据集提供给我们划分数据集的API

train_test_split(iris.data, iris.target, test_size=0.2, random_state=22)

返回值分别是训练集特征值、测试集特征值、训练集目标值、测试集目标值