欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  IT编程

Python 机器学习工具包SKlearn的安装与使用

程序员文章站 2022-06-25 10:54:41
1、sklearn 是什么  sklearn(全称 scikit-learn),是基于 python 语言的机器学习工具包。  sklearn 主要用python编写,建立在 numpy、scipy、...

1、sklearn 是什么

  sklearn(全称 scikit-learn),是基于 python 语言的机器学习工具包。

  sklearn 主要用python编写,建立在 numpy、scipy、pandas 和 matplotlib 的基础上,也用 cython编写了一些核心算法来提高性能。

  sklearn 包括六大功能模块:

  • 分类(classification):识别样本属于哪个类别,常用算法有 svm(支持向量机)、nearest neighbors(最近邻)、random forest(随机森林)
  • 回归(regression):预测与对象相关联的连续值属性,常用算法有 svr(支持向量机)、 ridge regression(岭回归)、lasso
  • 聚类(clustering):对样本进行无监督的自动分类,常用算法有 k-means(k均值)、spectral clustering(特征聚类)、mean-shift(均值漂移)
  • 数据降维(dimensionality reduction):减少相关变量维数,常用算法有 pca(主成分分析)、feature selection(特征选择)、non-negative matrix factorization(非负矩阵分解)
  • 模型选择(model selection):比较,验证,选择参数和模型,常用模块有 grid search(网格搜索)、cross validation(交叉验证)、 metrics(度量)
  • 数据处理 (preprocessing):特征提取和归一化,常用模块有 preprocessing(预处理),feature extraction(特征提取)
  • 这六个功能模块涉及 4类算法,分类、回归 属于监督学习,聚类属于非监督学习。

Python 机器学习工具包SKlearn的安装与使用

  官网地址:

  官方文档中文版:

  内置数据集:

2、sklearn 的安装

  sklearn 的安装要求:python 3.5 以上版本,需要安装 numpy、scipy、pandas 工具包的支持,部分内容需要使用 matplotlib、joblib 工具包。

  pip 安装命令:  

pip3 install -u scikit-learn
pip3 install -u scikit-learn -i https://pypi.douban.com/simple

  注意 sklearn 建议安装 numpy+mkl,可以在网址 找到你需要的numpy+mkl版本,下载后 pip3安装:

pip install numpy-1.11.1+mkl-cp27-cp27m-win_amd64.whl

3、sklearn 内置数据集

  sklearn 内置了一些标准数据集可以用于练习和测试,都是经常被引用的经典问题,数据网址:  
  sklearn 标准数据集主要包括:

测试问题数据集

  • 波士顿房价:boston house prices dataset
  • 鸢尾花问题:iris plants dataset
  • 糖尿病数据:diabetes dataset
  • 手写数字的识别:optical recognition of handwritten digits dataset
  • 体能训练:linnerrud dataset
  • 葡萄酒鉴别:wine recognition dataset
  • 威斯康星州癌症诊断:reast cancer wisconsin (diagnostic) dataset

实际问题数据集

  • 人脸数据:the olivetti faces dataset
  • 20个新闻文本数据:the 20 newsgroups text dataset
  • 标记的人脸数据:the labeled faces in the wild face recognition dataset
  • 森林覆盖类型:forest covertypes
  • 路透社新闻数据:rcv1 dataset
  • 网络入侵检测数据:kddcup 99 dataset
  • 加州住房数据:california housing dataset

4、sklearn 数模笔记的计划

  粗略看看 sklearn 的文档,是一个功能强大和丰富的机器学习库,远远超出了数学建模学习的范围。
  基于数模教学的目的,本系列主要对应数模学习中的分类、聚类、降维问题,并不打算全面讲解 sklearn 的各种算法,而是以典型问题为例来介绍原理简单、使用广泛的基本方法,以便新手入门。

Python 机器学习工具包SKlearn的安装与使用

以上就是python 机器学习工具包sklearn的安装与使用的详细内容,更多关于python sklearn的安装与使用的资料请关注其它相关文章!