机器学习-特征工程-数据集
程序员文章站
2024-01-24 16:02:34
...
1 数据集
学习目标:知道数据集分为训练集和测试集
会使用sklearn
1.1 可用数据集
1.2 scikitLean工具
简介
安装命令
scikit-learn 是一个强大的机器学习库。它的安装依赖于:
Scikit-learn requires:
Python (>= 2.6 or >= 3.3),
NumPy (>= 1.6.1),
SciPy (>= 0.9).
pip install --upgrade scikit-learn
pip install -U scikit-learn
包含内容
1.3 ScikitLearn数据集
1.3.1 scikit-learn数据集API介绍
1.3.2 sklearn小数据集
1.3.3 sklearn 大数据集
1.3.4 sklearn数据集的使用
代码
from sklearn.datasets import load_iris
def datasets_demo():
"""sklearn数据集使用
::return
"""
#获取数据集
iris=load_iris()
print("鸢尾花数据集:\n",iris)
print("查看特征值:\n",iris["data"])
print("查看目标值值:\n", iris.target)
print("查看特征名字:\n", iris["feature_names"])
print("查看目标值名字:\n", iris["target_names"])
print("查看数据集描述:\n", iris.DESCR)
return None
if __name__ == '__main__':
datasets_demo()
1.3.5 数据集的划分
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
def datasets_demo():
"""sklearn数据集使用
::return
"""
#获取数据集
iris=load_iris()
print("鸢尾花数据集:\n",iris)
print("查看特征值:\n",iris["data"])
print("查看目标值值:\n", iris.target)
print("查看特征名字:\n", iris["feature_names"])
print("查看目标值名字:\n", iris["target_names"])
print("查看数据集描述:\n", iris.DESCR)
#数据集划分
x_train,x_test,y_train,y_test=train_test_split(iris.data,iris.target,test_size=20,random_state=22)
print("训练集的特征值:\n",x_train,x_train.shape)
return None
if __name__ == '__main__':
datasets_demo()