欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

Python人工智能高级70(k-近邻算法,线性回归)

程序员文章站 2022-03-13 12:09:53
...

1、pandas案例

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

data = pd.read_csv('./data/IMDB-Movie-Data.csv')

# 1.平均分,导演人数
# 平均分
data['Rating'].mean()
# 获取导演人数
np.unique(data['Director']).size

# 2.rating,runtime的分布情况
# 创建画布
plt.figure(figsize=(20,8))
# 绘制图像
res = plt.hist(data['Rating'], bins=20)
# 设置x轴刻度
plt.xticks(res[1])
# 显示图像
plt.show()

# 3.统计电影分类
# 遍历所有的电影类型数据,累加对应类型的数量
# (1)拿到所有的电影类型
genre_temp = [i.split(',') for i in data['Genre'] ]
genre_list = np.unique([i for j in genre_temp for i in j])
# (2)构建一个记录电影类型数量的容器 Series
genre_s = pd.Series(np.zeros((len(genre_list),)), index=genre_list)
# (3)遍历所有的电影,统计电影类型的数量
for i in genre_temp:
    for j in i:
        genre_s[j] += 1
# 绘制柱状图
genre_s.plot(kind='bar',figsize=(20,8))
plt.show()


2、scikit-learn的数据集API

from sklearn.datasets import load_iris
from sklearn.datasets import fetch_20newsgroups

# 获取小数据集 bunch字典
iris = load_iris()
# 获取特征值
iris.data
# 获取目标值
iris.target
# 获取特征名
iris.feature_names
# 获取标签名
iris.target_names

# 获取大数据集
data = fetch_20newsgroups(subset='train')   # 需下载数据集