欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

数据分析学习笔记6

程序员文章站 2022-03-20 18:02:07
...

预测模型

1、线性回归

2、多项式回归

3、多元线性回归

# 线性回归
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

# 生成数据
data1=np.random.normal(3,1,1000)
data2=100-(data1+np.random.normal(0,0.5,1000))*3
plt.scatter(data1,data2,edgecolor='black')
plt.title('data1-data2')

# 用最小二乘法进行拟合
from scipy import stats
fit = stats.linregress(data1,data2)
fit.rvalue**2  # 查看r方

# 把拟合线可视化
def pridict(x):
    return fit.slope*x+fit.intercept
fitline=pridict(data1)
plt.scatter(data1,data2,edgecolor='black')
plt.plot(data1,fitline,color='red')


# 多项式回归,非直线
np.random.seed(2)
data1=np.random.normal(3,1,1000)
data2=np.random.normal(50,10,1000)/data1
plt.scatter(data1,data2,edgecolor='black')

# 拟合模型
x=np.array(data1)
y=np.array(data2)
p4=np.poly1d(np.polyfit(x,y,4)) # 用4阶多项式拟合

# 将拟合结果可视化
xp=np.linspace(0,7,100)
plt.scatter(x,y,edgecolor='black')
plt.plot(xp,p4(xp),c='g')

# 计算多项式回归的r方
from sklearn.metrics import r2_score
r2 = r2_score(y,p4(x))
print(r2)

# 尝试更改阶数看看有何不同
x=np.array(data1)
y=np.array(data2)
p4=np.poly1d(np.polyfit(x,y,8))  # 改为8阶
xp=np.linspace(0,7,100)
plt.scatter(x,y,edgecolor='black')
plt.plot(xp,p4(xp),c='g')
from sklearn.metrics import r2_score
r2 = r2_score(y,p4(x))
print(r2)


# 多元线性回归--预测汽车价格
import pandas as pd
data=pd.read_excel(r'http://cdn.sundog-soft.com/Udemy/DataScience/cars.xls') # 数据读取可能比较慢,需要好点的网速
data.head()
import statsmodels.api as sm
# 查看数据大小与是否存在缺失值
data.shape
data.isnull().sum()
data['Model_ord']=pd.Categorical(data.Model).codes # 将文本数据转换为数值型
x=data[['Mileage','Model_ord','Doors']]  # 选择我们需要参与建模的变量
y=data[['Price']]
x1=sm.add_constant(x)
fit=sm.OLS(y,x1).fit()  # 模型拟合
fit.summary()  # 查看模型情况