数据分析学习笔记6
程序员文章站
2022-03-20 18:02:07
...
预测模型
1、线性回归
2、多项式回归
3、多元线性回归
# 线性回归
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
# 生成数据
data1=np.random.normal(3,1,1000)
data2=100-(data1+np.random.normal(0,0.5,1000))*3
plt.scatter(data1,data2,edgecolor='black')
plt.title('data1-data2')
# 用最小二乘法进行拟合
from scipy import stats
fit = stats.linregress(data1,data2)
fit.rvalue**2 # 查看r方
# 把拟合线可视化
def pridict(x):
return fit.slope*x+fit.intercept
fitline=pridict(data1)
plt.scatter(data1,data2,edgecolor='black')
plt.plot(data1,fitline,color='red')
# 多项式回归,非直线
np.random.seed(2)
data1=np.random.normal(3,1,1000)
data2=np.random.normal(50,10,1000)/data1
plt.scatter(data1,data2,edgecolor='black')
# 拟合模型
x=np.array(data1)
y=np.array(data2)
p4=np.poly1d(np.polyfit(x,y,4)) # 用4阶多项式拟合
# 将拟合结果可视化
xp=np.linspace(0,7,100)
plt.scatter(x,y,edgecolor='black')
plt.plot(xp,p4(xp),c='g')
# 计算多项式回归的r方
from sklearn.metrics import r2_score
r2 = r2_score(y,p4(x))
print(r2)
# 尝试更改阶数看看有何不同
x=np.array(data1)
y=np.array(data2)
p4=np.poly1d(np.polyfit(x,y,8)) # 改为8阶
xp=np.linspace(0,7,100)
plt.scatter(x,y,edgecolor='black')
plt.plot(xp,p4(xp),c='g')
from sklearn.metrics import r2_score
r2 = r2_score(y,p4(x))
print(r2)
# 多元线性回归--预测汽车价格
import pandas as pd
data=pd.read_excel(r'http://cdn.sundog-soft.com/Udemy/DataScience/cars.xls') # 数据读取可能比较慢,需要好点的网速
data.head()
import statsmodels.api as sm
# 查看数据大小与是否存在缺失值
data.shape
data.isnull().sum()
data['Model_ord']=pd.Categorical(data.Model).codes # 将文本数据转换为数值型
x=data[['Mileage','Model_ord','Doors']] # 选择我们需要参与建模的变量
y=data[['Price']]
x1=sm.add_constant(x)
fit=sm.OLS(y,x1).fit() # 模型拟合
fit.summary() # 查看模型情况
上一篇: [学习笔记] LaTeX中文显示
推荐阅读
-
React学习之受控组件与数据共享实例分析
-
photoshop入门学习 PHP学习笔记之三 数据库基本操作
-
mysql Int数据类型长度学习笔记
-
Python学习笔记2---数据操作
-
数据库学习笔记3 基本的查询流 2
-
Symfony2学习笔记之插件格式分析,symfony2学习笔记_PHP教程
-
Android学习笔记(Android Studio) 7-1 SharedPreferences 轻量数据存储(数据存储)
-
Oracle学习笔记:分析各种数据类型
-
斯坦福大学深度学习公开课cs231n学习笔记(7)神经网络防止数据过拟合:损失函数和正则化
-
PHP学习笔记(三):数据类型转换与常量介绍,学习笔记常量_PHP教程