方差分析实战
程序员文章站
2022-04-18 12:34:48
...
数据背景:有A、B、C、D四个地区,不同地区的销售量不一样,现抽取了不同时间段内每个地区的销售量,试解决:
1、每个地区间的销售量是否相同?
2、不同月份的销售量是否相同?
3、不同时间与地区的销售量是否相同?
每个地区间的销售量是否相同
H0:μA=μB=μC=μD
H1:四个地区的销量均值不完全相等
import pandas as pd
from statsmodels.formula.api import ols
from statsmodels.stats.anova import anova_lm
data = pd.read_excel("C:\\Users\\统计学excel\\销售数据.xlsx",sheet_name="Sheet2")
print(data.head())
model = ols("sales ~ area",data).fit()
model_anova = anova_lm(model)
print(model_anova)
p值0.024<0.05 拒绝原假设,则相信地区对销售量是有显著影响的
不同月份的销售量是否相同
H0:各个时间段的销售均值相等
H1:各个时间段的销售均值不完全相等
data = pd.read_excel("C:\\Users\\统计学excel\\销售数据.xlsx",sheet_name="Sheet3")
print(data.head())
model = ols("sales ~ date",data).fit()
model_anova = anova_lm(model)
print(model_anova)
p值为0.29>0.05 原假设成立,则月份对销量没有显著性影响
3、不同时间与地区的销售量是否相同
针对于地区因素
H0:μA=μB=μC=μD
H1:四个地区的销量均值不完全相等
针对于时间段因素来
H0:各个时间段的销售均值相等
H1:各个时间段的销售均值不完全相等
data = pd.read_excel("C:\\Users\\统计学excel\\销售数据.xlsx",sheet_name="Sheet4")
print(data.head())
model = ols("sales ~ date + area",data).fit()
model_anova = anova_lm(model)
print(model_anova)
地区因素的p值为0.016<0.05 拒绝原假设,则相信地区对销售量是有显著影响的
时间段因素的p值为0.15>0.05 原假设成立,则月份对销量没有显著性影响
上一篇: 使用Kalibr进行IMU+相机的标定
下一篇: Linux系统如何让程序开机时自动启动