欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

方差分析实战

程序员文章站 2022-04-18 12:34:48
...

数据背景:有A、B、C、D四个地区,不同地区的销售量不一样,现抽取了不同时间段内每个地区的销售量,试解决:
1、每个地区间的销售量是否相同?
2、不同月份的销售量是否相同?
3、不同时间与地区的销售量是否相同?

每个地区间的销售量是否相同

H0:μABCD
H1:四个地区的销量均值不完全相等

import pandas as pd
from statsmodels.formula.api import ols
from statsmodels.stats.anova import anova_lm
data = pd.read_excel("C:\\Users\\统计学excel\\销售数据.xlsx",sheet_name="Sheet2")
print(data.head())
model = ols("sales ~ area",data).fit()
model_anova = anova_lm(model)
print(model_anova)

方差分析实战
方差分析实战
p值0.024<0.05 拒绝原假设,则相信地区对销售量是有显著影响的

不同月份的销售量是否相同

H0:各个时间段的销售均值相等
H1:各个时间段的销售均值不完全相等

data = pd.read_excel("C:\\Users\\统计学excel\\销售数据.xlsx",sheet_name="Sheet3")
print(data.head())
model = ols("sales ~ date",data).fit()
model_anova = anova_lm(model)
print(model_anova)

方差分析实战
方差分析实战
p值为0.29>0.05 原假设成立,则月份对销量没有显著性影响

3、不同时间与地区的销售量是否相同

针对于地区因素
H0:μABCD
H1:四个地区的销量均值不完全相等

针对于时间段因素来
H0:各个时间段的销售均值相等
H1:各个时间段的销售均值不完全相等

data = pd.read_excel("C:\\Users\\统计学excel\\销售数据.xlsx",sheet_name="Sheet4")
print(data.head())
model = ols("sales ~ date + area",data).fit()
model_anova = anova_lm(model)
print(model_anova)

方差分析实战
方差分析实战
地区因素的p值为0.016<0.05 拒绝原假设,则相信地区对销售量是有显著影响的
时间段因素的p值为0.15>0.05 原假设成立,则月份对销量没有显著性影响