用Python学分析 - 单因素方差分析

程序员文章站 2022-04-15 15:54:17

单因素方差分析(One-Way Analysis of Variance) 判断控制变量是否对观测变量产生了显著影响分析步骤 1. 建立检验假设 - H0：不同因子水平间的均值无差异 - H1：不同因子水平间的均值有显著差异 - 【注意】有差异，有可能是所有因子水平间都存在差异，也有可能只有两个因 ......

单因素方差分析(one-way analysis of variance)

判断控制变量是否对观测变量产生了显著影响

分析步骤

1. 建立检验假设

　　 - h0：不同因子水平间的均值无差异
　　- h1：不同因子水平间的均值有显著差异
　　- 【注意】有差异，有可能是所有因子水平间都存在差异，也有可能只有两个因子水平间的均值存在差异

2. 计算检验统计量f值

　　f = msa / mse
　　msa = ssa / ( k - 1 ) msa：组间均方, 对总体方差的一个估计
　　mse = sse / ( n - k ) mse：组内均方,不论h0是否为真，mse都是总体方差的一个无偏估计
　　sst = ssa + sse sst：总误差平方和，反映全部观测值的离散情况
ssa:组间误差平方和，也称水平项误差平方和，反映各因子水平（总体）的样本均值之间的差异程度
sse: 组内误差平方和

3. 确定p值

4. 方差分析表

5. 根据给定的显著性水平，并作出决策

　　根据f值进行假设检验
　　根据选定的显著性水平，f值大于临界值时，将拒绝原假设
　　根据p值进行假设检验

6. 进一步分析

方差齐性检验

多重比较检验

　　- 确定控制变量的不同水平对观测变量的影响程度
　　- 哪个水平的作用明显区别于其他水平
　　- 哪个水平的作用是不显著
　　- 等等

【python分析：用ols模块进行计算】

 1 # 引入数据
 2 import pandas as pd
 3 data_value = { '无促销':[23,19,17,26,28,23,24,30],
 4               '被动促销':[26,22,20,30,36,28,30,32],
 5               '主动促销':[30,23,25,32,48,40,41,46]}# 因变量
 6 da = pd.dataframe( data_value ).stack()
 7 da.columns = ['水平','观测值']
 8 
 9 # ols模块进行分析
10 
11 from statsmodels.formula.api import ols
12 from statsmodels.stats.anova import anova_lm 
13 
14 formula = '{} ~ {}'.format(da.columns[1], da.columns[0])
15 model = ols( formula, da ).fit()
16 anovat = anova_lm(model)
17 print(anovat)

输出结果：

用Python学分析 - 单因素方差分析

【python分析：用自定义函数进行计算】

 1 def anova_oneway( df, a = 0.05 ):
 2     from scipy.stats import f
 3     '''
 4     进行单因素方差分析
 5     输入值：df - pd.dataframe，第一列为水平，第二列为观测值；a - 显著性水平，默认为0.05
 6     返回类型：字典
 7     返回值：方差分析相关数据
 8     '''
 9     res = { 'ssa':0, 'sst':0 }
10     mu = df[df.columns[1]].mean()
11     da = df.groupby( df.columns[0] ).agg( {df.columns[1]:['mean','count']})
12     da.columns = ['mean','count']
13     res['df_a'] = len(list(da.index)) - 1        # *度
14     # 组间误差平方和
15     for row in da.index:
16         res['ssa'] += (da.loc[row,'mean'] - mu )**2 * da.loc[row,'count']
17     # 总误差平方和
18     for e in df[df.columns[1]].values:
19         res['sst'] += (e - mu )**2         
20     res['sse'] = res['sst'] - res['ssa']         # 组内误差平方和
21     res['df_e'] = len(df) - res['df_a'] - 1      # 残差*度
22     res['df_t'] = len(df) - 1                    # 总和*度
23     res['msa'] = res['ssa'] / res['df_a']        # 组间均方
24     res['mse'] = res['sse'] / res['df_e']        # 组内均方
25     res['f'] = res['msa'] / res['mse']           # f值
26     res['p_value'] = 1 - f(res['df_a'],res['df_e'] ).cdf( res['f'])  #p值
27     res['a'] = a
28     res['f_alpha'] = f(res['df_a'],res['df_e'] ).ppf( 1-a ) # 基于显著性水平a的f临界值 
29     return res
30 
31 def print_anova_oneway( d, maxedg = 90 ):
32     '''
33     打印单因素方差分析表
34     输入值：d - dict字典，包含分析表所需要的数据; maxedg - 打印输出时装饰分隔符的最大长度
35     '''
36     title = '【单因素方差分析表】'
37     print( title.center( maxedg ))
38     print( '=' *  maxedg )
39     print( '{:^12s}|{:^16s}|{:^6s}|{:^16s}|{:^12s}|{:^10s}|'.format('误差来源','平方和','*度','均方和','f','p值'))
40     print( '-' *  maxedg )
41     print( '{:8s}|{:>18,.4f} |{:>8d} |{:>18,.4f} |{:>11.6f} |{:>10.3%} |'.format( '组间（因子影响）',d['ssa'],d['df_a'],d['msa'],d['f'],d['p_value']))
42     print( '{:10s}|{:>18,.4f} |{:>8d} |{:>18,.4f} |'.format( '组内（误差）',d['sse'],d['df_e'],d['mse']))
43     print( '{:14s}|{:>18,.4f} |{:>8d} |'.format( '总和',d['sst'],d['df_t']))
44     print( '-' *  maxedg )
45     print('备注：显著性水平为 {:.2%} 时，f的临界值是 {:.6f}。'.format(d['a'],d['f_alpha']))
46 
47 
48 p = 0.95 # 设定置信度水平
49 maxedg = 93 # 设定输出时装饰分隔符的最大长度
50 # 计算并输出单因素方差分析表
51 res = anova_oneway( da, a = 1-p )
52 print_anova_oneway( res, maxedg = maxedg )

用Python学分析 - 单因素方差分析

上一篇： python3:判断手机的亮屏状态

下一篇：布局

用Python学分析 - 单因素方差分析

单因素方差分析(one-way analysis of variance)

分析步骤

1. 建立检验假设

2. 计算检验统计量f值

3. 确定p值

4. 方差分析表

5. 根据给定的显著性水平，并作出决策

6. 进一步分析

Python用pandas和matplotlib分析1949-2016年中国各省市历年GDP数据

用实例分析Python中method的参数传递过程

用Python编写分析Python程序性能的工具的教程

用python解压分析jar包实例

分析用Python脚本关闭文件操作的机制

转：用 Python 一键分析你的上网行为, 看是在认真工作还是摸鱼

python用BeautifulSoup库简单爬虫实例分析

用Python数据分析选购手机，双十一刚过你选对了嘛

用Python分析2000款避孕套，得出这些有趣的结论

用Python逐行分析文件方法