欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

UA MATH571A 一元线性回归III 一元线性回归的ANOVA

程序员文章站 2022-04-27 12:15:50
...

ANOVA Table

ANOVA(Analysis of Variance)是分析方差构成的常用方法。在前两篇中,我们定义过
SST=i=1N(YiYˉ)2 SST = \sum_{i=1}^N (Y_i-\bar{Y})^2
SST表示被解释变量Y的样本总离差平方和(或称总平方和),代表样本数据整体的信息含量,其*度为dfT=N1df_T=N-1。我们也定义过
SSE=i=1Nei2=i=1N(YiY^i)2 SSE = \sum_{i=1}^{N} e_i^2 = \sum_{i=1}^{N} (Y_i - \hat{Y}_i)^2
SSE是回归的残差平方和,代表无法被变量X解释的那部分信息量,*度为dfE=N2df_E=N-2
SSTSSE=i=1N[(YiYˉ)2(YiY^i)2]=i=1N[Yˉ2+Yi^22Yi(Y^iYˉ)]=i=1N[Yˉ2+Yi^22(YiYˉ)(Y^iYˉ)]=i=1N(Y^iYˉ)2SSR SST-SSE=\sum_{i=1}^N [(Y_i-\bar{Y})^2-(Y_i - \hat{Y}_i)^2] \\ =\sum_{i=1}^N [\bar{Y}^2+\hat{Y_i}^2-2Y_i(\hat{Y}_i-\bar{Y})] \\ = \sum_{i=1}^N [\bar{Y}^2+\hat{Y_i}^2-2(Y_i-\bar{Y})(\hat{Y}_i-\bar{Y})] \\ =\sum_{i=1}^N (\hat{Y}_i - \bar{Y})^2 \triangleq SSR
SSR是回归平方和,代表回归模型可以解释的那部分信息含量,*度为dfR=1df_R=1。对于回归而言,只有两个回归系数贡献两个*度,但存在约束i=1N(Y^iYˉ)=0\sum_{i=1}^N (\hat{Y}_i - \bar{Y})=0,所以减去一个*度,只剩下一个*度。将三个平方和做*度修正,定义
MST=SSTdfT,  MSR=SSRdfR,  MSE=SSEdfE MST = \frac{SST}{df_T}, \ \ MSR = \frac{SSR}{df_R}, \ \ MSE = \frac{SSE}{df_E}
根据上述定义,可以写出下列方差分析表(ANOVA Table)

来源 SS df MS
回归 SSR=i=1N(Y^iYˉ)2SSR=\sum_{i=1}^N (\hat{Y}_i - \bar{Y})^2 1 MSR=SSRdfRMSR = \frac{SSR}{df_R}
残差 SSE=i=1N(YiY^i)2SSE=\sum_{i=1}^N (Y_i - \hat{Y}_i )^2 N-2 MSE=SSEdfEMSE = \frac{SSE}{df_E}
总平方和 SST=i=1N(YiYˉ)2SST=\sum_{i=1}^N (Y_i - \bar{Y})^2 N-1 MST=SSTdfTMST = \frac{SST}{df_T}

F检验

回归系数的F检验

之前有说过MSE是方差的无偏估计,也就是E(MSE)=σ2E(MSE)=\sigma^2。现在计算一下MSR的期望。
SSR=i=1N(Y^iYˉ)2=i=1N[β^0+β^1Xi(β^0+β^1Xˉ)]2=β^12i=1N(XiXˉ)2E(β^12)=Var(β^1)+[E(β^1)]2=σ2i=1N(XiXˉ)2+β12E(MSR)=E(SSR)=σ2+β12i=1N(XiXˉ)2 SSR = \sum_{i=1}^N (\hat{Y}_i - \bar{Y})^2 = \sum_{i=1}^N [\hat{\beta}_0 +\hat{\beta}_1X_i- (\hat{\beta}_0+\hat{\beta}_1\bar{X})]^2 =\hat{\beta}_1^2\sum_{i=1}^N (X_i - \bar{X})^2 \\ E(\hat{\beta}_1^2)=Var(\hat{\beta}_1)+[E(\hat{\beta}_1)]^2=\frac{\sigma^2}{\sum_{i=1}^N (X_i - \bar{X})^2} + \beta_1^2 \\ E(MSR)=E(SSR)=\sigma^2 + \beta_1^2 \sum_{i=1}^N (X_i - \bar{X})^2
显然当β1\beta_1等于0时,MSR也是方差的无偏估计,当β1\beta_1不等于0时,MSR不是方差的无偏估计。考虑对系数的双边检验:
H0:β1=0Ha:β10 H_0: \beta_1 = 0 \\ H_a: \beta_1 \ne 0
定义统计量
F=MSRMSE F^* = \frac{MSR}{MSE}
SSR/σ2SSR/\sigma^2是标准正态随机变量的平方,由于*度为1,因此服从χ2(1)\chi^2(1)分布,所以根据F分布的定义,在原假设下,F(1,N2)F^* \sim (1,N-2)。假设检验水平为α\alpha,若FF(1α;1,N2)F^*\le F(1-\alpha;1,N-2),接受原假设,若F>F(1α;1,N2)F^*>F(1-\alpha;1,N-2),拒绝原假设。

F检验与t检验等价

F检验与双边t检验等价,
F=MSRMSE=SSR/1MSE=β^12i=1N(XiXˉ)2MSE=β^12s2{β^1}=(t)2 F^* = \frac{MSR}{MSE}=\frac{SSR/1}{MSE}=\frac{\hat{\beta}_1^2\sum_{i=1}^N (X_i - \bar{X})^2}{MSE}=\frac{\hat{\beta}_1^2}{s^2\{\hat{\beta}_1\}}=(t^*)^2
但由于F分布是单尾分布,因此与t检验不同,F检验只能做双边检验。

广义线性检验方法

完整的一元线性回归模型为FM(Full Model):
Yi=β0+β1Xi+ϵi Y_i = \beta_0 + \beta_1 X_i + \epsilon_i
其残差平方和为
SSE(FM)=i=1N(YiY^i)2=i=1N[Yi(β^0+β^1X^i)]2=SSE SSE(FM)=\sum_{i=1}^N (Y_i - \hat{Y}_i )^2 = \sum_{i=1}^N [Y_i -( \hat{\beta}_0 + \hat{\beta}_1\hat{X}_i )]^2 =SSE
在原假设下,β1\beta_1等于0,完整的一元回归模型可以被简化为RM(Reduced Model):
Yi=β0+ϵi Y_i = \beta_0 + \epsilon_i
残差平方和为
SSE(RM)=i=1N(YiY^i)2=i=1N(Yiβ^0)2=i=1N(YiYˉ)2=SST SSE(RM)=\sum_{i=1}^N (Y_i - \hat{Y}_i )^2 = \sum_{i=1}^N (Y_i - \hat{\beta}_0 )^2 = \sum_{i=1}^N (Y_i - \bar{Y})^2 =SST
在这些设定下,可以将F检验推广。定义
F=SSE(RM)SSE(FM)dfRMdfFM/SSE(FM)dfFMF(dfRMdfFM,dfFM) F^* = \frac{SSE(RM)-SSE(FM)}{df_{RM}-df_{FM}}/\frac{SSE(FM)}{df_{FM}} \sim F(df_{RM}-df_{FM},df_{FM})
原假设为应该使用RM,备择假设为应该使用FM。

R2R^2

R2R^2表示能够用回归模型解释的那部分信息占总信息的比值,
R2=SSRSST=1SSESST R^2 = \frac{SSR}{SST}=1-\frac{SSE}{SST}
R2R^2又叫可决系数,R2R^2越大代表回归模型越能解释被解释变量Y的变化情况,回归模型质量就越高。

数值例子:女性肌肉量与年龄的关系

我们最后再用这个例子来介绍一下做ANOVA的F检验的方法,关于这个例子已经完成的分析可以看前两篇博文。对线性模型lm()的输出结果使用anova()函数可以得到ANOVA Table,

> anova(Ex1.lm)

UA MATH571A 一元线性回归III 一元线性回归的ANOVA
灰框中是ANOVA Table中的方差来源栏,红框中是*度,黄框中是SS和MS。绿框中是F统计量和F检验的p值,根据这两个值可以判断回归系数β1\beta_1是显著异于0的,说明回归有效,这与t检验的结果一致。在回归结果的汇总中,
UA MATH571A 一元线性回归III 一元线性回归的ANOVA
红框内的是F统计量及其对应的*度,黄框内是F检验的p值,这与ANOVA Table中的结果一致。简单计算可以发现β1\beta_1的t统计量的平方等于F统计量,但t统计量可以有正负,而F统计量总是为正的,这是因为t分布是双尾分布,而F分布只有单尾。因此做单边检验时只能用t检验。蓝框内的值是R2R^2,这个值说明年龄可以解释女性肌肉量75%的变化。但要注意的是解释不代表因果,只是一个统计相关性。这个结果只能说明女性肌肉量的下降从统计上讲有75%与年龄增长有关,但不能证明女性肌肉量的下降有75%是年龄增长造成的。

相关标签: 统计 回归