UA MATH571A 一元线性回归III 一元线性回归的ANOVA
ANOVA Table
ANOVA(Analysis of Variance)是分析方差构成的常用方法。在前两篇中,我们定义过
SST=i=1∑N(Yi−Yˉ)2
SST表示被解释变量Y的样本总离差平方和(或称总平方和),代表样本数据整体的信息含量,其*度为dfT=N−1。我们也定义过
SSE=i=1∑Nei2=i=1∑N(Yi−Y^i)2
SSE是回归的残差平方和,代表无法被变量X解释的那部分信息量,*度为dfE=N−2。
SST−SSE=i=1∑N[(Yi−Yˉ)2−(Yi−Y^i)2]=i=1∑N[Yˉ2+Yi^2−2Yi(Y^i−Yˉ)]=i=1∑N[Yˉ2+Yi^2−2(Yi−Yˉ)(Y^i−Yˉ)]=i=1∑N(Y^i−Yˉ)2≜SSR
SSR是回归平方和,代表回归模型可以解释的那部分信息含量,*度为dfR=1。对于回归而言,只有两个回归系数贡献两个*度,但存在约束∑i=1N(Y^i−Yˉ)=0,所以减去一个*度,只剩下一个*度。将三个平方和做*度修正,定义
MST=dfTSST, MSR=dfRSSR, MSE=dfESSE
根据上述定义,可以写出下列方差分析表(ANOVA Table)
来源 |
SS |
df |
MS |
回归 |
SSR=∑i=1N(Y^i−Yˉ)2 |
1 |
MSR=dfRSSR |
残差 |
SSE=∑i=1N(Yi−Y^i)2 |
N-2 |
MSE=dfESSE |
总平方和 |
SST=∑i=1N(Yi−Yˉ)2 |
N-1 |
MST=dfTSST |
F检验
回归系数的F检验
之前有说过MSE是方差的无偏估计,也就是E(MSE)=σ2。现在计算一下MSR的期望。
SSR=i=1∑N(Y^i−Yˉ)2=i=1∑N[β^0+β^1Xi−(β^0+β^1Xˉ)]2=β^12i=1∑N(Xi−Xˉ)2E(β^12)=Var(β^1)+[E(β^1)]2=∑i=1N(Xi−Xˉ)2σ2+β12E(MSR)=E(SSR)=σ2+β12i=1∑N(Xi−Xˉ)2
显然当β1等于0时,MSR也是方差的无偏估计,当β1不等于0时,MSR不是方差的无偏估计。考虑对系数的双边检验:
H0:β1=0Ha:β1=0
定义统计量
F∗=MSEMSR
SSR/σ2是标准正态随机变量的平方,由于*度为1,因此服从χ2(1)分布,所以根据F分布的定义,在原假设下,F∗∼(1,N−2)。假设检验水平为α,若F∗≤F(1−α;1,N−2),接受原假设,若F∗>F(1−α;1,N−2),拒绝原假设。
F检验与t检验等价
F检验与双边t检验等价,
F∗=MSEMSR=MSESSR/1=MSEβ^12∑i=1N(Xi−Xˉ)2=s2{β^1}β^12=(t∗)2
但由于F分布是单尾分布,因此与t检验不同,F检验只能做双边检验。
广义线性检验方法
完整的一元线性回归模型为FM(Full Model):
Yi=β0+β1Xi+ϵi
其残差平方和为
SSE(FM)=i=1∑N(Yi−Y^i)2=i=1∑N[Yi−(β^0+β^1X^i)]2=SSE
在原假设下,β1等于0,完整的一元回归模型可以被简化为RM(Reduced Model):
Yi=β0+ϵi
残差平方和为
SSE(RM)=i=1∑N(Yi−Y^i)2=i=1∑N(Yi−β^0)2=i=1∑N(Yi−Yˉ)2=SST
在这些设定下,可以将F检验推广。定义
F∗=dfRM−dfFMSSE(RM)−SSE(FM)/dfFMSSE(FM)∼F(dfRM−dfFM,dfFM)
原假设为应该使用RM,备择假设为应该使用FM。
R2
R2表示能够用回归模型解释的那部分信息占总信息的比值,
R2=SSTSSR=1−SSTSSE
R2又叫可决系数,R2越大代表回归模型越能解释被解释变量Y的变化情况,回归模型质量就越高。
数值例子:女性肌肉量与年龄的关系
我们最后再用这个例子来介绍一下做ANOVA的F检验的方法,关于这个例子已经完成的分析可以看前两篇博文。对线性模型lm()的输出结果使用anova()函数可以得到ANOVA Table,
> anova(Ex1.lm)
灰框中是ANOVA Table中的方差来源栏,红框中是*度,黄框中是SS和MS。绿框中是F统计量和F检验的p值,根据这两个值可以判断回归系数β1是显著异于0的,说明回归有效,这与t检验的结果一致。在回归结果的汇总中,
红框内的是F统计量及其对应的*度,黄框内是F检验的p值,这与ANOVA Table中的结果一致。简单计算可以发现β1的t统计量的平方等于F统计量,但t统计量可以有正负,而F统计量总是为正的,这是因为t分布是双尾分布,而F分布只有单尾。因此做单边检验时只能用t检验。蓝框内的值是R2,这个值说明年龄可以解释女性肌肉量75%的变化。但要注意的是解释不代表因果,只是一个统计相关性。这个结果只能说明女性肌肉量的下降从统计上讲有75%与年龄增长有关,但不能证明女性肌肉量的下降有75%是年龄增长造成的。