UA MATH571A 一元线性回归II 系数的统计推断
在上一篇的例子中,我们讨论到仅使用系数的估计值无法进行稳健的推断。因为系数的估计量服从某个随机分布,给定样本下系数的估计值只是这个随机分布的一个实现,据此无法窥测到系数估计量的整体分布情况。所以本篇从系数估计量的分布出发,试图得出一些稳健的统计推断。
在一元线性回归模型 Yi=β0+β1Xi+ϵi 中,回归系数β1与β0的估计量为
β^1=∑i=1N(Xi−Xˉ)2∑i=1N(Xi−Xˉ)(Yi−Yˉ)β^0=Yˉ−β^1Xˉ
注意到
i=1∑N(Xi−Xˉ)(Yi−Yˉ)=i=1∑N(Xi−Xˉ)Yi−Yˉi=1∑N(Xi−Xˉ)=i=1∑N(Xi−Xˉ)Yi
因此定义
ki=∑i=1N(Xi−Xˉ)2(Xi−Xˉ)
β1可以写成Yi的线性组合
β^1=i=1∑N∑i=1N(Xi−Xˉ)2(Xi−Xˉ)Yi=i=1∑NkiYi
同样地,β0 也可以写成Yi的线性组合
β^0=Yˉ−β^1Xˉ=N1i=1∑N(1−kiXi)Yi
β1的假设检验与置信区间
从β1关于Yi的线性组合出发,
β^1=i=1∑NkiYi=β0i=1∑Nki+β1i=1∑NkiXi+i=1∑Nkiϵi
其中
i=1∑Nki=i=1∑N∑i=1N(Xi−Xˉ)2(Xi−Xˉ)=∑i=1N(Xi−Xˉ)2(NXˉ−NXˉ)=0
i=1∑NkiXi=i=1∑N∑i=1N(Xi−Xˉ)2(Xi−Xˉ)Xi=∑i=1N(Xi−Xˉ)2∑i=1N(Xi−Xˉ)(Xi−Xˉ)=1
因此
β^1=β1+i=1∑Nkiϵi∼N(β1,i=1∑Nki2σ2)
从β^1的分布中可以发现:1)用最小二乘法与最大似然估计得到的β1的估计量都是无偏的;2)估计量服从正态分布。
上一篇我们给出了σ2的无偏估计为MSE,此处给出简单论证。
σ2(N−2)MSE=i=1∑N(σYi−Y^i)2∼χ2(N−2)
简单解释一下,由于σYi−Y^i 服从标准正态分布,但Y^i使用了两个系数的估计量,所以有两个*度损失,因此总*度为N−2,而标准正态分布平方为卡方分布。
E(MSE)=σ2⟺E(σ2(N−2)MSE)=N−2
因此β1的标准差的无偏估计为
se(β1^)=σ^{β^1}=MSEi=1∑Nki2
其中
i=1∑Nki2=[∑i=1N(Xi−Xˉ)2]2∑i=1N(Xi−Xˉ)2=∑i=1N(Xi−Xˉ)21
从而可以构造t分布
t=se(β1^)β^1−β1=∑i=1N(Xi−Xˉ)2MSEβ^1−β1∼t(N−2)
Gauss-Markov定理
回归系数的最小二乘估计是最优线性无偏估计(Best Linear Unbiased Estimate, BLUE)。这表示最小二乘估计在所有线性无偏估计中方差最小。假设某估计量
β~1=i=1∑NciYi
是无偏估计,则
E(β~1)=i=1∑NciE(Yi)=β0i=1∑Nci+β1i=1∑NciXi=β1
从而
i=1∑Nci=0i=1∑NciXi=1
不妨假设ci=ki+di,
Var(β~1)=σ2i=1∑Nci2=σ2i=1∑N(ki+di)2=σ2i=1∑N(ki2+di2+2kidi)
其中交叉项为零
i=1∑Nkidi=i=1∑Nki(ci−ki)=∑i=1N(Xi−Xˉ)2∑i=1Nci(Xi−Xˉ)−1=∑i=1N(Xi−Xˉ)2(∑i=1NciXi−Xˉ∑i=1Nci)−1=0
所以方差可以简化为
Var(β~1)=σ2(i=1∑Nki2+i=1∑Ndi2)≥σ2i=1∑Nki2
因此最小二乘估计是BLUE。
检验的势
如果我们想要检验β1是否等于猜测值β10,那么可以使用检验方差未知时正态分布均值的t检验方法。用假设检验的语言描述如下:
H0:β1=β10Ha:β1=β10
其中原假设H0为β1等于猜测值β10,备择假设Ha为β1不等于猜测值β10。显然原假设和备择假设包含了β1所有可能的值,因此原假设与备择假设总是有且仅有一个成立。假设检验有两种可能的错误,弃真、取伪。弃真(第一类错误)指的是拒绝了应该是正确的原假设,取伪(第二类错误)指的是接受了应该是错误的原假设。弃真的概率用α表示,取伪的概率用β表示
α=P(reject H0∣H0 is true)β=P(accept H0∣H0 is false)
检验的势(Power)的含义是当原假设错误时,能准确拒绝原假设的概率,被定义为
1−β=1−P(accept H0∣H0 is false)=P(reject H0∣H0 is false)
我们希望犯这两类错误的概率都尽可能低,而在给定样本与统计模型时这两个概率总是此消彼长的。因为取伪的后果更加严重,因此在做假设检验时总是在控制α的基础上让β尽可能小,基于这种思想,假设检验其实是一个优化问题。
双边检验,单边检验与置信区间
置信区间
基于真实的系数构造的t分布为
t=se(β1^)β^1−β1=∑i=1N(Xi−Xˉ)2MSEβ^1−β1∼t(N−2)
根据该分布可以给出面的关系式,其中1−α是置信水平
1−α=P(t(2α,N−2)<t<t(1−2α,N−2))
从而
t(2α,N−2)<t<t(1−2α,N−2)t(2α,N−2)<se(β1^)β^1−β1<t(1−2α,N−2)β1+se(β1^)t(2α,N−2)<β^1<β1+se(β1^)t(1−2α,N−2)β1−se(β1^)t(1−2α,N−2)<β^1<β1+se(β1^)t(1−2α,N−2)
上式给出了回归系数估计量的置信水平为1−α的置信区间,如果根据根据样本计算得到的回归系数的估计值在置信区间之内,那么我们可以相信这个估计值是合理的,否则我们可以不认可系数的估计值。
双边检验
在一元线性回归中进行的如下检验是双边检验:
H0:β1=0Ha:β1=0
原假设即我们认为不存在X对Y的效应,备择假设的含义是X对Y存在非零的效应。因为回归分析总是想要去验证某种效应是否存在,以及是正向还是负向的效应,而错误拒绝原假设的后果更小并且犯错的概率(α)是被控制在某个之下的。所以假设检验是想看能否拒绝原假设,进而证明某种效应是存在的。在上面的叙述中,我们已经知道了估计量β^1服从均值为β1的正态分布,因此这个检验其实就是方差未知时对正态分布均值的检验。构造t统计量
t∗=se(β1^)β^1∼t(N−2)
t∗相当于在原假设下对t的一个猜测值,如果希望将弃真的概率控制为α (检验水平),若
∣t∗∣≤t(1−2α,N−2)
接收原假设,若
∣t∗∣>t(1−2α,N−2)
拒绝原假设,接受备择假设。考虑
∣t∗∣≤t(1−2α,N−2)⟺−se(β1^)t(1−2α,N−2)<β^1<se(β1^)t(1−2α,N−2)
上式为原假设的接受域,显然检验水平与置信水平互补时,如果真实系数为0,接受域与置信区间完全一致。检验的p值为如下概率:
p=P(∣t∣>t∗)=2P(t>t∗)=2(1−P(t≤t∗))
所以
p≤α⟺∣t∗∣>t(1−2α,N−2)
单边检验
在之前的数值例子中,我们想要检验的是年龄对女性肌肉量的效应是否为负,因此我们需要单边检验:
H0:β1≥0Ha:β1<0
单边检验如双边检验仅在一些细节上有所不同。若
t∗≥−t(1−2α,N−2)
接收原假设,若
t∗<−t(1−2α,N−2)
拒绝原假设,接受备择假设。此检验的p值为
p=P(t<−t∗)
如果检验的是系数是否为正,则.
H0:β1≤0Ha:β1>0
若
t∗≤t(1−2α,N−2)
接收原假设,若
t∗>t(1−2α,N−2)
拒绝原假设,接受备择假设。此检验的p值为
p=P(t>t∗)
β0的分布
将β0关于Yi的线性组合进一步展开
β^0=N1i=1∑N(1−kiXi)Yi=N1i=1∑N(1−kiXi)(β0+β1Xi+ϵi)
其中
β0(1−i=1∑NkiXi)=β0β1i=1∑N(1−kiXi)Xi=0
说明
i=1∑NkiXi2=i=1∑N∑i=1N(Xi−Xˉ)2(Xi−Xˉ)Xi2=∑i=1N(Xi−Xˉ)2∑i=1N(Xi−Xˉ)Xi∑i=1NXi=i=1∑NXi
因此
β^0=β0+N1i=1∑N(1−kiXi)ϵiE(β^0)=β0Var(β^0)=σ2i=1∑NN2(1−kiXi)2=σ2(N1+i=1∑Nki2Xˉ2)β^0∼N(β0,σ2(N1+i=1∑Nki2Xˉ2))
知道β^0的分布后,可以像对β^1做统计推断那样,对β^0进行推断。
数值例子:女性肌肉量与年龄的关系
上一篇我们已经建立了女性肌肉量与年龄的一元线性回归模型
Yi=β0+β1Xi+ϵi
其中Yi表示女性个体的肌肉量,Xi表示女性个体的年龄。现在我们按假设检验的思路对女性个体肌肉量会随着年龄增长而减少的猜想进行验证。
H0:β1≥0Ha:β1<0
原假设的含义是女性个体的肌肉量会随着年龄增长而变多或是保持不变,备择假设的含义是女性个体的肌肉量会随着年龄增长变少。从summary()的结果中读取统计量t∗=se(β1^)β^1的值:
红框内的结果是se(β1^),黄框中的结果是t∗,单边检验中t∗需要和t(1−2α,N−2)比较,假设检验水平为1%
> -qt(1-(.01/2),58)
[1] -2.663287
显然t∗<−2.663287,拒绝原假设,接受备择假设:女性个体的肌肉量会随着年龄增长变少。蓝框中的值并非是这个检验的p值,而是双边检验的p值。可以根据上面叙述的结论计算该检验的p值
> pt(-13.19,58)
[1] 2.084381e-19
灰框中是β0相关的量,可以用来对β0的推断。