欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

UA MATH571A 一元线性回归II 统计推断

程序员文章站 2022-04-27 12:21:03
...

在上一篇的例子中,我们讨论到仅使用系数的估计值无法进行稳健的推断。因为系数的估计量服从某个随机分布,给定样本下系数的估计值只是这个随机分布的一个实现,据此无法窥测到系数估计量的整体分布情况。所以本篇从系数估计量的分布出发,试图得出一些稳健的统计推断。

在一元线性回归模型 Yi=β0+β1Xi+ϵiY_i = \beta_0 + \beta_1 X_i + \epsilon_i 中,回归系数β1\beta_1β0\beta_0的估计量为
β^1=i=1N(XiXˉ)(YiYˉ)i=1N(XiXˉ)2β^0=Yˉβ^1Xˉ \hat{\beta}_1= \frac{\sum_{i=1}^{N} (X_i -\bar{X}) (Y_i - \bar{Y})}{\sum_{i=1}^{N} (X_i - \bar{X})^2} \\ \hat{\beta}_0 = \bar{Y} - \hat{\beta}_1\bar{X}
注意到
i=1N(XiXˉ)(YiYˉ)=i=1N(XiXˉ)YiYˉi=1N(XiXˉ)=i=1N(XiXˉ)Yi \sum_{i=1}^{N} (X_i -\bar{X}) (Y_i - \bar{Y}) = \sum_{i=1}^{N} (X_i -\bar{X}) Y_i -\bar{Y} \sum_{i=1}^{N} (X_i -\bar{X}) = \sum_{i=1}^{N} (X_i -\bar{X}) Y_i
因此定义
ki=(XiXˉ)i=1N(XiXˉ)2 k_i = \frac{(X_i -\bar{X}) }{\sum_{i=1}^{N} (X_i - \bar{X})^2}
β1\beta_1可以写成YiY_i的线性组合
β^1=i=1N(XiXˉ)Yii=1N(XiXˉ)2=i=1NkiYi \hat{\beta}_1=\sum_{i=1}^{N} \frac{(X_i -\bar{X}) Y_i }{\sum_{i=1}^{N} (X_i - \bar{X})^2} = \sum_{i=1}^{N} k_i Y_i
同样地,β0\beta_0 也可以写成YiY_i的线性组合
β^0=Yˉβ^1Xˉ=1Ni=1N(1kiXi)Yi \hat{\beta}_0 = \bar{Y} - \hat{\beta}_1\bar{X} = \frac{1}{N} \sum_{i=1}^{N} (1- k_i X_i) Y_i

β1\beta_1的假设检验与置信区间

β1\beta_1关于YiY_i的线性组合出发,
β^1=i=1NkiYi=β0i=1Nki+β1i=1NkiXi+i=1Nkiϵi \hat{\beta}_1= \sum_{i=1}^{N} k_i Y_i = \beta_0 \sum_{i=1}^{N} k_i + \beta_1 \sum_{i=1}^{N} k_i X_i + \sum_{i=1}^{N} k_i \epsilon_i
其中
i=1Nki=i=1N(XiXˉ)i=1N(XiXˉ)2=(NXˉNXˉ)i=1N(XiXˉ)2=0 \sum_{i=1}^{N} k_i = \sum_{i=1}^{N} \frac{(X_i -\bar{X}) }{\sum_{i=1}^{N} (X_i - \bar{X})^2} = \frac{(N\bar{X}-N\bar{X}) }{\sum_{i=1}^{N} (X_i - \bar{X})^2} =0
i=1NkiXi=i=1N(XiXˉ)Xii=1N(XiXˉ)2=i=1N(XiXˉ)(XiXˉ)i=1N(XiXˉ)2=1 \sum_{i=1}^{N} k_i X_i= \sum_{i=1}^{N} \frac{(X_i -\bar{X})X_i }{\sum_{i=1}^{N} (X_i - \bar{X})^2} = \frac{ \sum_{i=1}^{N} (X_i -\bar{X})(X_i -\bar{X}) }{\sum_{i=1}^{N} (X_i - \bar{X})^2} =1
因此
β^1=β1+i=1NkiϵiN(β1,i=1Nki2σ2) \hat{\beta}_1= \beta_1 + \sum_{i=1}^{N} k_i \epsilon_i \sim N(\beta_1, \sum_{i=1}^{N} k_i^2 \sigma^2 )
β^1\hat{\beta}_1的分布中可以发现:1)用最小二乘法与最大似然估计得到的β1\beta_1的估计量都是无偏的;2)估计量服从正态分布。

上一篇我们给出了σ2\sigma^2的无偏估计为MSEMSE,此处给出简单论证。
(N2)MSEσ2=i=1N(YiY^iσ)2χ2(N2) \frac{(N-2)MSE}{\sigma^2} = \sum_{i=1}^N (\frac{Y_i-\hat{Y}_i}{\sigma})^2 \sim \chi^2 (N-2)
简单解释一下,由于YiY^iσ\frac{Y_i-\hat{Y}_i}{\sigma} 服从标准正态分布,但Y^i\hat{Y}_i使用了两个系数的估计量,所以有两个*度损失,因此总*度为N2N-2,而标准正态分布平方为卡方分布。
E(MSE)=σ2E((N2)MSEσ2)=N2 E(MSE) = \sigma^2 \Longleftrightarrow E(\frac{(N-2)MSE}{\sigma^2}) = N-2
因此β1\beta_1的标准差的无偏估计为
se(β1^)=σ^{β^1}=MSEi=1Nki2 se(\hat{\beta_1})=\hat{\sigma} \{\hat{\beta}_1\} = \sqrt{MSE\sum_{i=1}^{N} k_i^2 }
其中
i=1Nki2=i=1N(XiXˉ)2[i=1N(XiXˉ)2]2=1i=1N(XiXˉ)2 \sum_{i=1}^{N} k_i^2 = \frac{\sum_{i=1}^{N} (X_i-\bar{X})^2}{[\sum_{i=1}^{N} (X_i-\bar{X})^2]^2} = \frac{1}{\sum_{i=1}^{N} (X_i-\bar{X})^2}
从而可以构造t分布
t=β^1β1se(β1^)=β^1β1MSEi=1N(XiXˉ)2t(N2) t = \frac{\hat{\beta}_1 - \beta_1}{se(\hat{\beta_1})} = \frac{\hat{\beta}_1 - \beta_1}{\sqrt{\frac{MSE}{\sum_{i=1}^{N} (X_i-\bar{X})^2}}} \sim t(N-2)

Gauss-Markov定理

回归系数的最小二乘估计是最优线性无偏估计(Best Linear Unbiased Estimate, BLUE)。这表示最小二乘估计在所有线性无偏估计中方差最小。假设某估计量
β~1=i=1NciYi \tilde{\beta}_1 = \sum_{i=1}^{N} c_i Y_i
是无偏估计,则
E(β~1)=i=1NciE(Yi)=β0i=1Nci+β1i=1NciXi=β1 E(\tilde{\beta}_1) = \sum_{i=1}^{N} c_i E(Y_i) = \beta_0 \sum_{i=1}^{N} c_i + \beta_1 \sum_{i=1}^{N} c_i X_i = \beta_1
从而
i=1Nci=0i=1NciXi=1 \sum_{i=1}^{N} c_i = 0 \\ \sum_{i=1}^{N} c_i X_i = 1
不妨假设ci=ki+dic_i = k_i + d_i
Var(β~1)=σ2i=1Nci2=σ2i=1N(ki+di)2=σ2i=1N(ki2+di2+2kidi) Var(\tilde{\beta}_1) = \sigma^2 \sum_{i=1}^{N} c_i^2 = \sigma^2 \sum_{i=1}^{N} (k_i+d_i)^2 = \sigma^2 \sum_{i=1}^{N} (k_i^2 + d_i^2 + 2k_i d_i)
其中交叉项为零
i=1Nkidi=i=1Nki(ciki)=i=1Nci(XiXˉ)1i=1N(XiXˉ)2=(i=1NciXiXˉi=1Nci)1i=1N(XiXˉ)2=0 \sum_{i=1}^{N} k_i d_i = \sum_{i=1}^{N} k_i (c_i - k_i) = \frac{ \sum_{i=1}^{N}c_i (X_i - \bar{X}) - 1}{\sum_{i=1}^{N}(X_i-\bar{X})^2}= \frac{( \sum_{i=1}^{N}c_i X_i - \bar{X}\sum_{i=1}^{N}c_i ) - 1}{\sum_{i=1}^{N}(X_i-\bar{X})^2}=0
所以方差可以简化为
Var(β~1)=σ2(i=1Nki2+i=1Ndi2)σ2i=1Nki2 Var(\tilde{\beta}_1) = \sigma^2 (\sum_{i=1}^{N} k_i^2 +\sum_{i=1}^{N} d_i^2 ) \ge \sigma^2 \sum_{i=1}^{N} k_i^2
因此最小二乘估计是BLUE。

检验的势

如果我们想要检验β1\beta_1是否等于猜测值β10\beta_{10},那么可以使用检验方差未知时正态分布均值的t检验方法。用假设检验的语言描述如下:
H0:β1=β10Ha:β1β10 H_0: \beta_1 = \beta_{10} \\ H_a: \beta_1 \ne \beta_{10}
其中原假设H0H_0β1\beta_1等于猜测值β10\beta_{10},备择假设HaH_aβ1\beta_1不等于猜测值β10\beta_{10}。显然原假设和备择假设包含了β1\beta_1所有可能的值,因此原假设与备择假设总是有且仅有一个成立。假设检验有两种可能的错误,弃真、取伪。弃真(第一类错误)指的是拒绝了应该是正确的原假设,取伪(第二类错误)指的是接受了应该是错误的原假设。弃真的概率用α\alpha表示,取伪的概率用β\beta表示
α=P(reject H0H0 is true)β=P(accept H0H0 is false) \alpha = P(reject\ H_0|H_0\ is\ true) \\ \beta = P(accept\ H_0|H_0\ is\ false)
检验的势(Power)的含义是当原假设错误时,能准确拒绝原假设的概率,被定义为
1β=1P(accept H0H0 is false)=P(reject H0H0 is false) 1-\beta =1- P(accept\ H_0|H_0\ is\ false) = P(reject\ H_0|H_0\ is\ false)
我们希望犯这两类错误的概率都尽可能低,而在给定样本与统计模型时这两个概率总是此消彼长的。因为取伪的后果更加严重,因此在做假设检验时总是在控制α\alpha的基础上让β\beta尽可能小,基于这种思想,假设检验其实是一个优化问题。

双边检验,单边检验与置信区间

置信区间

基于真实的系数构造的t分布为
t=β^1β1se(β1^)=β^1β1MSEi=1N(XiXˉ)2t(N2) t = \frac{\hat{\beta}_1 - \beta_1}{se(\hat{\beta_1})} = \frac{\hat{\beta}_1 - \beta_1}{\sqrt{\frac{MSE}{\sum_{i=1}^{N} (X_i-\bar{X})^2}}} \sim t(N-2)
根据该分布可以给出面的关系式,其中1α1-\alpha是置信水平
1α=P(t(α2,N2)<t<t(1α2,N2)) 1-\alpha = P(t(\frac{\alpha}{2},N-2)< t<t(1-\frac{\alpha}{2},N-2))
从而
t(α2,N2)<t<t(1α2,N2)t(α2,N2)<β^1β1se(β1^)<t(1α2,N2)β1+se(β1^)t(α2,N2)<β^1<β1+se(β1^)t(1α2,N2)β1se(β1^)t(1α2,N2)<β^1<β1+se(β1^)t(1α2,N2) t(\frac{\alpha}{2},N-2)< t<t(1-\frac{\alpha}{2},N-2) \\ t(\frac{\alpha}{2},N-2)< \frac{\hat{\beta}_1 - \beta_1}{se(\hat{\beta_1})} <t(1-\frac{\alpha}{2},N-2) \\ \beta_1+se(\hat{\beta_1})t(\frac{\alpha}{2},N-2)< \hat{\beta}_1 < \beta_1+se(\hat{\beta_1})t(1-\frac{\alpha}{2},N-2) \\ \beta_1-se(\hat{\beta_1})t(1-\frac{\alpha}{2},N-2)< \hat{\beta}_1 < \beta_1+se(\hat{\beta_1})t(1-\frac{\alpha}{2},N-2)
上式给出了回归系数估计量的置信水平为1α1-\alpha的置信区间,如果根据根据样本计算得到的回归系数的估计值在置信区间之内,那么我们可以相信这个估计值是合理的,否则我们可以不认可系数的估计值。

双边检验

在一元线性回归中进行的如下检验是双边检验:
H0:β1=0Ha:β10 H_0: \beta_1 = 0 \\ H_a: \beta_1 \ne 0
原假设即我们认为不存在X对Y的效应,备择假设的含义是X对Y存在非零的效应。因为回归分析总是想要去验证某种效应是否存在,以及是正向还是负向的效应,而错误拒绝原假设的后果更小并且犯错的概率(α\alpha)是被控制在某个之下的。所以假设检验是想看能否拒绝原假设,进而证明某种效应是存在的。在上面的叙述中,我们已经知道了估计量β^1\hat{\beta}_1服从均值为β1\beta_1的正态分布,因此这个检验其实就是方差未知时对正态分布均值的检验。构造t统计量
t=β^1se(β1^)t(N2) t^* = \frac{\hat{\beta}_1 }{se(\hat{\beta_1})} \sim t(N-2)
tt^*相当于在原假设下对t的一个猜测值,如果希望将弃真的概率控制为α\alpha (检验水平),若
tt(1α2,N2) |t^*| \le t(1-\frac{\alpha}{2},N-2)
接收原假设,若
t>t(1α2,N2) |t^*| > t(1-\frac{\alpha}{2},N-2)
拒绝原假设,接受备择假设。考虑
tt(1α2,N2)se(β1^)t(1α2,N2)<β^1<se(β1^)t(1α2,N2) |t^*| \le t(1-\frac{\alpha}{2},N-2) \Longleftrightarrow \\ -se(\hat{\beta_1})t(1-\frac{\alpha}{2},N-2)< \hat{\beta}_1 < se(\hat{\beta_1})t(1-\frac{\alpha}{2},N-2)
上式为原假设的接受域,显然检验水平与置信水平互补时,如果真实系数为0,接受域与置信区间完全一致。检验的p值为如下概率:
p=P(t>t)=2P(t>t)=2(1P(tt)) p=P(|t|>t^*)=2P(t>t^*) = 2(1-P(t \le t^*))
所以
pαt>t(1α2,N2) p \le \alpha \Longleftrightarrow |t^*| > t(1-\frac{\alpha}{2},N-2)

单边检验

在之前的数值例子中,我们想要检验的是年龄对女性肌肉量的效应是否为负,因此我们需要单边检验:
H0:β10Ha:β1<0 H_0: \beta_1 \ge 0 \\ H_a: \beta_1 < 0
单边检验如双边检验仅在一些细节上有所不同。若
tt(1α2,N2) t^* \ge -t(1-\frac{\alpha}{2},N-2)
接收原假设,若
t<t(1α2,N2) t^*< -t(1-\frac{\alpha}{2},N-2)
拒绝原假设,接受备择假设。此检验的p值为
p=P(t<t) p=P(t<-t^*)
如果检验的是系数是否为正,则.
H0:β10Ha:β1>0 H_0: \beta_1 \le 0 \\ H_a: \beta_1 > 0

tt(1α2,N2) t^* \le t(1-\frac{\alpha}{2},N-2)
接收原假设,若
t>t(1α2,N2) t^*> t(1-\frac{\alpha}{2},N-2)
拒绝原假设,接受备择假设。此检验的p值为
p=P(t>t) p=P(t>t^*)

β0\beta_0的分布

β0\beta_0关于YiY_i的线性组合进一步展开
β^0=1Ni=1N(1kiXi)Yi=1Ni=1N(1kiXi)(β0+β1Xi+ϵi) \hat{\beta}_0 = \frac{1}{N}\sum_{i=1}^{N} ( 1- k_i X_i) Y_i = \frac{1}{N}\sum_{i=1}^{N} ( 1- k_i X_i) (\beta_0+\beta_1 X_i + \epsilon_i)
其中
β0(1i=1NkiXi)=β0β1i=1N(1kiXi)Xi=0 \beta_0 (1-\sum_{i=1}^{N} k_i X_i) = \beta_0 \\ \beta_1 \sum_{i=1}^{N} ( 1- k_i X_i) X_i=0 \\
说明
i=1NkiXi2=i=1N(XiXˉ)Xi2i=1N(XiXˉ)2=i=1N(XiXˉ)Xii=1NXii=1N(XiXˉ)2=i=1NXi \sum_{i=1}^{N} k_i X_i^2 = \sum_{i=1}^{N} \frac{(X_i-\bar{X})X_i^2}{\sum_{i=1}^{N} (X_i-\bar{X})^2}=\frac{\sum_{i=1}^{N} (X_i-\bar{X})X_i \sum_{i=1}^{N} X_i}{\sum_{i=1}^{N} (X_i-\bar{X})^2} = \sum_{i=1}^{N} X_i
因此
β^0=β0+1Ni=1N(1kiXi)ϵiE(β^0)=β0Var(β^0)=σ2i=1N(1kiXi)2N2=σ2(1N+i=1Nki2Xˉ2)β^0N(β0,σ2(1N+i=1Nki2Xˉ2)) \hat{\beta}_0 = \beta_0 + \frac{1}{N}\sum_{i=1}^{N} ( 1- k_i X_i) \epsilon_i \\ E(\hat{\beta}_0 ) = \beta_0 \\ Var(\hat{\beta}_0 ) = \sigma^2 \sum_{i=1}^{N} \frac{( 1- k_i X_i) ^2}{N^2} = \sigma^2 (\frac{1}{N}+\sum_{i=1}^{N} k_i^2 \bar{X}^2) \\ \hat{\beta}_0 \sim N(\beta_0, \sigma^2 (\frac{1}{N}+\sum_{i=1}^{N} k_i^2 \bar{X}^2))
知道β^0\hat{\beta}_0的分布后,可以像对β^1\hat{\beta}_1做统计推断那样,对β^0\hat{\beta}_0进行推断。

数值例子:女性肌肉量与年龄的关系

上一篇我们已经建立了女性肌肉量与年龄的一元线性回归模型
Yi=β0+β1Xi+ϵi Y_i = \beta_0 + \beta_1 X_i + \epsilon_i
其中YiY_i表示女性个体的肌肉量,XiX_i表示女性个体的年龄。现在我们按假设检验的思路对女性个体肌肉量会随着年龄增长而减少的猜想进行验证。
H0:β10Ha:β1<0 H_0: \beta_1 \ge 0 \\ H_a: \beta_1 < 0
原假设的含义是女性个体的肌肉量会随着年龄增长而变多或是保持不变,备择假设的含义是女性个体的肌肉量会随着年龄增长变少。从summary()的结果中读取统计量t=β^1se(β1^)t^* = \frac{\hat{\beta}_1 }{se(\hat{\beta_1})}的值:
UA MATH571A 一元线性回归II 统计推断
红框内的结果是se(β1^)se(\hat{\beta_1}),黄框中的结果是tt^*,单边检验中tt^*需要和t(1α2,N2)t(1-\frac{\alpha}{2},N-2)比较,假设检验水平为1%

> -qt(1-(.01/2),58)
[1] -2.663287

显然t<2.663287t^*<-2.663287,拒绝原假设,接受备择假设:女性个体的肌肉量会随着年龄增长变少。蓝框中的值并非是这个检验的p值,而是双边检验的p值。可以根据上面叙述的结论计算该检验的p值

> pt(-13.19,58)
[1] 2.084381e-19

灰框中是β0\beta_0相关的量,可以用来对β0\beta_0的推断。

相关标签: 回归 统计

上一篇: animation

下一篇: NOIP2018 解题报告