【学习笔记】统计推断(高级统计学)Updating
高级统计学笔记
本课程的教材为 Casella \text{Casella} Casella的统计推断( Statistical Inference \text{Statistical Inference} Statistical Inference),教材文件与课后习题答案已上传至:
链接: https://pan.baidu.com/s/1dlFvXHWUZdJayW4g_DNrWQ 提取码: s35h
课后习题答案有一些题目是缺失的,笔者将挑选作业中涉及的更新至本文的最后一部分中。
本文持续更新至本学期结束。
文章目录
Lecture 1 概率理论
-
命题:均匀分布的最大次序统计量是 β \beta β分布,它的期望为 n n + 1 \frac{n}{n+1} n+1n
关于次序统计量的计算公式:
Pr ( Y ( i ) ≤ x ) = ∑ j = 0 i − 1 C n j ( 1 − F ( x ) ) j F ( x ) n − j \Pr(Y^{(i)}\le x)=\sum_{j=0}^{i-1}C_n^j(1-F(x))^jF(x)^{n-j} Pr(Y(i)≤x)=j=0∑i−1Cnj(1−F(x))jF(x)n−j
特别地,最大次序统计量为 Y ( 1 ) = F ( x ) n Y^{(1)}=F(x)^n Y(1)=F(x)n,最小次序统计量为 Y ( n ) = ∑ j = 0 n − 1 C n j ( 1 − F ( x ) ) j F ( x ) n − j Y^{(n)}=\sum_{j=0}^{n-1}C_n^j(1-F(x))^jF(x)^{n-j} Y(n)=∑j=0n−1Cnj(1−F(x))jF(x)n−j -
β \beta β分布: X ∼ Be ( α , β ) X\sim\text{Be}(\alpha,\beta) X∼Be(α,β)
-
概率密度函数:
f ( x ; α , β ) = Γ ( α + β ) Γ ( α ) Γ ( β ) x α − 1 ( 1 − x ) β − 1 = 1 B ( α , β ) x α − 1 ( 1 − x ) β − 1 f(x;\alpha,\beta)=\frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)}x^{\alpha-1}(1-x)^{\beta-1}=\frac1{B(\alpha,\beta)}x^{\alpha-1}(1-x)^{\beta-1} f(x;α,β)=Γ(α)Γ(β)Γ(α+β)xα−1(1−x)β−1=B(α,β)1xα−1(1−x)β−1
其中 Γ ( x ) = ∫ 0 + ∞ t x − 1 e − t d t \Gamma(x)=\int_0^{+\infty}t^{x-1}e^{-t}\text{d}t Γ(x)=∫0+∞tx−1e−tdt, x > 0 x>0 x>0,具有性质 Γ ( n + 1 ) = x Γ ( n ) \Gamma(n+1)=x\Gamma(n) Γ(n+1)=xΓ(n) -
众数: α − 1 α + β − 2 \frac{\alpha-1}{\alpha+\beta-2} α+β−2α−1
-
数学期望: μ = E ( X ) = α α + β \mu=\mathbb{E}(X)=\frac{\alpha}{\alpha+\beta} μ=E(X)=α+βα
-
方差: Var ( X ) = E ( X − μ ) 2 = α β ( α + β ) 2 ( α + β + 1 ) \text{Var}(X)=\mathbb{E}(X-\mu)^2=\frac{\alpha\beta}{(\alpha+\beta)^2(\alpha+\beta+1)} Var(X)=E(X−μ)2=(α+β)2(α+β+1)αβ
-
-
样本空间 S \mathcal{S} S:特定实验的所有可能结果(可数或不可数)
抛两次硬币: S = { ( H , H ) , ( H , T ) , ( T , H ) , ( T , T ) } \mathcal{S}=\{(H,H),(H,T),(T,H),(T,T)\} S={(H,H),(H,T),(T,H),(T,T)}
-
事件 A A A: S \mathcal{S} S的任意子集称为事件
-
互斥:称事件 A A A和事件 B B B不相交(互斥),若 A ∩ B = ∅ A\cap B=\emptyset A∩B=∅
-
两两不相交:称事件族 { A k } k = 1 n \{A_k\}_{k=1}^n {Ak}k=1n两两不相交,若 ∀ i ≠ j \forall i\neq j ∀i=j满足 A i ∩ A j = ∅ A_i\cap A_j=\emptyset Ai∩Aj=∅
-
划分:称事件族 { A k } k = 1 n \{A_k\}_{k=1}^n {Ak}k=1n是 S \mathcal{S} S的划分,若事件族 { A k } k = 1 n \{A_k\}_{k=1}^n {Ak}k=1n两两不相交且 ⋃ k = 1 n A k = S \bigcup_{k=1}^n A_k=\mathcal{S} ⋃k=1nAk=S
-
σ \sigma σ代数:称 S \mathcal{S} S的子集 B \mathcal{B} B为 σ \sigma σ代数,若满足以下三个性质:
- ∅ ∈ B \emptyset\in\mathcal{B} ∅∈B
- 若 A ∈ B A\in\mathcal{B} A∈B,则 A c ∈ B A^c\in\mathcal{B} Ac∈B
- 若 A 1 , A 2 , . . . , ∈ B A_1,A_2,...,\in\mathcal{B} A1,A2,...,∈B,则 ⋃ k = 1 ∞ A k ∈ B \bigcup_{k=1}^\infty A_k\in\mathcal{B} ⋃k=1∞Ak∈B
-
可测空间: ( S , B ) (\mathcal{S},\mathcal{B}) (S,B)是一个可测空间
-
Kolmogorov Aximos \text{Kolmogorov Aximos} Kolmogorov Aximos:给定样本空间 S \mathcal{S} S与相关联的一个 σ \sigma σ代数 B \mathcal{B} B,称 P P P是定义在 B \mathcal{B} B上的概率函数,若满足以下三个性质:
- P ( A ) ≥ 0 , ∀ A ∈ B P(A)\ge0,\forall A\in\mathcal{B} P(A)≥0,∀A∈B
- P ( S ) = 1 P(\mathcal{S})=1 P(S)=1
- 若 A 1 , A 2 , . . . , ∈ B A_1,A_2,...,\in\mathcal{B} A1,A2,...,∈B两两不相交,则 P ( ⋃ k = 1 ∞ ) = ∑ k = 1 ∞ P ( A k ) P(\bigcup_{k=1}^\infty)=\sum_{k=1}^\infty P(A_k) P(⋃k=1∞)=∑k=1∞P(Ak)
-
定理:设 S = { s 1 , . . . , s n } \mathcal{S}=\{s_1,...,s_n\} S={s1,...,sn}是有限集, B \mathcal{B} B是 S \mathcal{S} S子集的任意 σ \sigma σ代数, p 1 , . . . , p n p_1,...,p_n p1,...,pn是累和为 1 1 1的非实数, ∀ A ∈ B \forall A\in\mathcal{B} ∀A∈B,定义 B \mathcal{B} B上的概率函数 P P P:
P ( A ) = ∑ i : s i ∈ A p i P(A)=\sum_{i:s_i\in A}p_i P(A)=i:si∈A∑pi
这在 S \mathcal{S} S是可数集时依然成立。概率函数 P P P具有如下性质:
- P ( ∅ ) = 0 P(\emptyset)=0 P(∅)=0
- P ( A ) ≤ 1 P(A)\le 1 P(A)≤1
- P ( A c ) = 1 − P ( A ) P(A^c)=1-P(A) P(Ac)=1−P(A)
- P ( B ∩ A c ) = P ( B ) − P ( A ∩ B ) P(B\cap A^c)=P(B)-P(A\cap B) P(B∩Ac)=P(B)−P(A∩B)
- P ( A ∪ B ) = P ( A ) + P ( B ) − P ( A ∩ B ) P(A\cup B)=P(A)+P(B)-P(A\cap B) P(A∪B)=P(A)+P(B)−P(A∩B)
- 若 A ⊂ B A\subset B A⊂B,则 P ( A ) ≤ P ( B ) P(A)\le P(B) P(A)≤P(B)
- Bonferroni \text{Bonferroni} Bonferroni不等式: P ( A ∩ B ) ≥ P ( A ) + P ( B ) − 1 P(A\cap B)\ge P(A)+P(B)-1 P(A∩B)≥P(A)+P(B)−1
- P ( A ) = ∑ i = 1 ∞ P ( A ∩ C i ) P(A)=\sum_{i=1}^\infty P(A\cap C_i) P(A)=∑i=1∞P(A∩Ci),对于任意划分 C 1 , C 2 , . . . C_1,C_2,... C1,C2,...
- P ( ⋃ i = 1 ∞ A i ) ≤ ∑ i = 1 ∞ P ( A i ) P(\bigcup_{i=1}^\infty A_i)\le \sum_{i=1}^\infty P(A_i) P(⋃i=1∞Ai)≤∑i=1∞P(Ai),对于任意集合 A 1 , A 2 , . . . A_1,A_2,... A1,A2,...
-
命题:从 n n n个物体中取出 r r r个,有多少种取法?
- 不放回且有序: n ! ( n − r ) ! \frac{n!}{(n-r)!} (n−r)!n!
- 不放回且无序: C n r C_n^r Cnr
- 放回且有序: n r n^r nr
- 放回且无序: C n + r − 1 r C_{n+r-1}^r Cn+r−1r
-
条件概率: P ( A ∣ B ) = P ( A ∩ B ) P ( B ) P(A|B)=\frac{P(A\cap B)}{P(B)} P(A∣B)=P(B)P(A∩B)
- 推论:
- P ( A ∩ B ) = P ( A ∣ B ) P ( B ) P(A\cap B)=P(A|B)P(B) P(A∩B)=P(A∣B)P(B)
- P ( A ∩ B ) = P ( B ∣ A ) P ( A ) P(A\cap B)=P(B|A)P(A) P(A∩B)=P(B∣A)P(A)
- P ( A ∣ B ) = P ( B ∣ A ) P ( A ) P ( B ) P(A|B)=P(B|A)\frac{P(A)}{P(B)} P(A∣B)=P(B∣A)P(B)P(A)
- 推论:
-
定理(贝叶斯法则):设 A 1 , A 2 , . . . A_1,A_2,... A1,A2,...是样本空间的划分, B B B为任意集合,则 ∀ i = 1 , 2 , . . . \forall i=1,2,... ∀i=1,2,...,有:
P ( A i ∣ B ) = P ( B ∣ A i ) P ( A i ) ∑ k = 1 ∞ P ( B ∣ A k ) P ( A k ) P(A_i|B)=\frac{P(B|A_i)P(A_i)}{\sum_{k=1}^\infty P(B|A_k)P(A_k)} P(Ai∣B)=∑k=1∞P(B∣Ak)P(Ak)P(B∣Ai)P(Ai) -
统计独立:称事件 A , B A,B A,B统计独立,若 P ( A ∩ B ) = P ( A ) P ( B ) P(A\cap B)=P(A)P(B) P(A∩B)=P(A)P(B)
-
相互独立:称事件 A 1 , . . . , A n A_1,...,A_n A1,...,An相互读理,若任意子集 A i 1 , . . . , A i k A_{i_1},...,A_{i_k} Ai1,...,Aik满足:
P ( ⋂ j = 1 k A i j ) = ∏ j = 1 k P ( A i j ) P\left(\bigcap_{j=1}^k A_{i_j}\right)=\prod_{j=1}^kP(A_{i_j}) P(j=1⋂kAij)=j=1∏kP(Aij) -
随机变量:指从样本空间 S \mathcal{S} S映射成实数的一个函数
-
概率导出函数:设样本空间 S = { s 1 , . . . , s n } \mathcal{S}=\{s_1,...,s_n\} S={s1,...,sn}与概率函数 P P P,随机变量 X X X的取值范围为 X = { x 1 , . . . , x m } \mathcal{X}=\{x_1,...,x_m\} X={x1,...,xm},定义:
P X ( X = x i ) = P ( { s j ∈ S : X ( s j ) = x i } ) P_{X}(X=x_i)=P(\{s_j\in\mathcal{S}:X(s_j)=x_i\}) PX(X=xi)=P({sj∈S:X(sj)=xi})
称 P X P_{X} PX为 X \mathcal{X} X上的概率导出函数(由原始函数 P P P定义得到)若 X \mathcal{X} X是不可数的,则可以定义概率导出函数 P X P_{X} PX对于任意集合 A ⊂ X A\subset\mathcal{X} A⊂X:
P x ( X ∈ A ) = P ( { s j ∈ S : X ( s j ) ∈ A } ) P_{x}(X\in A)=P(\{s_j\in\mathcal{S}:X(s_j)\in A\}) Px(X∈A)=P({sj∈S:X(sj)∈A}) -
累积分布函数 cdf \text{cdf} cdf: F X ( x ) = P X ( X ≤ x ) F_X(x)=P_X(X\le x) FX(x)=PX(X≤x)
-
定理: F ( x ) F(x) F(x)是某个随机变量的累积分布函数,当且仅当以下三个条件成立:
- lim x → − ∞ F ( x ) = 0 , lim x → + ∞ F ( x ) = 1 \lim_{x\rightarrow-\infty}F(x)=0,\lim_{x\rightarrow+\infty}F(x)=1 limx→−∞F(x)=0,limx→+∞F(x)=1
- F ( x ) F(x) F(x)不减
- F ( x ) F(x) F(x)右连续,即 lim x → x 0 + F ( x ) = F ( x 0 ) \lim_{x\rightarrow x_0^+}F(x)=F(x_0) limx→x0+F(x)=F(x0)对任意 x 0 x_0 x0成立
-
连续与离散:称随机变量 X X X是连续的,若 F X ( x ) F_X(x) FX(x)是连续的;称随机变量 X X X是离散的,若 F X ( x ) F_X(x) FX(x)是 step function \text{step function} step function
-
同分布:称随机变量 X , Y X,Y X,Y同分布,若 ∀ A ∈ B 1 \forall A\in\mathcal{B}^1 ∀A∈B1,其中 B 1 \mathcal{B}^1 B1是最小的包含区间 ( a , b ) , [ a , b ) , ( a , b ] , [ a , b ] (a,b),[a,b),(a,b],[a,b] (a,b),[a,b),(a,b],[a,b]的 σ \sigma σ代数,且 P ( X ∈ A ) = P ( Y ∈ A ) P(X\in A)=P(Y\in A) P(X∈A)=P(Y∈A)
-
定理:下面两个陈述等价:
- 随机变量 X , Y X,Y X,Y同分布
- ∀ x , F X ( x ) = F Y ( x ) \forall x,F_X(x)=F_Y(x) ∀x,FX(x)=FY(x)
注意 F X F_X FX完全决定了随机变量 X X X的概率分布
-
概率质量函数 pmf \text{pmf} pmf: f X ( x ) = P X ( X = x ) f_X(x)=P_X(X=x) fX(x)=PX(X=x)
-
概率密度函数 pdf \text{pdf} pdf: F X ( x ) = ∫ − ∞ x f X ( t ) d t F_X(x)=\int_{-\infty}^xf_X(t)\text{d}t FX(x)=∫−∞xfX(t)dt
-
定理: f X ( x ) f_X(x) fX(x)是某个随机变量 X X X的 pdf \text{pdf} pdf(或 pmf \text{pmf} pmf),当前仅当以下两个条件成立:
- ∀ x , f X ( x ) ≥ 0 \forall x,f_X(x)\ge 0 ∀x,fX(x)≥0
- ∑ x f X ( x ) = 1 \sum_xf_X(x)=1 ∑xfX(x)=1(或 ∫ − ∞ + ∞ f X ( x ) d x = 1 \int_{-\infty}^{+\infty}f_X(x)\text{d}x=1 ∫−∞+∞fX(x)dx=1)
Lecture 2 变换与期望
2.1 随机变量的分布函数
-
连续随机变量的函数:连续随机变量 X X X的任意函数 Y = g ( X ) Y=g(X) Y=g(X)也是随机变量
g ( X ) : X → Y g − 1 ( A ) = { x ∈ X : g ( x ) ∈ A } P ( Y ∈ A ) = P ( g ( X ) ∈ A ) = P ( { x ∈ X : g ( x ) ∈ A } ) = P ( X ∈ g − 1 ( A ) ) g(X):\mathcal{X}\rightarrow \mathcal{Y}\\ g^{-1}(A)=\{x\in\mathcal{X}:g(x)\in A\}\\ P(Y\in A)=P(g(X)\in A)=P(\{x\in\mathcal{X}:g(x)\in A\})=P(X\in g^{-1}(A)) g(X):X→Yg−1(A)={x∈X:g(x)∈A}P(Y∈A)=P(g(X)∈A)=P({x∈X:g(x)∈A})=P(X∈g−1(A)) -
离散随机变量的函数:离散随机变量的任意函数 Y = g ( X ) Y=g(X) Y=g(X)的样本空间 Y = { y : y = g ( x ) , x ∈ X } \mathcal{Y}=\{y:y=g(x),x\in\mathcal{X}\} Y={y:y=g(x),x∈X}也是一个可数集
P ( Y = y ) = ∑ x ∈ g − 1 ( y ) P ( X = x ) y ∈ Y P(Y=y)=\sum_{x\in g^{-1}(y)}P(X=x)\quad y\in\mathcal{Y} P(Y=y)=x∈g−1(y)∑P(X=x)y∈Y -
Y = g ( X ) Y=g(X) Y=g(X)的累积分布函数:
F Y ( y ) = P ( Y ≤ y ) = P ( g ( X ) ≤ y ) = P ( { x ∈ X : g ( x ) ≤ y } ) = ∫ { x ∈ X : g ( x ) ≤ y } f X ( x ) d x F_Y(y)=P(Y\le y)=P(g(X)\le y)=P(\{x\in\mathcal{X}:g(x)\le y\})=\int_{\{x\in\mathcal{X}:g(x)\le y\}}f_X(x)\text{d}x FY(y)=P(Y≤y)=P(g(X)≤y)=P({x∈X:g(x)≤y})=∫{x∈X:g(x)≤y}fX(x)dx -
定理:设 X X X的 c d f \rm cdf cdf为 F X ( x ) F_X(x) FX(x), Y = g ( X ) Y=g(X) Y=g(X),它们的支撑集为 X \mathcal{X} X和 Y \mathcal{Y} Y,即 X = { x : f X ( x ) > 0 } , Y = { y : y = g ( x ) , ∃ x ∈ X } \mathcal{X}=\{x:f_X(x)>0\},\mathcal{Y}=\{y:y=g(x),\exist x\in\mathcal{X}\} X={x:fX(x)>0},Y={y:y=g(x),∃x∈X},则下述两个命题称里:
- 若 g g g是 X \mathcal{X} X上的单调增函数,则 F Y ( y ) = F X ( g − 1 ( y ) ) , y ∈ Y F_Y(y)=F_X(g^{-1}(y)),y\in\mathcal{Y} FY(y)=FX(g−1(y)),y∈Y
- 若 g g g是 X \mathcal{X} X上的单调减函数,且 X X X是连续随机变量,则 F Y ( y ) = 1 − F X ( g − 1 ( y ) ) , y ∈ Y F_Y(y)=1-F_X(g^{-1}(y)),y\in\mathcal{Y} FY(y)=1−FX(g−1(y)),y∈Y
-
均匀分布 → \rightarrow →指数分布技巧: X ∼ Uniform ( 0 , 1 ) X\sim\text{Uniform}(0,1) X∼Uniform(0,1),则 Y = − log X ∼ exp ( 1 ) Y=-\log X\sim\text{exp}(1) Y=−logX∼exp(1)
-
定理:设 X X X的 pdf \text{pdf} pdf为 f X ( x ) f_X(x) fX(x), Y = g ( X ) Y=g(X) Y=g(X),其中 g g g是单调函数,它们的支撑集为 X \mathcal{X} X和 Y \mathcal{Y} Y;设 f X ( x ) f_X(x) fX(x)在 X \mathcal{X} X上连续,且 g − 1 ( y ) g^{-1}(y) g−1(y)在 Y \mathcal{Y} Y上有连续导数,则 Y Y Y的 pdf \text{pdf} pdf具有如下的表达式:
f Y ( y ) = { f X ( g − 1 ( y ) ) ∣ d d y g − 1 ( y ) ∣ y ∈ Y 0 otherwise f_Y(y)=\left\{\begin{aligned} &f_X(g^{-1}(y))\left|\frac{\rm d}{\text{d}y}g^{-1}(y)\right|&&y\in\mathcal{Y}\\ &0&&\text{otherwise} \end{aligned}\right. fY(y)=⎩⎪⎨⎪⎧fX(g−1(y))∣∣∣∣dydg−1(y)∣∣∣∣0y∈Yotherwise -
平方变换: Y = X 2 Y=X^2 Y=X2的 cdf \text{cdf} cdf与 pdf \text{pdf} pdf计算( g g g分段单调的情况)
F Y ( y ) = F X ( y ) − F X ( − y ) y > 0 f Y ( y ) = 1 2 y [ f X ( y ) + f X ( − y ) ] y > 0 F_Y(y)=F_X(\sqrt{y})-F_X(-\sqrt{y})\quad y>0\\ f_Y(y)=\frac1{2\sqrt{y}}[f_X(\sqrt{y})+f_X(-\sqrt{y})]\quad y>0 FY(y)=FX(y )−FX(−y )y>0fY(y)=2y 1[fX(y )+fX(−y )]y>0 -
定理:设 X X X的 pdf \text{pdf} pdf为 f X ( x ) f_X(x) fX(x),支撑集为 X \mathcal{X} X, Y = g ( X ) Y=g(X) Y=g(X);设存在 X \mathcal{X} X的一个划分 A 0 , A 1 , . . . , A k A_0,A_1,...,A_k A0,A1,...,Ak使得 P ( X ∈ A 0 ) = 0 P(X\in A_0)=0 P(X∈A0)=0且 f X ( x ) f_X(x) fX(x)在每个 A i A_i Ai上连续;进一步地,设存在定义在 A 1 , . . . , A k A_1,...,A_k A1,...,Ak上的函数 g 1 ( x ) , . . . , g k ( x ) g_1(x),...,g_k(x) g1(x),...,gk(x),满足:
- g ( x ) = g i ( x ) , x ∈ A i g(x)=g_i(x),x\in A_i g(x)=gi(x),x∈Ai
- g i ( x ) g_i(x) gi(x)在 A i A_i Ai上单调, i = 1 , . . . , k i=1,...,k i=1,...,k
- Y = { y : y = g i ( x ) , ∃ x ∈ A i } \mathcal{Y}=\{y:y=g_i(x),\exist x\in A_i\} Y={y:y=gi(x),∃x∈Ai}对每个 i = 1 , 2 , . . . , k i=1,2,...,k i=1,2,...,k都相同
- g i − 1 ( y ) g^{-1}_i(y) gi−1(y)在 Y \mathcal{Y} Y上存在连续导数, i = 1 , . . . , k i=1,...,k i=1,...,k
则有:
f Y ( y ) = { ∑ i = 1 k f X ( g i − 1 ( y ) ) ∣ d d y g i − 1 ( y ) ∣ y ∈ Y 0 otherwise f_Y(y)=\left\{\begin{aligned} &\sum_{i=1}^kf_X(g_i^{-1}(y))\left|\frac{\text{d}}{\text{d}y}g_i^{-1}(y)\right|&&y\in \mathcal{Y}\\ &0&&\text{otherwise} \end{aligned}\right. fY(y)=⎩⎪⎪⎨⎪⎪⎧i=1∑kfX(gi−1(y))∣∣∣∣dydgi−1(y)∣∣∣∣0y∈Yotherwise -
卡方分布: Y = X 2 Y=X^2 Y=X2,其中 X ∼ N ( 0 , 1 ) X\sim N(0,1) X∼N(0,1),则利用上述定理:
f Y ( y ) = ∣ − 1 2 y ∣ + 1 2 π exp { − ( − y ) 2 / 2 } + ∣ 1 2 y ∣ + 1 2 π exp { − ( y ) 2 / 2 } = 1 2 π y exp { − y 2 } f_Y(y)=\left|-\frac1{2\sqrt{y}}\right|+\frac1{\sqrt{2\pi}}\text{exp}\{-(-\sqrt{y})^2/2\}+\left|\frac1{2\sqrt{y}}\right|+\frac1{\sqrt{2\pi}}\text{exp}\{-(\sqrt{y})^2/2\}=\frac1{\sqrt{2\pi y}}\exp\{-\frac y2\} fY(y)=∣∣∣∣−2y 1∣∣∣∣+2π 1exp{−(−y )2/2}+∣∣∣∣2y 1∣∣∣∣+2π 1exp{−(y )2/2}=2πy 1exp{−2y} -
定理:设 X X X有连续 cdf \text{cdf} cdf为 F X ( x ) F_X(x) FX(x),定义随机变量 Y = F X ( X ) Y=F_X(X) Y=FX(X),则 Y ∼ Uniform(0,1) Y\sim \text{Uniform(0,1)} Y∼Uniform(0,1),即 P ( Y ≤ y ) = y , 0 < y < 1 P(Y\le y)=y,0<y<1 P(Y≤y)=y,0<y<1
分析: E [ E [ Y ∣ X ] ] = E Y \mathbb{E}[\mathbb{E}[Y|X]]=\mathbb{E}Y E[E[Y∣X]]=EY, P ( F ( Y ∣ X ) ≤ y ) = P ( Y ≤ F − 1 ( y ∣ X ) ∣ X ) P(F(Y|X)\le y)=P(Y\le F^{-1}(y|X)|X) P(F(Y∣X)≤y)=P(Y≤F−1(y∣X)∣X),外面套一层期望即可
拓展:给定 X , Y , Z X,Y,Z X,Y,Z,做变换 X → F X ( X ) , Y → F ( Y ∣ X ) , Z → F ( Z ∣ X , Y ) X\rightarrow F_X(X),Y\rightarrow F(Y|X),Z\rightarrow F(Z|X,Y) X→FX(X),Y→F(Y∣X),Z→F(Z∣X,Y)得到映射后的随机变量 U , V , D U,V,D U,V,D,它们相互独立,且都服从 Uniform ( 0 , 1 ) \text{Uniform}(0,1) Uniform(0,1),这在线性回归中可以作为标准化,消除变量之间的相关性,然后就可以分别回归。( Rosenblatt \text{Rosenblatt} Rosenblatt变换)
2.2 期望值
-
期望值:
E [ g ( X ) ] = { ∫ − ∞ + ∞ g ( x ) f X ( x ) d x if X is continuous ∑ x ∈ X g ( x ) f X ( x ) if X is discrete \mathbb{E}[g(X)]=\left\{\begin{aligned} &\int_{-\infty}^{+\infty}g(x)f_X(x)\text{d}x&&\text{if }X\text{ is continuous}\\ &\sum_{x\in\mathcal{X}}g(x)f_X(x)&&\text{if }X\text{ is discrete} \end{aligned}\right. E[g(X)]=⎩⎪⎪⎪⎨⎪⎪⎪⎧∫−∞+∞g(x)fX(x)dxx∈X∑g(x)fX(x)if X is continuousif X is discrete
称期望不存在,若 E ∣ g ( X ) ∣ = ∞ \mathbb{E}|g(X)|=\infty E∣g(X)∣=∞ -
二项分布:
P ( X = x ) = C n x p x ( 1 − p ) n − x , x = 0 , 1 , . . . , n E X = n p P(X=x)=C_n^xp^x(1-p)^{n-x},x=0,1,...,n\\ \mathbb{E}X=np P(X=x)=Cnxpx(1−p)n−x,x=0,1,...,nEX=np -
柯西分布:*度为 1 1 1的 t t t分布
f X ( x ) = 1 π ( 1 + x 2 ) , x ∈ R E ∣ X ∣ = 2 π ∫ 0 + ∞ x 1 + x 2 d x f_X(x)=\frac1{\pi(1+x^2)},x\in\R\\ \mathbb{E}|X|=\frac2\pi\int_0^{+\infty}\frac x{1+x^2}\text{d}x fX(x)=π(1+x2)1,x∈RE∣X∣=π2∫0+∞1+x2xdx
注意到:
∫ 0 M x 1 + x 2 d x = log ( 1 + M 2 ) 2 \int_0^M\frac x{1+x^2}\text{d}x=\frac{\log(1+M^2)}2 ∫0M1+x2xdx=2log(1+M2)
则期望不存在。 -
几何分布: P ( X = x ) = ( 1 − p ) x − 1 p P(X=x)=(1-p)^{x-1}p P(X=x)=(1−p)x−1p, E X = 1 p \mathbb{E}X=\frac1p EX=p1
计算方法:使用定义硬算级数或写成 E X = p + ( 1 − p ) [ E X + 1 ] \mathbb{E}X=p+(1-p)[\mathbb{E}X+1] EX=p+(1−p)[EX+1]来计算
可放回的抽 n n n个球,期望需要 1 + n n − 1 + n n − 2 + . . . + n 1 1+\frac n{n-1}+\frac n{n-2}+...+\frac n1 1+n−1n+n−2n+...+1n次全部抽中
-
最小二乘损失: E ( X − b ) 2 \mathbb{E}(X-b)^2 E(X−b)2,平方损失下的最优解是期望函数,绝对损失下的最优解是中位数函数
-
作业: 1.2 , 1.38 , 1.53 , 1.54 1.2,1.38,1.53,1.54 1.2,1.38,1.53,1.54
2.3 矩母函数
-
矩:
- n n n阶矩: E X n \mathbb{E}X^n EXn
- n n n阶中心距: E ( X − μ ) n \mathbb{E}(X-\mu)^n E(X−μ)n,其中 μ = E X \mu=\mathbb{E}X μ=EX
- 方差是 2 2 2阶中心距
-
矩母函数 mgf \text{mgf} mgf:设 X X X的 cdf \text{cdf} cdf为 F X F_X FX,则矩母函数定义为:
M X ( t ) = E e t X M_X(t)=\mathbb{E}e^{tX} MX(t)=EetX
若 t t t取在 0 0 0的某个邻域内期望存在,即存在 h > 0 h>0 h>0,使得 ∀ t ∈ ( − h , h ) \forall t\in(-h,h) ∀t∈(−h,h)有期望存在称矩母函数不存在,若上述期望不存在
-
定理:若 X X X存在矩母函数 M X ( t ) M_X(t) MX(t),则有:
E X n = M X ( n ) ( 0 ) = d n d t n M X ( t ) ∣ t = 0 d d t M X ( t ) = E X e t X d d t M X ( t ) ∣ t = 0 = E X M X ( t ) = ∑ k = 0 + ∞ E X k k ! t k \mathbb{E}X^n=M_X^{(n)}(0)=\left.\frac{\text{d}^n}{\text{d}t^n}M_X(t)\right|_{t=0}\\ \frac{\text{d}}{\text{d}t}M_X(t)=\mathbb{E}Xe^{tX}\\ \left.\frac{\text{d}}{\text{d}t}M_X(t)\right|_{t=0}=\mathbb{E}X\\ M_X(t)=\sum_{k=0}^{+\infty}\frac{\mathbb{E}X^k}{k!}t^k EXn=MX(n)(0)=dtndnMX(t)∣∣∣∣t=0dtdMX(t)=EXetXdtdMX(t)∣∣∣∣t=0=EXMX(t)=k=0∑+∞k!EXktk -
Γ \Gamma Γ分布的矩母函数: X ∼ Γ ( α , β ) , α > 0 , β > 0 X\sim\Gamma(\alpha,\beta),\alpha>0,\beta>0 X∼Γ(α,β),α>0,β>0
f ( x ) = 1 Γ ( α ) β α x α − 1 e − x β , x > 0 f(x)=\frac1{\Gamma(\alpha)\beta^\alpha}x^{\alpha-1}e^{-\frac x\beta},x>0 f(x)=Γ(α)βα1xα−1e−βx,x>0
其中:
Γ ( α ) = ∫ 0 + ∞ t α − 1 e − t d t \Gamma(\alpha)=\int_0^{+\infty}t^{\alpha-1}e^{-t}\text{d}t Γ(α)=∫0+∞tα−1e−tdt
则 X X X的矩母函数为:
M X ( t ) = ( 1 1 − β t ) α , t < 1 β M_X(t)=\left(\frac1{1-\beta t}\right)^\alpha,t<\frac1\beta MX(t)=(1−βt1)α,t<β1 -
二项分布的矩母函数: X ∈ Binomial ( n , p ) X\in \text{Binomial}(n,p) X∈Binomial(n,p)
M X ( t ) = [ p e t + ( 1 − p ) ] n M_X(t)=[pe^t+(1-p)]^n MX(t)=[pet+(1−p)]n -
矩母函数性质:
-
Y = a X + b Y=aX+b Y=aX+b,则 M Y ( t ) = e b t M X ( a t ) M_Y(t)=e^{bt}M_X(at) MY(t)=ebtMX(at)
-
Y = X 1 + X 2 + . . . + X n Y=X_1+X_2+...+X_n Y=X1+X2+...+Xn,则 M Y ( t ) = M X 1 ( t ) × M X 2 ( t ) × . . . × M X n ( t ) M_Y(t)=M_{X_1}(t)\times M_{X_2}(t)\times ...\times M_{X_n}(t) MY(t)=MX1(t)×MX2(t)×...×MXn(t)
-
矩母函数唯一确定随机变量的分布,但任意阶矩是不行的
考虑下面两个 pdf \text{pdf} pdf:它们的任意阶矩都相等,但是它们是不同分布的:
f 1 ( x ) = 1 2 π x e − log 2 x / 2 x > 0 f 2 ( x ) = f 1 ( x ) [ 1 + sin ( 2 π log x ) ] x > 0 f_1(x)=\frac1{\sqrt{2\pi}x}e^{-\log^2x/2}\quad x>0\\ f_2(x)=f_1(x)[1+\sin(2\pi\log x)]\quad x>0 f1(x)=2π x1e−log2x/2x>0f2(x)=f1(x)[1+sin(2πlogx)]x>0
-
-
定理:设 F X ( x ) F_X(x) FX(x)和 F Y ( y ) F_Y(y) FY(y)是两个存在矩的 cdf \text{cdf} cdf,则有如下命题成立:
- 若 X , Y X,Y X,Y存在有界的支撑集,则 F X ( u ) = F Y ( u ) F_X(u)=F_Y(u) FX(u)=FY(u)对任意 u u u成立,当且仅当 E X r = E Y r \mathbb{E}X^r=\mathbb{E}Y^r EXr=EYr对任意整数 r = 0 , 1 , 2 , . . . r=0,1,2,... r=0,1,2,...成立
- 若矩母函数存在且 M x ( t ) = M Y ( t ) M_x(t)=M_Y(t) Mx(t)=MY(t)对任意 t t t在 0 0 0的某个邻域中成立,则 F X ( u ) = F Y ( u ) F_X(u)=F_Y(u) FX(u)=FY(u)对任意 u u u成立
-
定理:设 { X i : i = 1 , 2 , . . . } \{X_i:i=1,2,...\} {Xi:i=1,2,...}是一系列随机变量,矩母函数为 M X i ( t ) M_{X_i}(t) MXi(t),假设:
lim i → + ∞ M X i ( t ) = M X ( t ) \lim_{i\rightarrow +\infty}M_{X_i}(t)=M_X(t) i→+∞limMXi(t)=MX(t)对任意 t t t在 0 0 0的某个邻域中成立,且 M X ( t ) M_X(t) MX(t)是一个矩母函数,则存在唯一的 cdf \text{cdf} cdf,记为 F X F_X FX,它的矩被 M X ( t ) M_X(t) MX(t)确定,且 ∀ x \forall x ∀x有 F X ( x ) F_X(x) FX(x)连续,我们有:
lim i → + ∞ F X i ( x ) = F X ( x ) \lim_{i\rightarrow +\infty}F_{X_i}(x)=F_X(x) i→+∞limFXi(x)=FX(x)
即矩母函数的收敛性能够推导出 cdf \text{cdf} cdf的收敛性 -
泊松近似: Binomial ( n , p ) \text{Binomial}(n,p) Binomial(n,p)近似 Poisson ( n p ) \text{Poisson}(np) Poisson(np),若 n n n非常大, p p p非常小,且 n p np np较小。
事实上 Binomial ( n , p ) \text{Binomial}(n,p) Binomial(n,p)分布的矩母函数 M X ( t ) = [ p e t + ( 1 − p ) ] n M_X(t)=[pe^t+(1-p)]^n MX(t)=[pet+(1−p)]n就会收敛到 Poisson ( λ ) \text{Poisson}(\lambda) Poisson(λ)的矩母函数 e λ ( e t − 1 ) e^{\lambda}(e^t-1) eλ(et−1)
-
特征函数:特征函数提供了另一种描述随机变量的方法,定义为 ϕ X ( t ) = E ( e i t X ) \phi_X(t)=\mathbb{E}(e^{itX}) ϕX(t)=E(eitX),这个跟矩母函数很相似,也可以唯一确定随机变量的分布,仅仅是添加了一个复数符号 i i i,但是这意味着特征函数一定存在(有界性推论)。
-
特征函数性质:
- 有界性: ∣ ϕ ( t ) ∣ ≤ 1 |\phi(t)|\le 1 ∣ϕ(t)∣≤1
- 共轭性: ϕ ( − t ) = ϕ ˉ ( t ) \phi(-t)=\bar\phi(t) ϕ(−t)=ϕˉ(t)
- 特征函数在全空间一致连续
- Y = a X + b Y=aX+b Y=aX+b,则 ϕ Y ( t ) = e i t b ϕ X ( a t ) \phi_Y(t)=e^{itb}\phi_X(at) ϕY(t)=eitbϕX(at)
- 若随机变量 X X X有 k k k阶矩,则特征函数 ϕ X ( t ) \phi_X(t) ϕX(t)是 k k k阶连续可微在实数轴上,此时有 E ( X k ) = ( − i ) k ϕ X ( k ) ( 0 ) \mathbb{E}(X^k)=(-i)^k\phi_{X}^{(k)}(0) E(Xk)=(−i)kϕX(k)(0)
-
定理:若 ϕ X \phi_X ϕX是分布函数 F X F_X FX的特征函数,且 F X F_X FX在 a , b a,b a,b两个点处连续,则:
F X ( b ) − F X ( a ) = 1 2 π lim T → + ∞ ∫ − T + T e − i t a − e − i t b i t ϕ X ( t ) d t F_X(b)-F_X(a)=\frac1{2\pi}\lim_{T\rightarrow+\infty}\int_{-T}^{+T}\frac{e^{-ita}-e^{-itb}}{it}\phi_X(t)\text{d}t FX(b)−FX(a)=2π1T→+∞lim∫−T+Tite−ita−e−itbϕX(t)dt
该公式可以改写为下面更适合于数值计算的形式:
F ( x + h ) − F ( x − h ) 2 h = 1 2 π ∫ − i n f t y + ∞ sin h t h t e − i t x ϕ X ( t ) d t \frac{F(x+h)-F(x-h)}{2h}=\frac1{2\pi}\int_{-infty}^{+\infty}\frac{\sin ht}{ht}e^{-itx}\phi_X(t)\text{d}t 2hF(x+h)−F(x−h)=2π1∫−infty+∞htsinhte−itxϕX(t)dt -
定理:若特征函数 ϕ X \phi_X ϕX可积,则 F X F_X FX是绝对连续的,且 X X X有 pdf \text{pdf} pdf:
f X ( x ) = F X ′ ( x ) = 1 2 π = ∫ R e − i t x ϕ X ( t ) d t f_X(x)=F'_X(x)=\frac1{2\pi}=\int_\R e^{-itx}\phi_X(t)\text{d}t fX(x)=FX′(x)=2π1=∫Re−itxϕX(t)dt
推论:两个随机变量 X 1 , X 2 X_1,X_2 X1,X2具有相同的概率分布当且仅当 ϕ X 1 = ϕ X 2 \phi_{X_1}=\phi_{X_2} ϕX1=ϕX2
2.4 积分号下的微分
积分微分号交换是需要条件的。
-
莱布尼茨法则:若 f ( x , θ ) , a ( θ ) , b ( θ ) f(x,\theta),a(\theta),b(\theta) f(x,θ),a(θ),b(θ)关于 θ \theta θ可微,则:(固定两个对第三个求导,做三次即可)
d d θ ∫ a ( θ ) b ( θ ) f ( x , θ ) d x = f ( b ( θ ) , θ ) ⋅ d d θ b ( θ ) − f ( a ( θ ) , θ ) ⋅ d d θ a ( θ ) + ∫ a ( θ ) b ( θ ) ∂ ∂ θ f ( x , θ ) d x \frac{\rm d}{\text{d}\theta}\int_{a(\theta)}^{b(\theta)}f(x,\theta)\text{d}x=f(b(\theta),\theta)\cdot\frac{\rm d}{\text{d}\theta}b(\theta)-f(a(\theta),\theta)\cdot\frac{\rm d}{\text{d}\theta}a(\theta)+\int_{a(\theta)}^{b(\theta)}\frac{\partial}{\partial\theta}f(x,\theta)\text{d}x dθd∫a(θ)b(θ)f(x,θ)dx=f(b(θ),θ)⋅dθdb(θ)−f(a(θ),θ)⋅dθda(θ)+∫a(θ)b(θ)∂θ∂f(x,θ)dx
说明:若有一个微分函数的积分在有限域上,则交换顺序可行,反常积分则可能出问题。 -
定理:设函数 h ( x , y ) h(x,y) h(x,y)对任意 x x x在 y 0 y_0 y0处连续,则存在函数 g ( x ) g(x) g(x)满足:
- ∣ h ( x , y ) ∣ ≤ g ( x ) |h(x,y)|\le g(x) ∣h(x,y)∣≤g(x)对任意 x , y x,y x,y成立
- ∫ − ∞ + ∞ g ( x ) d x < + i n f t y \int_{-\infty}^{+\infty}g(x)\text{d}x<+infty ∫−∞+∞g(x)dx<+infty
则有:
lim y → y 0 ∫ − ∞ + ∞ h ( x , y ) d x = ∫ − ∞ + ∞ lim y → y 0 h ( x , y ) d x \lim_{y\rightarrow y_0}\int_{-\infty}^{+\infty}h(x,y)\text{d}x=\int_{-\infty}^{+\infty}\lim_{y\rightarrow y_0}h(x,y)\text{d}x y→y0lim∫−∞+∞h(x,y)dx=∫−∞+∞y→y0limh(x,y)dx -
定理:设 f ( x , θ ) f(x,\theta) f(x,θ)在 θ = θ 0 \theta=\theta_0 θ=θ0处可微,则存在对于每一个 x x x,都存在一个函数 g ( x , θ 0 ) g(x,\theta_0) g(x,θ0)和常数 δ 0 > 0 \delta_0>0 δ0>0,使得:
- ∣ f ( x , θ 0 + δ ) − f ( x , θ 0 ) δ ∣ ≤ g ( x , θ 0 ) \left|\frac{f(x,\theta_0+\delta)-f(x,\theta_0)}\delta\right|\le g(x,\theta_0) ∣∣∣δf(x,θ0+δ)−f(x,θ0)∣∣∣≤g(x,θ0)对任意 x x x和 ∣ δ ∣ ≤ δ 0 |\delta|\le \delta_0 ∣δ∣≤δ0
- ∫ − ∞ + ∞ g ( x , θ 0 ) d x < + ∞ \int_{-\infty}^{+\infty}g(x,\theta_0)\text{d}x<+\infty ∫−∞+∞g(x,θ0)dx<+∞
则有:
d d θ ∫ − ∞ + ∞ f ( x , θ ) d x ∣ θ = θ 0 = ∫ − ∞ + ∞ [ ∂ ∂ θ f ( x , θ ) ∣ θ = θ 0 ] d x \left.\frac{\text{d}}{\text{d}\theta}\int_{-\infty}{+\infty}f(x,\theta)\text{d}x\right|_{\theta=\theta_0}=\int_{-\infty}^{+\infty}\left[\left.\frac{\partial}{\partial \theta}f(x,\theta)\right|_{\theta=\theta_0}\right]\text{d}x dθd∫−∞+∞f(x,θ)dx∣∣∣∣θ=θ0=∫−∞+∞[∂θ∂f(x,θ)∣∣∣∣θ=θ0]dx -
推论:设 f ( x , θ ) f(x,\theta) f(x,θ)对 θ \theta θ可微,则存在 g ( x , θ ) g(x,\theta) g(x,θ)使得:
∣ ∂ ∂ θ f ( x , θ ) ∣ θ = θ 0 ∣ ≤ g ( x , θ ) \left|\left.\frac{\partial}{\partial \theta}f(x,\theta)\right|_{\theta=\theta_0}\right|\le g(x,\theta) ∣∣∣∣∣∂θ∂f(x,θ)∣∣∣∣θ=θ0∣∣∣∣∣≤g(x,θ)
对任意满足 ∣ θ ′ − θ ∣ ≤ δ 0 |\theta'-\theta|\le\delta_0 ∣θ′−θ∣≤δ0,且 ∫ − ∞ + ∞ g ( x , θ 0 ) d x < + i n f t y \int_{-\infty}^{+\infty}g(x,\theta_0)\text{d}x<+infty ∫−∞+∞g(x,θ0)dx<+infty,则有:
d d θ ∫ − ∞ + ∞ f ( x , θ ) d x = ∫ − ∞ + ∞ ∂ ∂ θ f ( x , θ ) d x \frac{\text{d}}{\text{d}\theta}\int_{-\infty}^{+\infty}f(x,\theta)\text{d}x=\int_{-\infty}^{+\infty}\frac{\partial}{\partial\theta}f(x,\theta)\text{d}x dθd∫−∞+∞f(x,θ)dx=∫−∞+∞∂θ∂f(x,θ)dx -
作业: 2.14 , 2.18 , 2.26 , 2.40 2.14,2.18,2.26,2.40 2.14,2.18,2.26,2.40
Chapter 3 常见分布族
3.1 离散型分布
-
离散均匀分布 Uniform ( 1 , N ) \text{Uniform}(1,N) Uniform(1,N):
P ( X = x ∣ N ) = 1 N x = 1 , . . . , N E X = N + 1 2 Var ( X ) = ( N + 1 ) ( N − 1 ) 12 P(X=x|N)=\frac1N\quad x=1,...,N\\ \mathbb{E}X=\frac{N+1}2\\ \text{Var}(X)=\frac{(N+1)(N-1)}{12} P(X=x∣N)=N1x=1,...,NEX=2N+1Var(X)=12(N+1)(N−1) -
超几何分布 H ( N , M , K ) H(N,M,K) H(N,M,K):从 N N N个球(其中 M M M个球是红色)中取 K K K个球
P ( X = x ∣ N , M , K ) = C M x C N − M K − x C N K E X = K M N Var ( X ) = K M ( N − M ) ( N − K ) N 2 ( N − 1 ) P(X=x|N,M,K)=\frac{C_{M}^xC_{N-M}^{K-x}}{C_{N}^K}\\ \mathbb{E}X=\frac{KM}N\\ \text{Var}(X)=\frac{KM(N-M)(N-K)}{N^2(N-1)} P(X=x∣N,M,K)=CNKCMxCN−MK−xEX=NKMVar(X)=N2(N−1)KM(N−M)(N−K)
事实上超几何分布的期望方差与二项分布具有一致性: n = M , p = K N n=M,p=\frac KN n=M,p=NK,方差乘以 N − M N − 1 \frac{N-M}{N-1} N−1N−M的系数 -
二项分布 Binomial ( n , p ) \text{Binomial}(n,p) Binomial(n,p):
P ( Y = y ∣ n , p ) = C n y p y ( 1 − p ) n − y y = 0 , 1 , 2 , . . . , n E Y = n p Var ( Y ) = n p ( 1 − p ) M Y ( t ) = [ p e t + ( 1 − p ) ] n P(Y=y|n,p)=C_n^yp^y(1-p)^{n-y}\quad y=0,1,2,...,n\\ \mathbb{E}Y=np\\ \text{Var}(Y)=np(1-p)\\ M_Y(t)=[pe^t+(1-p)]^n P(Y=y∣n,p)=Cnypy(1−p)n−yy=0,1,2,...,nEY=npVar(Y)=np(1−p)MY(t)=[pet+(1−p)]n -
泊松分布 Poisson ( λ ) \text{Poisson}(\lambda) Poisson(λ):
P ( X = x ∣ λ ) = e − λ λ x x ! E X = Var ( X ) = λ M X ( t ) = e λ ( e t − 1 ) ϕ X ( t ) = e λ ( e i t − 1 ) P(X=x|\lambda)=e^{-\lambda}\frac{\lambda^x}{x!}\\ \mathbb{E}X=\text{Var}(X)=\lambda\\ M_X(t)=e^{\lambda}(e^t-1)\\ \phi_X(t)=e^{\lambda(e^{it}-1)} P(X=x∣λ)=e−λx!λxEX=Var(X)=λMX(t)=eλ(et−1)ϕX(t)=eλ(eit−1)
泊松分布的可加性:若 X i ∼ Poisson ( λ i ) X_{i}\sim \text{Poisson}(\lambda_i) Xi∼Poisson(λi)且相互独立,则有:
X 1 + X 2 ∼ Poisson ( λ 1 + λ 2 ) P ( X i = x ∣ X 1 + X 2 = k ) = C k x θ i x ( 1 − θ i ) k − x θ i = λ i λ 1 + λ 2 i = 1 , 2 X_1+X_2\sim\text{Poisson}(\lambda_1+\lambda_2)\\ P(X_i=x|X_1+X_2=k)=C_k^x\theta_i^x(1-\theta_i)^{k-x}\\ \theta_i=\frac{\lambda_i}{\lambda_1+\lambda_2}\quad i=1,2 X1+X2∼Poisson(λ1+λ2)P(Xi=x∣X1+X2=k)=Ckxθix(1−θi)k−xθi=λ1+λ2λii=1,2
泊松分布的正态渐近性: λ → + ∞ , X − λ λ → N ( 0 , 1 ) \lambda\rightarrow+\infty,\frac{X-\lambda}{\sqrt{\lambda}}\rightarrow N(0,1) λ→+∞,λ X−λ→N(0,1)(中心极限定理) -
负二项分布(帕斯卡分布) N B ( r , p ) NB(r,p) NB(r,p):
P ( X = x ∣ r , p ) = C x − 1 r − 1 p r ( 1 − p ) x − r x = r , r + 1 , . . . P(X=x|r,p)=C_{x-1}^{r-1}p^r(1-p)^{x-r}\quad x=r,r+1,...\\ P(X=x∣r,p)=Cx−1r−1pr(1−p)x−rx=r,r+1,...
令 Y = X − r Y=X-r Y=X−r,有:
E Y = r ( 1 − p ) p Var ( Y ) = r ( 1 − p ) p 2 = E Y + 1 r E 2 Y \mathbb{E}Y=\frac{r(1-p)}p\\ \text{Var}(Y)=\frac{r(1-p)}{p^2}=\mathbb{E}Y+\frac1r\mathbb{E}^2Y EY=pr(1−p)Var(Y)=p2r(1−p)=EY+r1E2Y -
几何分布 Geometric ( p ) \text{Geometric}(p) Geometric(p):在负二项分布中令 r = 1 r=1 r=1即可
P ( X = x ∣ p ) = p ( 1 − p ) x − 1 x = 1 , 2 , . . . E X = 1 p Var ( X ) = 1 − p p 2 P(X=x|p)=p(1-p)^{x-1}\quad x=1,2,...\\ \mathbb{E}X=\frac1p\\ \text{Var}(X)=\frac{1-p}{p^2} P(X=x∣p)=p(1−p)x−1x=1,2,...EX=p1Var(X)=p21−p
几何分布的无记忆性:
P ( X > s ∣ X > t ) = P ( X > s − t ) = ( 1 − p ) s − t P(X>s|X>t)=P(X>s-t)=(1-p)^{s-t} P(X>s∣X>t)=P(X>s−t)=(1−p)s−t
3.2 连续型分布
-
连续均匀分布 Uniform ( a , b ) \text{Uniform}(a,b) Uniform(a,b):
f ( x ∣ a , b ) = { 1 b − a a ≤ x ≤ b 0 otherwise E X = a + b 2 Var ( X ) = ( b − a ) 2 12 f(x|a,b)=\left\{\begin{aligned} &\frac1{b-a}&&a\le x\le b\\ &0&&\text{otherwise} \end{aligned}\right.\\ \mathbb{E}X=\frac{a+b}2\\ \text{Var}(X)=\frac{(b-a)^2}{12} f(x∣a,b)=⎩⎨⎧b−a10a≤x≤botherwiseEX=2a+bVar(X)=12(b−a)2 -
伽马分布 Gamma ( α , β ) \text{Gamma}(\alpha,\beta) Gamma(α,β):
f ( x ∣ α , β ) = 1 Γ ( α ) β α x α − 1 e − x β x > 0 , α > 0 , β > 0 Γ ( α ) = ∫ 0 + ∞ t α − 1 e − t d t E X = α β Var ( X ) = α β 2 M X ( t ) = ( 1 1 − β t ) α t < 1 β f(x|\alpha,\beta)=\frac1{\Gamma(\alpha)\beta^\alpha}x^{\alpha-1}e^{-\frac x\beta}\quad x>0,\alpha>0,\beta>0\\ \Gamma(\alpha)=\int_0^{+\infty}t^{\alpha-1}e^{-t}\text{d}t\\ \mathbb{E}X=\alpha\beta\\ \text{Var}(X)=\alpha\beta^2\\ M_X(t)=\left(\frac1{1-\beta t}\right)^{\alpha}\quad t<\frac1\beta f(x∣α,β)=Γ(α)βα1xα−1e−βxx>0,α>0,β>0Γ(α)=∫0+∞tα−1e−tdtEX=αβVar(X)=αβ2MX(t)=(1−βt1)αt<β1
α \alpha α参数可加性: β \beta β参数不具有可加性与卡方分布及指数分布的联系: α = 1 \alpha=1 α=1对应指数分布, α = n 2 , β = 2 \alpha=\frac n2,\beta=2 α=2n,β=2对应卡方分布(*度为 n n n,只能为偶数)
-
指数分布 Exp ( β ) \text{Exp}(\beta) Exp(β):在伽马分布中令 α = 1 \alpha=1 α=1即可
f ( x ∣ β ) = 1 β e − x β x > 0 E X = β Var ( X ) = β 2 f(x|\beta)=\frac1\beta e^{-\frac x\beta}\quad x>0\\ \mathbb{E}X=\beta\\ \text{Var}(X)=\beta^2 f(x∣β)=β1e−βxx>0EX=βVar(X)=β2
指数分布的无记忆性: P ( X > s ∣ X > t ) = P ( X > s − t ) P(X>s|X>t)=P(X>s-t) P(X>s∣X>t)=P(X>s−t)与均匀分布的联系:若 Y ∼ Uniform ( 0 , 1 ) Y\sim\text{Uniform}(0,1) Y∼Uniform(0,1),则
- X = log Y ∼ Exp ( 1 ) X=\log Y\sim\text{Exp}(1) X=logY∼Exp(1)
-
X = − β log Y ∼ Exp ( β ) ∼ Gamma ( 1 , β ) X=-\beta \log Y\sim\text{Exp}(\beta)\sim \text{Gamma}(1,\beta) X=−βlogY∼Exp(β)∼Gamma(1,β)
- X = − 2 log Y ∼ Gamma ( 1 , 2 ) ∼ X 2 ( 2 ) X=-2\log Y\sim\text{Gamma}(1,2)\sim\mathcal{X}^2(2) X=−2logY∼Gamma(1,2)∼X2(2)
-
正态分布 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2):
f ( x ∣ μ , σ 2 ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 E X = μ Var ( X ) = σ 2 f(x|\mu,\sigma^2)=\frac1{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}\\ \mathbb{E}X=\mu\\ \text{Var}(X)=\sigma^2 f(x∣μ,σ2)=2π σ1e−2σ2(x−μ)2EX=μVar(X)=σ2
正态分布标准化: Z = X − μ σ ∼ N ( 0 , 1 ) Z=\frac{X-\mu}{\sigma}\sim N(0,1) Z=σX−μ∼N(0,1), ϕ ( x ) = ϕ ( − x ) \phi(x)=\phi(-x) ϕ(x)=ϕ(−x), Φ ( x ) = 1 − ϕ ( − x ) \Phi(x)=1-\phi(-x) Φ(x)=1−ϕ(−x)相互独立的正态分布随机变量的线性组合仍然是正态分布:不可以放缩到不相关(反例: X 1 = δ 1 Z , X 2 = δ 2 Z X_1=\delta_1 Z,X_2=\delta_2 Z X1=δ1Z,X2=δ2Z,可以证明 X 1 , X 2 X_1,X_2 X1,X2的 c d f \rm cdf cdf依然是正态分布,其中 δ i \delta_i δi是等概率取值 { − 1 , 1 } \{-1,1\} {−1,1}的随机变量)
-
对数正态分布 ln X ∼ N ( μ , σ 2 ) \ln X\sim N(\mu,\sigma^2) lnX∼N(μ,σ2):
f ( x ∣ μ , σ 2 ) = 1 x 2 π σ e − ( log x − μ ) 2 2 σ 2 E X = E e log X = e μ + σ 2 2 f(x|\mu,\sigma^2)=\frac1{x\sqrt{2\pi}\sigma}e^{-\frac{(\log x-\mu)^2}{2\sigma^2}}\\ \mathbb{E}X=\mathbb{E}e^{\log X}=e^{\mu+\frac{\sigma^2} 2} f(x∣μ,σ2)=x2π σ1e−2σ2(logx−μ)2EX=EelogX=eμ+2σ2 -
t t t分布: X = Z Y / n X=\frac{Z}{\sqrt{Y/n}} X=Y/n Z,其中 Z ∼ N ( 0 , 1 ) , Y ∼ X 2 ( n ) Z\sim N(0,1),Y\sim \mathcal{X}^2(n) Z∼N(0,1),Y∼X2(n)
f ( t ) = Γ ( n + 1 2 ) n π Γ ( n 2 ) ( 1 + t 2 n ) − n + 1 2 E X = 0 n > 1 Var ( X ) = n n − 2 n > 2 f(t)=\frac{\Gamma\left(\frac{n+1}2\right)}{\sqrt{n\pi}\Gamma\left(\frac n2\right)}\left(1+\frac{t^2}n\right)^{-\frac{n+1}{2}}\\ \mathbb{E}X=0\quad n>1\\ \text{Var}(X)=\frac n{n-2}\quad n>2 f(t)=nπ Γ(2n)Γ(2n+1)(1+nt2)−2n+1EX=0n>1Var(X)=n−2nn>2
其中 n n n表示 t t t分布的*度 -
F F F分布: X / m Y / n ∼ F ( m , n ) \frac{X/m}{Y/n}\sim F(m,n) Y/nX/m∼F(m,n),其中 X ∼ X 2 ( m ) , Y ∼ X 2 ( n ) X\sim\mathcal{X}^2(m),Y\sim \mathcal{X}^2(n) X∼X2(m),Y∼X2(n)
E X = n n − 2 n > 2 Var ( X ) = 2 ( n n − 1 ) 2 m + n − 2 m ( n − 4 ) n > 4 \mathbb{E}X=\frac n{n-2}\quad n>2\\ \text{Var}(X)=2\left(\frac n{n-1}\right)^2\frac{m+n-2}{m(n-4)}\quad n>4\\ EX=n−2nn>2Var(X)=2(n−1n)2m(n−4)m+n−2n>4
分位数: F α ( m , n ) = [ F 1 − α ( n , m ) ] − 1 F_\alpha(m,n)=[F_{1-\alpha}(n,m)]^{-1} Fα(m,n)=[F1−α(n,m)]−1三条性质:
- 若 X ∼ F ( p , q ) X\sim F(p,q) X∼F(p,q),则 1 X ∼ F ( q , p ) \frac 1X\sim F(q,p) X1∼F(q,p)
- 若 X ∼ t ( q ) X\sim t(q) X∼t(q),则 X 2 ∼ F ( 1 , q ) X^2\sim F(1,q) X2∼F(1,q)
- 若 X ∼ F ( p , q ) X\sim F(p,q) X∼F(p,q),则 ( p / q ) X / ( 1 + ( p / q ) X ) ∼ β ( p 2 , q 2 ) (p/q)X/(1+(p/q)X)\sim\beta(\frac p2,\frac q2) (p/q)X/(1+(p/q)X)∼β(2p,2q)
-
β \beta β分布 Be ( α , β ) \text{Be}(\alpha,\beta) Be(α,β):
f ( x ; α , β ) = Γ ( α + β ) Γ ( α ) Γ ( β ) x α − 1 ( 1 − x ) β − 1 = 1 B ( α , β ) x α − 1 ( 1 − x ) β − 1 f(x;\alpha,\beta)=\frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)}x^{\alpha-1}(1-x)^{\beta-1}=\frac1{B(\alpha,\beta)}x^{\alpha-1}(1-x)^{\beta-1} f(x;α,β)=Γ(α)Γ(β)Γ(α+β)xα−1(1−x)β−1=B(α,β)1xα−1(1−x)β−1- 众数: α − 1 α + β − 2 \frac{\alpha-1}{\alpha+\beta-2} α+β−2α−1
- 数学期望: μ = E ( X ) = α α + β \mu=\mathbb{E}(X)=\frac{\alpha}{\alpha+\beta} μ=E(X)=α+βα
- 方差: Var ( X ) = E ( X − μ ) 2 = α β ( α + β ) 2 ( α + β + 1 ) \text{Var}(X)=\mathbb{E}(X-\mu)^2=\frac{\alpha\beta}{(\alpha+\beta)^2(\alpha+\beta+1)} Var(X)=E(X−μ)2=(α+β)2(α+β+1)αβ
四条性质:
- 若 X ∼ Be ( α , β ) X\sim \text{Be}(\alpha,\beta) X∼Be(α,β),则 1 − X ∼ Be ( β , α ) 1-X\sim \text{Be}(\beta,\alpha) 1−X∼Be(β,α)
- 若 X ∼ Be ( 1 , 1 ) X\sim\text{Be}(1,1) X∼Be(1,1),则 X ∼ Uniform ( 0 , 1 ) X\sim\text{Uniform}(0,1) X∼Uniform(0,1)
- 设 X ∼ Gamma ( α , λ ) , Y ∼ Gamma ( β , λ ) X\sim\text{Gamma}(\alpha,\lambda),Y\sim\text{Gamma}(\beta,\lambda) X∼Gamma(α,λ),Y∼Gamma(β,λ),且 X , Y X,Y X,Y相互独立,则 U = X X + Y ∼ Be ( α , β ) , V = X + Y ∼ Gamma ( α + β , λ ) U=\frac X{X+Y}\sim\text{Be}(\alpha,\beta),V=X+Y\sim\text{Gamma}(\alpha+\beta,\lambda) U=X+YX∼Be(α,β),V=X+Y∼Gamma(α+β,λ),且 U , V U,V U,V相互独立
- 均匀分布的次序统计量服从 β \beta β分布:从连续型均匀分布中随机采样 n n n个样本,第 k k k小的样本取值服从分布 Be ( k , n + 1 − k ) \text{Be}(k,n+1-k) Be(k,n+1−k)
3.3 指数分布族
-
指数分布族: pdf \text{pdf} pdf或 pmf \text{pmf} pmf具有如下形式:
f ( x ∣ θ ) h ( x ) c ( θ ) exp ( ∑ i = 1 k w i ( θ ) t i ( x ) ) f(x|\theta)h(x)c(\theta)\text{exp}\left(\sum_{i=1}^kw_i(\theta)t_i(x)\right) f(x∣θ)h(x)c(θ)exp(i=1∑kwi(θ)ti(x))
其中 h ( x ) ≥ 0 , c ( θ ) ≥ 0 h(x)\ge 0,c(\theta)\ge0 h(x)≥0,c(θ)≥0,且支撑集与 θ \theta θ无关 -
二项分布:
f ( x ∣ p ) = C n x ( 1 − p ) n e log ( p 1 − p ) x f(x|p)=C_n^x(1-p)^ne^{\log\left(\frac p{1-p}\right)x} f(x∣p)=Cnx(1−p)nelog(1−pp)x
使用下面的定理有:
d d p ω 1 ( p ) = d d p log p 1 − p = 1 p ( 1 − p ) d d p log c ( p ) = d d p n log ( 1 − p ) = − n ( 1 − p ) \frac{\rm d}{\text{d}p}\omega_1(p)=\frac{\rm d}{\text{d}p}\log\frac p{1-p}=\frac 1{p(1-p)}\\ \frac{\rm d}{\text{d}p}\log c(p)=\frac{\rm d}{\text{d}p}n\log(1-p)=-\frac n{(1-p)}\\ dpdω1(p)=dpdlog1−pp=p(1−p)1dpdlogc(p)=dpdnlog(1−p)=−(1−p)n
代入有 E { 1 p ( 1 − p ) X } = n 1 − p \mathbb{E}\left\{\frac{1}{p(1-p)}X\right\}=\frac n{1-p} E{p(1−p)1X}=1−pn,即 E X = n p \mathbb{E}X=np EX=np -
定理:若随机变量 X X X的或 pmf \text{pmf} pmf具有如下形式(指数分布族)
f ( x ∣ θ ) h ( x ) c ( θ ) exp ( ∑ i = 1 k w i ( θ ) t i ( x ) ) f(x|\theta)h(x)c(\theta)\text{exp}\left(\sum_{i=1}^kw_i(\theta)t_i(x)\right) f(x∣θ)h(x)c(θ)exp(i=1∑kwi(θ)ti(x))
则
E ( ∑ i = 1 k ∂ w i ( θ ) ∂ θ j t i ( X ) ) = − ∂ ∂ θ j log c ( θ ) Var ( ∑ i = 1 k ∂ w i ( θ ) ∂ θ j t i ( X ) ) = − ∂ 2 ∂ θ j 2 log c ( θ ) − E ( ∑ i = 1 k ∂ 2 w i ( θ ) ∂ θ j 2 t i ( X ) ) \mathbb{E}\left(\sum_{i=1}^k\frac{\partial w_i(\theta)}{\partial \theta_j}t_i(X)\right)=-\frac{\partial}{\partial \theta_j}\log c(\theta)\\ \text{Var}\left(\sum_{i=1}^k\frac{\partial w_i(\theta)}{\partial \theta_j}t_i(X)\right)=-\frac{\partial^2}{\partial \theta_j^2}\log c(\theta)-\mathbb{E}\left(\sum_{i=1}^k\frac{\partial^2 w_i(\theta)}{\partial \theta_j^2}t_i(X)\right) E(i=1∑k∂θj∂wi(θ)ti(X))=−∂θj∂logc(θ)Var(i=1∑k∂θj∂wi(θ)ti(X))=−∂θj2∂2logc(θ)−E(i=1∑k∂θj2∂2wi(θ)ti(X)) -
常见指数分布族:正态分布,二项分布,多项分布,泊松分布, β β β分布,伽马分布,对数正态分布
-
非指数分布族:均匀分布,带有位置参数的指数分布,超几何分布,柯西分布
3.4 位置与尺度族
-
位置与尺度:令 f ( x ) f(x) f(x)是 pdf \text{pdf} pdf,设 μ \mu μ和 σ > 0 \sigma>0 σ>0是给定的常数,则 g ( x ∣ μ , σ ) = 1 σ f ( x − μ σ ) g(x|\mu,\sigma)=\frac 1\sigma f\left(\frac {x-\mu}\sigma\right) g(x∣μ,σ)=σ1f(σx−μ)也是一个 pdf \text{pdf} pdf,其中 μ \mu μ称为位置参数, μ \mu μ为尺度参数。
-
定理:随机变量 X X X的 pdf \text{pdf} pdf为 1 σ f ( x − μ σ ) \frac 1\sigma f\left(\frac {x-\mu}\sigma\right) σ1f(σx−μ),当且仅当存在 pdf \text{pdf} pdf为 f ( z ) f(z) f(z)的随机变量 Z Z Z,满足 X = σ Z + μ X=\sigma Z+\mu X=σZ+μ
3.5 不等式与恒等式
-
切比雪夫不等式:若 X X X为非负随机变量,则 ∀ r > 0 \forall r>0 ∀r>0,有
P ( X ≥ r ) ≤ E X r P(X\ge r)\le \frac{\mathbb{E}X} r P(X≥r)≤rEX
证明:
E X ≥ E { 1 X ≥ r X } ≥ E { 1 X ≥ r r } = r P ( X ≥ r ) \mathbb{E}X\ge \mathbb{E}\left\{\textbf{1}_{X\ge r}X\right\}\ge \mathbb{E}\left\{\textbf{1}_{X\ge r}r\right\}=rP(X\ge r) EX≥E{1X≥rX}≥E{1X≥rr}=rP(X≥r)
应用案例:-
任意具有有穷二次矩的随机变量 X X X:
P ( ∣ X − μ ∣ ≥ 2 σ ) = P ( ∣ X − μ ∣ 2 ≥ 4 σ 2 ) ≤ Var ( X ) 4 σ 2 = 1 4 P(|X-\mu|\ge 2\sigma)=P(|X-\mu|^2\ge 4\sigma^2)\le \frac{\text{Var}(X)}{4\sigma^2}=\frac 14 P(∣X−μ∣≥2σ)=P(∣X−μ∣2≥4σ2)≤4σ2Var(X)=41 -
若 mgf \text{mgf} mgf存在,则 ∀ t ≥ 0 \forall t\ge 0 ∀t≥0,有
P ( X ≥ a ) ≤ e − a t M X ( t ) P(X\ge a)\le e^{-at}M_X(t) P(X≥a)≤e−atMX(t) -
缺陷:切比雪夫不等式过于保守,事实上 P ( ∣ X − μ ∣ ≥ 2 σ ) = 1 − 0.9544 = 0.04546 P(|X-\mu|\ge 2\sigma)=1-0.9544=0.04546 P(∣X−μ∣≥2σ)=1−0.9544=0.04546
-
令 Z ∼ N ( 0 , 1 ) Z\sim N(0,1) Z∼N(0,1),可以积分算出确切的概率:
P ( ∣ Z ∣ ≥ t ) ≤ 2 π e − t 2 2 t ∀ t > 0 P ( ∣ Z ∣ ≥ 2 ) ≤ 2 π e − 2 2 = 0.054 P(|Z|\ge t)\le \sqrt{\frac{2}{\pi}}\frac{e^{-\frac{t^2}{2}}}{t}\quad \forall t>0\\ P(|Z|\ge 2)\le \sqrt{\frac{2}{\pi}}\frac{e^{-2}}{2}=0.054 P(∣Z∣≥t)≤π2 te−2t2∀t>0P(∣Z∣≥2)≤π2 2e−2=0.054
-
-
斯坦因引理:若 X ∼ N ( μ , σ 2 ) X\sim N(\mu,\sigma^2) X∼N(μ,σ2), g g g是可微函数满足 E ∣ g ′ ( X ) ∣ < + ∞ \mathbb{E}|g'(X)|<+\infty E∣g′(X)∣<+∞,则
E ∣ g ′ ( X ) ∣ = Cov ( g ( X ) , X ) / Var ( X ) \mathbb{E}|g'(X)|=\text{Cov}(g(X),X)/\text{Var}(X) E∣g′(X)∣=Cov(g(X),X)/Var(X)
若 Y = g ( X ) + ϵ Y=g(X)+\epsilon Y=g(X)+ϵ,且 ϵ \epsilon ϵ与 X X X独立,则
E ∣ g ′ ( X ) ∣ = Cov ( g ( X ) , X ) / Var ( X ) = Cov ( Y , X ) / Var ( X ) \mathbb{E}|g'(X)|=\text{Cov}(g(X),X)/\text{Var}(X)=\text{Cov}(Y,X)/\text{Var}(X) E∣g′(X)∣=Cov(g(X),X)/Var(X)=Cov(Y,X)/Var(X)即总是可以将一个随机变量写成均值与误差的形式:如线性回归 Y = β ⊤ X + ϵ Y=\beta^{\top}X+\epsilon Y=β⊤X+ϵ
斯坦因引理使得计算高阶矩更容易,假设 X ∼ N ( μ , σ 2 ) X\sim N(\mu,\sigma^2) X∼N(μ,σ2),则
E X 3 = E { X 2 ( X − μ + μ ) } = E { X 2 ( X − μ ) } + μ E X 2 = 2 σ 2 E X + μ ( σ 2 + μ 2 ) = 3 μ σ 2 + μ 3 \mathbb{E}X^3=\mathbb{E}\{X^2(X-\mu+\mu)\}=\mathbb{E}\{X^2(X-\mu)\}+\mu\mathbb{E}X^2=2\sigma^2\mathbb{E}X+\mu(\sigma^2+\mu^2)=3\mu\sigma^2+\mu^3 EX3=E{X2(X−μ+μ)}=E{X2(X−μ)}+μEX2=2σ2EX+μ(σ2+μ2)=3μσ2+μ3 -
卡方恒等式:设 X p 2 \mathcal{X}_p^2 Xp2表示*度为 p p p 卡方随机变量,则对于任意函数 h ( x ) h(x) h(x),有(若期望存在)
E h ( X p 2 ) = p E ( h ( X p + 2 2 ) X p + 2 2 ) \mathbb{E}h(\mathcal{X}_p^2)=p\mathbb{E}\left(\frac{h(\mathcal{X}_{p+2}^2)}{\mathcal{X}_{p+2}^2}\right) Eh(Xp2)=pE(Xp+22h(Xp+22))
其中卡方分布的一阶矩和二阶矩分别为:
E X p 2 = p E ( X p + 2 2 X p + 2 2 ) = p E ( X p 2 ) 2 = p E ( ( X p + 2 2 ) 2 X p + 2 2 ) = p ( p + 2 ) \mathbb{E}\mathcal{X}_p^2=p\mathbb{E}\left(\frac{\mathcal{X}_{p+2}^2}{\mathcal{X}_{p+2}^2}\right)=p\\ \mathbb{E}(\mathcal{X}_p^2)^2=p\mathbb{E}\left(\frac{(\mathcal{X}_{p+2}^2)^2}{\mathcal{X}_{p+2}^2}\right)=p(p+2)\\ EXp2=pE(Xp+22Xp+22)=pE(Xp2)2=pE(Xp+22(Xp+22)2)=p(p+2) -
作业: 3.20 , 3.23 , 3.45 , 3.47 3.20,3.23,3.45,3.47 3.20,3.23,3.45,3.47
Chapter 4 多元随机变量
4.1 联合分布与边际分布
-
联合概率质量函数:称 f ( x , y ) = P ( X = x , Y = y ) f(x,y)=P(X=x,Y=y) f(x,y)=P(X=x,Y=y)是 ( X , Y ) (X,Y) (X,Y)的联合概率质量函数,若 ( X , Y ) (X,Y) (X,Y)是离散二元随机向量。
若 g ( x , y ) g(x,y) g(x,y)是在离散二元随机向量 ( X , Y ) (X,Y) (X,Y)所有可能取值 ( x , y ) (x,y) (x,y)上都有定义的实值函数,则 g ( X , Y ) g(X,Y) g(X,Y)本身就是一个随机变量,期望计算公式为:
E g ( X , Y ) = ∑ x , y g ( x , y ) f ( x , y ) \mathbb{E}g(X,Y)=\sum_{x,y}g(x,y)f(x,y) Eg(X,Y)=x,y∑g(x,y)f(x,y) -
边际概率质量函数:即使在考察离散二元随机向量 ( X , Y ) (X,Y) (X,Y)的概率模型时,我们也可能会对其中一个随机变量的概率或期望产生兴趣。
称 f X ( x ) = P ( X = x ) = ∑ y f X , Y ( x , y ) f_X(x)=P(X=x)=\sum_yf_{X,Y}(x,y) fX(x)=P(X=x)=∑yfX,Y(x,y)是 X X X的边际概率质量函数,注意这是在给定离散二元随机向量 ( X , Y ) (X,Y) (X,Y)联合分布的概率模型条件下,离散随机变量 X X X的概率质量函数。
例题:若联合概率质量函数定义如下:
f ( 0 , 0 ) = 1 12 f ( 1 , 0 ) = 5 12 f ( 0 , 1 ) = f ( 1 , 1 ) = 1 4 f(0,0)=\frac1{12}\quad f(1,0)=\frac5{12}\quad f(0,1)=f(1,1)=\frac14 f(0,0)=121f(1,0)=125f(0,1)=f(1,1)=41-
X X X的边际概率质量函数为: f X ( 0 ) = 1 3 , f X ( 1 ) = 2 3 f_X(0)=\frac13,f_X(1)=\frac23 fX(0)=31,fX(1)=32
-
Y Y Y的边际概率质量函数为: f Y ( 0 ) = 1 2 , f Y ( 1 ) = 1 2 f_Y(0)=\frac12,f_Y(1)=\frac12 fY(0)=21,fY(1)=21
-
-
联合概率密度函数:称 f ( x , y ) f(x,y) f(x,y)为关于连续二元随机向量 ( X , Y ) (X,Y) (X,Y)的联合概率密度函数,若对于任意集合 A A A,有:
P ( ( X , Y ) ∈ A ) = ∬ A f ( x , y ) d x d y P((X,Y)\in A)=\iint_Af(x,y)\text{d}x\text{d}y P((X,Y)∈A)=∬Af(x,y)dxdy
若 g ( x , y ) g(x,y) g(x,y)是实值函数,则随机变量 g ( X , Y ) g(X,Y) g(X,Y)的期望计算公式为:
E g ( X , Y ) = ∫ − ∞ + ∞ ∫ − ∞ + ∞ g ( x , y ) f ( x , y ) d x d y \mathbb{E}g(X,Y)=\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}g(x,y)f(x,y)\text{d}x\text{d}y Eg(X,Y)=∫−∞+∞∫−∞+∞g(x,y)f(x,y)dxdy
例题:定义联合概率密度函数:
f ( x , y ) = { 1 0 < x < 1 , x < y < x + 1 0 otherwise f(x,y)=\left\{\begin{aligned} &1&&0<x<1,x<y<x+1\\ &0&&\text{otherwise} \end{aligned}\right. f(x,y)={100<x<1,x<y<x+1otherwise
则计算 g ( X , Y ) = X Y g(X,Y)=XY g(X,Y)=XY的期望如下所示:
E X Y = ∫ 0 1 ∫ x x + 1 x y d x d y = ∫ 0 1 1 2 x y 2 ∣ x x + 1 d x = 7 12 \mathbb{E}XY=\int_0^1\int_x^{x+1}xy\text{d}x\text{d}y=\int_0^1\left.\frac12xy^2\right|_x^{x+1}\text{d}x=\frac7{12} EXY=∫01∫xx+1xydxdy=∫0121xy2∣∣∣∣xx+1dx=127 -
边际概率密度函数:类似离散情形下的定义, X , Y X,Y X,Y的边际概率密度函数为:
f X ( x ) = ∫ − ∞ + ∞ f ( x , y ) d y f Y ( y ) = ∫ − ∞ + ∞ f ( x , y ) d x f_X(x)=\int_{-\infty}^{+\infty}f(x,y)\text{d}y\\ f_Y(y)=\int_{-\infty}^{+\infty}f(x,y)\text{d}x\\ fX(x)=∫−∞+∞f(x,y)dyfY(y)=∫−∞+∞f(x,y)dx -
联合累积分布函数:
F ( x , y ) = P ( X ≤ x , Y ≤ y ) ( x , y ) ∈ R 2 F(x,y)=P(X\le x,Y\le y)\quad (x,y)\in\R^2 F(x,y)=P(X≤x,Y≤y)(x,y)∈R2
对于连续二元随机向量,即有:
F ( x , y ) = ∫ − ∞ x ∫ − ∞ y f ( s , t ) d t d s f ( x , y ) = ∂ 2 F ( x , y ) ∂ x ∂ y \begin{aligned} F(x,y)&=\int_{-\infty}^x\int_{-\infty}^yf(s,t)\text{d}t\text{d}s\\ f(x,y)&=\frac{\partial^2F(x,y)}{\partial x\partial y}& \end{aligned} F(x,y)f(x,y)=∫−∞x∫−∞yf(s,t)dtds=∂x∂y∂2F(x,y)
一些性质:- F ( x , y ) F(x,y) F(x,y)对于每个变量都是单调不减的;
- F ( x , y ) F(x,y) F(x,y)对于每个变量都是右连续的;
- 0 ≤ F ( x 1 , . . . , x n ) ≤ 1 0\le F(x_1,...,x_n)\le 1 0≤F(x1,...,xn)≤1
- lim x 1 , . . . , x m → + ∞ F ( x 1 , . . . , x n ) = 1 \lim_{x_1,...,x_m\rightarrow+\infty}F(x_1,...,x_n)=1 limx1,...,xm→+∞F(x1,...,xn)=1
- lim x i → − ∞ F ( x 1 , . . . , x n ) = 0 , ∀ i \lim_{x_i\rightarrow-\infty}F(x_1,...,x_n)=0,\forall i limxi→−∞F(x1,...,xn)=0,∀i
- 若 a 1 ≤ b 1 a_1\le b_1 a1≤b1且 a 2 ≤ b 2 a_2\le b_2 a2≤b2,则 F ( b 1 , b 2 ) − F ( a 1 , b 2 ) − F ( a 2 , b 1 ) + F ( a 1 , a 2 ) ≥ 0 F(b_1,b_2)-F(a_1,b_2)-F(a_2,b_1)+F(a_1,a_2)\ge0 F(b1,b2)−F(a1,b2)−F(a2,b1)+F(a1,a2)≥0
- 注意与一元情况不同,多元情况不存在 F ( X , Y ) ∼ Uniform ( 0 , 1 ) F(X,Y)\sim \text{Uniform}(0,1) F(X,Y)∼Uniform(0,1)的结论。
4.2 条件分布与独立性
-
条件概率质量(密度)函数:若 ( X , Y ) (X,Y) (X,Y)为二元随机向量,则在给定 X = x X=x X=x下, Y Y Y的条件概率质量(密度)函数为:
f ( y ∣ x ) = f ( x , y ) f X ( x ) f X ( x ) > 0 f(y|x)=\frac{f(x,y)}{f_X(x)}\quad f_X(x)\gt0 f(y∣x)=fX(x)f(x,y)fX(x)>0 -
条件期望:若 g ( Y ) g(Y) g(Y)是 Y Y Y的函数,则 g ( Y ) g(Y) g(Y)在给定 X = x X=x X=x下的条件期望为:
E [ g ( Y ) ∣ X = x ] = ∑ y g ( y ) f ( y ∣ x ) In discrete case E [ g ( Y ) ∣ X = x ] = ∫ g ( y ) f ( y ∣ x ) d y In continuous case \begin{aligned} \mathbb{E}[g(Y)|X=x]&=\sum_yg(y)f(y|x)&&\text{In discrete case}\\ \mathbb{E}[g(Y)|X=x]&=\int g(y)f(y|x)\text{d}y&&\text{In continuous case} \end{aligned} E[g(Y)∣X=x]E[g(Y)∣X=x]=y∑g(y)f(y∣x)=∫g(y)f(y∣x)dyIn discrete caseIn continuous case
例题:若 f ( x , y ) = e − y , 0 < x < y < + ∞ f(x,y)=e^{-y},0<x<y<+\infty f(x,y)=e−y,0<x<y<+∞,则有如下推导:
f X ( x ) = ∫ − ∞ + ∞ e − y d y = ∫ x + ∞ e − y d y = e − x f ( y ∣ x ) = f ( x , y ) f X ( x ) = { e x − y if y > x 0 if y ≤ x E [ Y ∣ X = x ] = ∫ x + ∞ y e x − y d y = 1 + x Var ( Y ∣ X = x ) = E [ Y 2 ∣ X = x ] − ( E [ Y ∣ X = x ] ) 2 = ∫ x + ∞ y 2 e x − y − ( ∫ x + ∞ y e x − y d y ) 2 = 1 \begin{aligned} f_X(x)&=\int_{-\infty}^{+\infty}e^{-y}\text{d}y=\int_x^{+\infty}e^{-y}\text{d}y=e^{-x}\\ f(y|x)&=\frac{f(x,y)}{f_X(x)}=\left\{\begin{aligned} &e^{x-y}&&\text{if }y>x\\ &0&&\text{if }y\le x \end{aligned}\right.\\ \mathbb{E}[Y|X=x]&=\int_x^{+\infty}ye^{x-y}\text{d}y=1+x\\ \text{Var}(Y|X=x)&=\mathbb{E}[Y^2|X=x]-(\mathbb{E}[Y|X=x])^2\\ &=\int_x^{+\infty}y^2e^{x-y}-\left(\int_x^{+\infty}ye^{x-y}\text{d}y\right)^2=1 \end{aligned} fX(x)f(y∣x)E[Y∣X=x]Var(Y∣X=x)=∫−∞+∞e−ydy=∫x+∞e−ydy=e−x=fX(x)f(x,y)={ex−y0if y>xif y≤x=∫x+∞yex−ydy=1+x=E[Y2∣X=x]−(E[Y∣X=x])2=∫x+∞y2ex−y−(∫x+∞yex−ydy)2=1
拟合优度:https://www.cnblogs.com/wqbin/p/11109650.html
R 2 = ∑ i ( Y ^ i − Y ˉ ) / ∑ i ( Y i − Y ˉ ) = Var ( Y ^ ) / Var ( Y ) = Var ( X β ^ ) / [ Var ( X β ^ ) + Var ( ϵ ) ] Cov ( E [ Y ∣ X ] , Y ) = E [ E [ Y ∣ X ] Y ∣ X ] − ( E Y ) 2 R 2 = Cov ( E [ Y ∣ X ] , Y ) Var ( Y ) Var ( E [ Y ∣ X ] ) R^2=\sum_{i}(\hat Y_i-\bar Y)/\sum_{i}(Y_i-\bar Y)=\text{Var}(\hat Y)/\text{Var}(Y)=\text{Var}(X\hat \beta)/[\text{Var}(X\hat \beta)+\text{Var}(\epsilon)]\\ \text{Cov}(\mathbb{E}[Y|X],Y)=\mathbb{E}[\mathbb{E}[Y|X]Y|X]-(\mathbb{E}Y)^2\\ R^2=\frac{\text{Cov}(\mathbb{E}[Y|X],Y)}{\text{Var}(Y)\text{Var}(\mathbb{E}[Y|X])} R2=i∑(Y^i−Yˉ)/i∑(Yi−Yˉ)=Var(Y^)/Var(Y)=Var(Xβ^)/[Var(Xβ^)+Var(ϵ)]Cov(E[Y∣X],Y)=E[E[Y∣X]Y∣X]−(EY)2R2=Var(Y)Var(E[Y∣X])Cov(E[Y∣X],Y) -
独立性:称 X , Y X,Y X,Y是独立的随机变量,若 ∀ ( x , y ) ∈ R 2 \forall (x,y)\in\R^2 ∀(x,y)∈R2,有 f ( x , y ) = f X ( x ) f Y ( y ) f(x,y)=f_X(x)f_Y(y) f(x,y)=fX(x)fY(y)成立。
充要条件: X , Y X,Y X,Y独立当且仅当存在函数 g ( x ) g(x) g(x)与 h ( y ) h(y) h(y)使得 ∀ ( x , y ) ∈ R 2 \forall (x,y)\in\R^2 ∀(x,y)∈R2,有 f ( x , y ) = g ( x ) h ( y ) f(x,y)=g(x)h(y) f(x,y)=g(x)h(y)成立。
必要条件: ( X , Y ) (X,Y) (X,Y)定义在支撑集 { ( x , y ) : x ∈ A , y ∈ B } \{(x,y):x\in A,y\in B\} {(x,y):x∈A,y∈B},其中 A = { x : f X ( x ) > 0 } , b = { y : f Y ( y ) > 0 } A=\{x:f_X(x)>0\},b=\{y:f_Y(y)>0\} A={x:fX(x)>0},b={y:fY(y)>0}分别为 X , Y X,Y X,Y的支撑集。
独立性的性质:若 X , Y X,Y X,Y是独立的随机变量,则有如下命题成立:
-
∀ A ⊂ R , B ⊂ R \forall A\subset\R,B\subset\R ∀A⊂R,B⊂R,有 P ( X ∈ A , Y ∈ B ) = P ( X ∈ A ) P ( Y ∈ B ) P(X\in A,Y\in B)=P(X\in A)P(Y\in B) P(X∈A,Y∈B)=P(X∈A)P(Y∈B),即事件 { X ∈ A } \{X\in A\} {X∈A}与事件 { Y ∈ B } \{Y\in B\} {Y∈B}独立;
-
若 g ( x ) g(x) g(x)是只关于 x x x的函数且 h ( y ) h(y) h(y)是只关于 y y y的函数,则有:
E [ g ( X ) h ( Y ) ] = E g ( X ) E h ( Y ) \mathbb{E}[g(X)h(Y)]=\mathbb{E}g(X)\mathbb{E}h(Y) E[g(X)h(Y)]=Eg(X)Eh(Y) -
若 X , Y X,Y X,Y的矩母函数分别为 M X ( t ) , M Y ( t ) M_X(t),M_Y(t) MX(t),MY(t),则 Z = X + Y Z=X+Y Z=X+Y的矩母函数为:
M Z ( t ) = M X ( t ) M Y ( t ) M_Z(t)=M_X(t)M_Y(t) MZ(t)=MX(t)MY(t) -
若 X ∼ N ( μ 1 , σ 1 2 ) , Y ∼ N ( μ 2 , σ 2 2 ) X\sim N(\mu_1,\sigma_1^2),Y\sim N(\mu_2,\sigma_2^2) X∼N(μ1,σ12),Y∼N(μ2,σ22)是独立的正态随机变量,则 Z = X + Y ∼ N ( μ 1 + μ 2 , σ 1 2 + σ 2 2 ) Z=X+Y\sim N(\mu_1+\mu_2,\sigma_1^2+\sigma_2^2) Z=X+Y∼N(μ1+μ2,σ12+σ22)
-
4.3 二元变换
-
二元变换:若 ( X , Y ) (X,Y) (X,Y)是已知概率分布的二元随机向量,考察一组新的二元随机向量 ( U , V ) (U,V) (U,V),其中 U = g 1 ( X , Y ) , V = g 2 ( X , Y ) U=g_1(X,Y),V=g_2(X,Y) U=g1(X,Y),V=g2(X,Y),假定 g 1 ( x , y ) g_1(x,y) g1(x,y)与 g 2 ( x , y ) g_2(x,y) g2(x,y)是给定的函数,则 ( U , V ) ∈ B ⊂ R 2 (U,V)\in \mathcal{B}\subset\R^2 (U,V)∈B⊂R2当且仅当 ( X , Y ) ∈ A (X,Y)\in\mathcal{A} (X,Y)∈A,其中 A = { ( x , y ) : ( g 1 ( x , y ) , g 2 ( x , y ) ) ∈ B } \mathcal{A}=\{(x,y):(g_1(x,y),g_2(x,y))\in\mathcal{B}\} A={(x,y):(g1(x,y),g2(x,y))∈B},且满足:
P ( ( U , V ) ∈ B ) = P ( ( X , Y ) ∈ A ) P((U,V)\in \mathcal{B})=P((X,Y)\in \mathcal{A}) P((U,V)∈B)=P((X,Y)∈A) -
离散二元变换:若 ( X , Y ) (X,Y) (X,Y)是离散二元随机向量,且支撑集 A \mathcal{A} A可数,定义:
B = { ( u , v ) : u = g 1 ( x , y ) , v = g 2 ( x , y ) for some ( x , y ) ∈ A } \mathcal{B}=\{(u,v):u=g_1(x,y),v=g_2(x,y)\text{ for some }(x,y)\in\mathcal{A}\} B={(u,v):u=g1(x,y),v=g2(x,y) for some (x,y)∈A}
则 B \mathcal{B} B是离散随机向量 ( U , V ) (U,V) (U,V)的支撑集,且依然可数。对于 ( u , v ) ∈ B (u,v)\in\mathcal{B} (u,v)∈B,定义:
A u , v = { ( x , y ) ∈ A : g 1 ( x , y ) = u , g 2 ( x , y ) = v } \mathcal{A}_{u,v}=\{(x,y)\in\mathcal{A}:g_1(x,y)=u,g_2(x,y)=v\} Au,v={(x,y)∈A:g1(x,y)=u,g2(x,y)=v}
则 ( U , V ) (U,V) (U,V)的联合概率质量函数可以计算为:
f U , V ( u , v ) = P ( U = u , V = v ) = P ( ( X , Y ) ∈ A u , v ) = ∑ ( x , y ) ∈ A u , v f X , Y ( x , y ) f_{U,V}(u,v)=P(U=u,V=v)=P((X,Y)\in\mathcal{A}_{u,v})=\sum_{(x,y)\in\mathcal{A}_{u,v}}f_{X,Y}(x,y) fU,V(u,v)=P(U=u,V=v)=P((X,Y)∈Au,v)=(x,y)∈Au,v∑fX,Y(x,y)
例题:若 X ∼ Poisson ( λ 1 ) , Y ∼ Poisson ( λ 2 ) X\sim\text{Poisson}(\lambda_1),Y\sim\text{Poisson}(\lambda_2) X∼Poisson(λ1),Y∼Poisson(λ2),且 X , Y X,Y X,Y独立,支撑集为:
A = { ( x , y ) : x ∈ N , y ∈ N } \mathcal{A}=\{(x,y):x\in\N,y\in\N\} A={(x,y):x∈N,y∈N}
执行变换 U = X + Y , V = Y U=X+Y,V=Y U=X+Y,V=Y,则变换后的支撑集为:
B = { ( u , v ) : v ∈ N , u ∈ N , u ≥ v } \mathcal{B}=\{(u,v):v\in\N,u\in\N,u\ge v\} B={(u,v):v∈N,u∈N,u≥v}
( U , V ) (U,V) (U,V)的联合概率质量函数为:
f U , V ( u , v ) = λ 1 u − v λ 2 v e − λ 1 − λ 2 ( u − v ) ! v ! f_{U,V}(u,v)=\frac{\lambda_1^{u-v}\lambda_2^ve^{-\lambda_1-\lambda_2}}{(u-v)!v!} fU,V(u,v)=(u−v)!v!λ1u−vλ2ve−λ1−λ2
且进一步地可以计算边际概率质量函数:
f U ( u ) = ∑ v = 0 u f U , V ( u , v ) = e − ( λ 1 + λ 2 ) u ! ( λ 1 + λ 2 ) u f_U(u)=\sum_{v=0}^uf_{U,V}(u,v)=\frac{e^{-(\lambda_1+\lambda_2)}}{u!}(\lambda_1+\lambda_2)^u fU(u)=v=0∑ufU,V(u,v)=u!e−(λ1+λ2)(λ1+λ2)u
事实上 X + Y ∼ Poisson ( λ 1 + λ 2 ) X+Y\sim \text{Poisson}(\lambda_1+\lambda_2) X+Y∼Poisson(λ1+λ2) -
连续二元变换:若 ( X , Y ) (X,Y) (X,Y)为连续随机向量,联合概率密度函数为 f X , Y ( x , y ) f_{X,Y}(x,y) fX,Y(x,y),变换 u = g 1 ( x , y ) , v = g 2 ( x , y ) u=g_1(x,y),v=g_2(x,y) u=g1(x,y),v=g2(x,y)定义了从 A → B \mathcal{A}\rightarrow \mathcal{B} A→B的一一映射。 x = h 1 ( u , v ) , y = h 2 ( u , v ) x=h_1(u,v),y=h_2(u,v) x=h1(u,v),y=h2(u,v)是逆变换,则有:
f U , V ( u , v ) = f X , Y ( h 1 ( u , v ) , h 2 ( u , v ) ) ∣ J ∣ P ( ( X , Y ) ∈ A ) = ∫ A f X , Y ( x , y ) d x d y = ∫ B f X , Y ( h 1 ( u , v ) , h 2 ( u , v ) ) ∣ J ∣ d u d v = P ( ( U , V ) ∈ B ) f_{U,V}(u,v)=f_{X,Y}(h_1(u,v),h_2(u,v))|J|\\ P((X,Y)\in\mathcal{A})=\int_{\mathcal{A}}f_{X,Y}(x,y)\text{d}x\text{d}y=\int_{\mathcal{B}}f_{X,Y}(h_1(u,v),h_2(u,v))|J|\text{d}u\text{d}v=P((U,V)\in\mathcal{B}) fU,V(u,v)=fX,Y(h1(u,v),h2(u,v))∣J∣P((X,Y)∈A)=∫AfX,Y(x,y)dxdy=∫BfX,Y(h1(u,v),h2(u,v))∣J∣dudv=P((U,V)∈B)
其中 J J J是变换的雅可比行列式:
J = ∣ ∂ x ∂ u ∂ x ∂ v ∂ y ∂ u ∂ y ∂ v ∣ = ∂ x ∂ u ∂ y ∂ v − ∂ x ∂ v ∂ y ∂ u J=\left|\begin{matrix}\frac{\partial x}{\partial u}&\frac{\partial x}{\partial v}\\\frac{\partial y}{\partial u}&\frac{\partial y}{\partial v}\end{matrix}\right|=\frac{\partial x}{\partial u}\frac{\partial y}{\partial v}-\frac{\partial x}{\partial v}\frac{\partial y}{\partial u} J=∣∣∣∣∂u∂x∂u∂y∂v∂x∂v∂y∣∣∣∣=∂u∂x∂v∂y−∂v∂x∂u∂y
例题(教材 p.146 \text{p.146} p.146): X ∼ Beta ( α , β ) , Y ∼ Beta ( α + β , γ ) X\sim \text{Beta}(\alpha,\beta),Y\sim \text{Beta}(\alpha+\beta,\gamma) X∼Beta(α,β),Y∼Beta(α+β,γ),且 X , Y X,Y X,Y独立,执行变换 U = X Y , V = X U=XY,V=X U=XY,V=X,则:
f X , Y ( x , y ) = Γ ( α + β ) Γ ( α ) Γ ( β ) x α − 1 ( 1 − x ) β − 1 Γ ( α + β + γ ) Γ ( α + β ) Γ ( γ ) y α + β − 1 ( 1 − y ) γ − 1 0 < x < 1 , 0 < y < 1 J = ∣ ∂ x ∂ u ∂ x ∂ v ∂ y ∂ u ∂ y ∂ v ∣ = ∣ 0 1 1 v − u v 2 ∣ = − 1 v f_{X,Y}(x,y)=\frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)}x^{\alpha-1}(1-x)^{\beta-1}\frac{\Gamma(\alpha+\beta+\gamma)}{\Gamma(\alpha+\beta)\Gamma(\gamma)}y^{\alpha+\beta-1}(1-y)^{\gamma-1}\quad 0<x<1,0<y<1\\ J=\left|\begin{matrix}\frac{\partial x}{\partial u}&\frac{\partial x}{\partial v}\\\frac{\partial y}{\partial u}&\frac{\partial y}{\partial v}\end{matrix}\right|=\left|\begin{matrix}0&1\\\frac1v&-\frac u{v^2}\end{matrix}\right|=-\frac1v fX,Y(x,y)=Γ(α)Γ(β)Γ(α+β)xα−1(1−x)β−1Γ(α+β)Γ(γ)Γ(α+β+γ)yα+β−1(1−y)γ−10<x<1,0<y<1J=∣∣∣∣∂u∂x∂u∂y∂v∂x∂v∂y∣∣∣∣=∣∣∣∣0v11−v2u∣∣∣∣=−v1
于是可以计算 ( U , V ) (U,V) (U,V)的联合概率密度分布:
f U , V ( u , v ) = Γ ( α + β + γ ) Γ ( α ) Γ ( β ) Γ ( γ ) v α − 1 ( 1 − v ) β − 1 ( u v ) α + β − 1 ( 1 − u v ) γ − 1 1 v 0 < u < 1 , 0 < v < 1 f_{U,V}(u,v)=\frac{\Gamma(\alpha+\beta+\gamma)}{\Gamma(\alpha)\Gamma(\beta)\Gamma(\gamma)}v^{\alpha-1}(1-v)^{\beta-1}\left(\frac uv\right)^{\alpha+\beta-1}\left(1-\frac uv\right)^{\gamma-1}\frac1 v\quad 0<u<1,0<v<1 fU,V(u,v)=Γ(α)Γ(β)Γ(γ)Γ(α+β+γ)vα−1(1−v)β−1(vu)α+β−1(1−vu)γ−1v10<u<1,0<v<1
最后计算 U U U的边际概率密度分布:
f U ( u ) = ∫ u 1 f U , V ( u , v ) d v = Γ ( α + β + γ ) Γ ( α ) Γ ( β + γ ) u α − 1 ( 1 − u ) β + γ − 1 0 < u < 1 f_U(u)=\int_u^1f_{U,V}(u,v)\text{d}v=\frac{\Gamma(\alpha+\beta+\gamma)}{\Gamma(\alpha)\Gamma(\beta+\gamma)}u^{\alpha-1}(1-u)^{\beta+\gamma-1}\quad 0<u<1 fU(u)=∫u1fU,V(u,v)dv=Γ(α)Γ(β+γ)Γ(α+β+γ)uα−1(1−u)β+γ−10<u<1
发现 U ∼ Beta ( α , β + γ ) U\sim \text{Beta}(\alpha,\beta+\gamma) U∼Beta(α,β+γ)例题(教材 p . 147 p.147 p.147): X , Y X,Y X,Y为独立同分布的标准正态分布随机变量,则 X + Y , X − Y X+Y,X-Y X+Y,X−Y依然独立且服从分布 N ( 0 , 2 ) N(0,2) N(0,2),若将 X , Y X,Y X,Y放缩到服从联合正态分布(边际分布为标准正态分布),则上述独立性依然成立。
4.4 混合分布
-
案例:若某种昆虫产卵,每个卵的存活概率为 p p p,问期望上有多少卵能够存活?
设 X X X为存活数量, Y Y Y为产卵数,则有:
X ∣ Y ∼ Binomial ( Y , p ) y ∼ Poisson ( λ ) \begin{aligned} X|Y&\sim \text{Binomial}(Y,p)\\ y&\sim \text{Poisson}(\lambda) \end{aligned} X∣Yy∼Binomial(Y,p)∼Poisson(λ)
两种方法:- 证明 X ∼ Poisson ( λ p ) X\sim\text{Poisson}(\lambda p) X∼Poisson(λp)
- 利用 E X = E ( E [ X ∣ Y ] ) = λ p \mathbb{E}X=\mathbb{E}(\mathbb{E}[X|Y])=\lambda p EX=E(E[X∣Y])=λp
-
定理:若 X , Y X,Y X,Y为任意随机变量,则:
E X = E ( E [ X ∣ Y ] ) Var ( X ) = E [ Var ( X ∣ Y ) ] + Var ( E [ X ∣ Y ] ) \begin{aligned} \mathbb{E}X&=\mathbb{E}(\mathbb{E}[X|Y])\\ \text{Var}(X)&=\mathbb{E}[\text{Var}(X|Y)]+\text{Var}(\mathbb{E}[X|Y]) \end{aligned} EXVar(X)=E(E[X∣Y])=E[Var(X∣Y)]+Var(E[X∣Y])
4.5 协方差与相关系数
-
协方差与相关系数:随机变量 X , Y X,Y X,Y的协方差定义为:
Cov ( X , Y ) = E [ X − E X ] E [ Y − E Y ] \text{Cov}(X,Y)=\mathbb{E}[X-\mathbb{E}X]\mathbb{E}[Y-\mathbb{E}Y] Cov(X,Y)=E[X−EX]E[Y−EY]
相关系数定义为:
ρ X , Y = Cov ( X , Y ) Var ( X ) Var ( Y ) \rho_{X,Y}=\frac{\text{Cov}(X,Y)}{\sqrt{\text{Var}(X)\text{Var}(Y)}} ρX,Y=Var(X)Var(Y) Cov(X,Y)
协方差的 double-robustness \text{double-robustness} double-robustness性质:双重稳健性,任意替换一个 E X \mathbb{E}X EX或 E Y \mathbb{E}Y EY都还是协方差,因此只要估计准确其中一个即可
E [ ( X − C ) ( Y − E Y ) ] E [ ( X − E X ) ( Y − C ) ] \mathbb{E}[(X-C)(Y-\mathbb{E}Y)]\\ \mathbb{E}[(X-\mathbb{E}X)(Y-C)]\\ E[(X−C)(Y−EY)]E[(X−EX)(Y−C)] -
独立与不相关:随机变量 X , Y X,Y X,Y的协方差可以计算为:
Cov ( X , Y ) = E X Y − E X E Y \text{Cov}(X,Y)=\mathbb{E}XY-\mathbb{E}X\mathbb{E}Y Cov(X,Y)=EXY−EXEY
若 X , Y X,Y X,Y独立则 Cov ( X , Y ) = 0 , ρ X , Y = 0 \text{Cov}(X,Y)=0,\rho_{X,Y}=0 Cov(X,Y)=0,ρX,Y=0,但反之不成立,只能推出不相关。若 X ∼ N ( 0 , 1 ) X\sim N(0,1) X∼N(0,1),则 X X X与 X 2 X^2 X2不相关。
-
协方差的性质:若 X , Y X,Y X,Y为任意随机变量,则有如下命题成立:
-
若 a , b a,b a,b为任意常数,则有:
Var ( a X + b Y ) = a 2 Var ( X ) + b 2 Var ( Y ) + 2 a b Cov ( X , Y ) \text{Var}(aX+bY)=a^2\text{Var}(X)+b^2\text{Var}(Y)+2ab\text{Cov}(X,Y) Var(aX+bY)=a2Var(X)+b2Var(Y)+2abCov(X,Y)
若 X , Y X,Y X,Y独立,则有:
Var ( a X + b Y ) = a 2 Var ( X ) + b 2 Var ( Y ) \text{Var}(aX+bY)=a^2\text{Var}(X)+b^2\text{Var}(Y) Var(aX+bY)=a2Var(X)+b2Var(Y) -
− 1 ≤ ρ X , Y ≤ 1 -1\le\rho_{X,Y}\le 1 −1≤ρX,Y≤1总是成立,且 ∣ ρ X , Y ∣ = 1 |\rho_{X,Y}|=1 ∣ρX,Y∣=1当且仅当存在常数 a ≠ 0 a\neq 0 a=0与 b b b,使得 P ( Y = a X + b ) = 1 P(Y=aX+b)=1 P(Y=aX+b)=1成立,且若 ρ X , Y = 1 \rho_{X,Y}=1 ρX,Y=1,则 a > 0 a>0 a>0;若 ρ X , Y = − 1 \rho_{X,Y}=-1 ρX,Y=−1,则 a < 0 a<0 a<0
-
-
二元正态分布:称 ( X , Y ) ∼ N ( μ X , μ Y , σ X 2 , σ Y 2 , ρ ) (X,Y)\sim N(\mu_X,\mu_Y,\sigma^2_X,\sigma^2_Y,\rho) (X,Y)∼N(μX,μY,σX2,σY2,ρ),若有联合概率密度函数为:
f ( x , y ) = 1 2 π σ X σ Y 1 − ρ 2 exp { − 1 2 ( 1 − ρ 2 ) ( ( x − μ X σ X ) 2 − 2 ρ ( x − μ X σ X ) ( y − μ Y σ Y ) + ( y − μ Y σ Y ) 2 ) } f(x,y)=\frac{1}{2\pi\sigma_X\sigma_Y\sqrt{1-\rho^2}}\exp\left\{-\frac{1}{2(1-\rho^2)}\left(\left(\frac{x-\mu_X}{\sigma_X}\right)^2-2\rho\left(\frac{x-\mu_X}{\sigma_X}\right)\left(\frac{y-\mu_Y}{\sigma_Y}\right)+\left(\frac{y-\mu_Y}{\sigma_Y}\right)^2\right)\right\} f(x,y)=2πσXσY1−ρ2 1exp{−2(1−ρ2)1((σXx−μX)2−2ρ(σXx−μX)(σYy−μY)+(σYy−μY)2)}
用 Y = ρ X + ϵ Y=\rho X+\epsilon Y=ρX+ϵ来做替换,会发现有:
Y − μ Y = ρ σ Y σ X ( X − μ X ) + ρ X , Y σ X σ Y σ X 2 Var ( ϵ ) = 1 − ρ 2 Var ( Y ) = 1 Var ( ρ X ) = ρ 2 Y = ρ X + 1 − ρ 2 Z Y-\mu Y=\frac{\rho\sigma_Y}{\sigma_X}(X-\mu_X)+\frac{\rho_{X,Y}\sigma_X\sigma_Y}{\sigma_X^2}\\ \text{Var}(\epsilon)=1-\rho^2\\ \text{Var}(Y)=1\\ \text{Var}(\rho X)=\rho^2\\ Y=\rho X+\sqrt{1-\rho^2}Z Y−μY=σXρσY(X−μX)+σX2ρX,YσXσYVar(ϵ)=1−ρ2Var(Y)=1Var(ρX)=ρ2Y=ρX+1−ρ2 Z
其中 Z ∼ N ( 0 , 1 ) Z\sim N(0,1) Z∼N(0,1)与 X X X独立。
4.6 多元分布
-
若 X 1 , . . . , X n X_1,...,X_n X1,...,Xn是互相独立的随机变量,则有:
f ( x 1 , . . . , x n ) = ∏ i = 1 n f X i ( x i ) f(x_1,...,x_n)=\prod_{i=1}^nf_{X_i}(x_i) f(x1,...,xn)=i=1∏nfXi(xi) -
两两独立的情况:
f ( x 1 , x 2 , x 3 ) = f X 1 ( x 1 ) f X 2 ( x 2 ) f X 3 ( x 3 ) ( 1 + sin x 1 sin x 2 sin x 3 ) f(x_1,x_2,x_3)=f_{X_1}(x_1)f_{X_2}(x_2)f_{X_3}(x_3)(1+\sin x_1\sin x_2\sin x_3) f(x1,x2,x3)=fX1(x1)fX2(x2)fX3(x3)(1+sinx1sinx2sinx3)
4.7 不等式
-
Holder \text{Holder} Holder不等式:若 a , b a,b a,b为任意正数, p , q p,q p,q为满足 p − 1 + q − 1 = 1 p^{-1}+q^{-1}=1 p−1+q−1=1的任意正数,则有如下不等式成立:
1 p a p + 1 q b q ≥ a b \frac1pa^p+\frac1qb^q\ge ab p1ap+q1bq≥ab
等号成立当且仅当 a p = b q a^p=b^q ap=bq推广到随机变量:若 X , Y X,Y X,Y是任意随机变量, p , q p,q p,q为满足 p − 1 + q − 1 = 1 p^{-1}+q^{-1}=1 p−1+q−1=1的任意正数,则有如下不等式成立:
∣ E X Y ∣ ≤ E ∣ X Y ∣ ≤ ( E ∣ X ∣ p ) 1 p ( E ∣ Y ∣ q ) 1 q |\mathbb{E}XY|\le\mathbb{E}|XY|\le(\mathbb{E}|X|^p)^{\frac1p}(\mathbb{E}|Y|^q)^{\frac1q} ∣EXY∣≤E∣XY∣≤(E∣X∣p)p1(E∣Y∣q)q1
三种特例:-
柯西施瓦兹不等式:若 p = q = 2 p=q=2 p=q=2,则有如下不等式成立:
∣ E X Y ∣ ≤ E ∣ X Y ∣ ≤ ( E X 2 ) 1 2 ( E Y 2 ) 1 2 |\mathbb{E}XY|\le\mathbb{E}|XY|\le(\mathbb{E}X^2)^{\frac12}(\mathbb{E}Y^2)^{\frac12} ∣EXY∣≤E∣XY∣≤(EX2)21(EY2)21 -
若 Y = 1 Y=1 Y=1,则有如下不等式成立:
E ∣ X ∣ ≤ ( E ∣ X ∣ p ) 1 p \mathbb{E}|X|\le(\mathbb{E}|X|^p)^{\frac1p} E∣X∣≤(E∣X∣p)p1 -
对于 1 < r < p 1<r<p 1<r<p,若用 ∣ X ∣ r |X|^r ∣X∣r替换 ∣ X ∣ |X| ∣X∣,记 s = p r s=pr s=pr,则有如下不等式成立:
( E ∣ X ∣ r ) 1 r ≤ ( E X s ) 1 s (\mathbb{E}|X|^r)^{\frac1r}\le(\mathbb{E}X^s)^{\frac1s} (E∣X∣r)r1≤(EXs)s1
-
-
Minkowski \text{Minkowski} Minkowski不等式:若 X , Y X,Y X,Y是任意随机变量,则 ∀ p ≥ 1 \forall p\ge1 ∀p≥1有如下不等式成立:
( E ∣ X + Y ∣ p ) 1 p ≤ ( E ∣ X ∣ p ) 1 p + ( E ∣ Y ∣ p ) 1 p (\mathbb{E}|X+Y|^p)^{\frac1p}\le(\mathbb{E}|X|^p)^{\frac1p}+(\mathbb{E}|Y|^p)^{\frac1p} (E∣X+Y∣p)p1≤(E∣X∣p)p1+(E∣Y∣p)p1 -
琴生不等式:若 g ( X ) g(X) g(X)是凸函数,则对于任意随机变量 X X X,有如下不等式成立:
E g ( X ) ≥ g ( E X ) \mathbb{E}g(X)\ge g(\mathbb{E}X) Eg(X)≥g(EX)
等号成立当且仅当对于 g ( x ) g(x) g(x)在 x = E X x=\mathbb{E}X x=EX处的切线 l ( x ) = a + b x l(x)=a+bx l(x)=a+bx,有 P ( g ( X ) = a + b X ) = 1 P(g(X)=a+bX)=1 P(g(X)=a+bX)=1成立。凸函数与凹函数:称 g ( x ) g(x) g(x)为凸函数,若 ∀ x , y \forall x,y ∀x,y与 ∀ λ ∈ ( 0 , 1 ) \forall \lambda\in(0,1) ∀λ∈(0,1),有 g ( λ x + ( 1 − λ ) y ) ≤ λ g ( x ) + ( 1 − λ ) g ( y ) g(\lambda x+(1-\lambda)y)\le\lambda g(x)+(1-\lambda)g(y) g(λx+(1−λ)y)≤λg(x)+(1−λ)g(y);称 g ( x ) g(x) g(x)为凹函数,若 − g ( x ) -g(x) −g(x)为凸函数。
-
协方差不等式:若 X X X为任意随机变量, g ( x ) , h ( x ) g(x),h(x) g(x),h(x)是任意函数且 E g ( X ) , E h ( X ) , E [ g ( X ) h ( X ) ] \mathbb{E}g(X),\mathbb{E}h(X),\mathbb{E}[g(X)h(X)] Eg(X),Eh(X),E[g(X)h(X)]都存在,则以下两个命题成立:
-
若 g ( x ) g(x) g(x)是不减且 h ( x ) h(x) h(x)不增,则有如下不等式成立:
E [ g ( X ) h ( X ) ] ≤ E g ( X ) E h ( X ) \mathbb{E}[g(X)h(X)]\le \mathbb{E}g(X)\mathbb{E}h(X) E[g(X)h(X)]≤Eg(X)Eh(X) -
若 g ( x ) g(x) g(x)和 h ( x ) h(x) h(x)都不减或都不增,则有如下不等式成立:
E [ g ( X ) h ( X ) ] ≥ E g ( X ) E h ( X ) \mathbb{E}[g(X)h(X)]\ge\mathbb{E}g(X)\mathbb{E}h(X) E[g(X)h(X)]≥Eg(X)Eh(X)
-
-
作业: 4.4 , 4.13 ( 2.2.3 ) , 4.23 , 4.24 , 4.28 , 4.47 4.4,4.13(2.2.3),4.23,4.24,4.28,4.47 4.4,4.13(2.2.3),4.23,4.24,4.28,4.47
高级统计学缺少习题答案的课后习题解答
Exercise 2.40
证明:
定义以下两个表达式:
A
(
n
,
x
,
p
)
=
(
n
x
)
p
x
(
1
−
p
)
n
−
x
B
(
n
,
x
,
p
)
=
(
n
−
x
)
(
n
x
)
∫
0
1
−
p
t
n
−
x
−
1
(
1
−
t
)
x
d
t
(11)
\begin{aligned} A(n,x,p)&=\left(\begin{matrix}n\\x\end{matrix}\right)p^x(1-p)^{n-x}\\ B(n,x,p)&=(n-x)\left(\begin{matrix}n\\x\end{matrix}\right)\int_0^{1-p}t^{n-x-1}(1-t)^x\text{d}t \end{aligned}\tag{11}
A(n,x,p)B(n,x,p)=(nx)px(1−p)n−x=(n−x)(nx)∫01−ptn−x−1(1−t)xdt(11)
则需要证明的等式两侧分别可以写为:
LHS
=
∑
k
=
0
x
A
(
n
,
k
,
p
)
RHS
=
B
(
n
,
x
,
p
)
(12)
\begin{aligned} \text{LHS}&=\sum_{k=0}^xA(n,k,p)\\ \text{RHS}&=B(n,x,p) \end{aligned}\tag{12}
LHSRHS=k=0∑xA(n,k,p)=B(n,x,p)(12)
对等式右侧进行分部积分,可得如下的递推关系:
RHS
=
B
(
n
,
x
,
p
)
=
(
n
−
x
)
(
n
x
)
∫
0
1
−
p
t
n
−
x
−
1
(
1
−
t
)
x
d
t
=
(
n
x
)
∫
0
1
−
p
(
1
−
t
)
x
d
t
n
−
x
=
(
n
x
)
(
t
n
−
x
(
1
−
t
)
x
∣
0
1
−
p
−
∫
0
1
−
p
t
n
−
x
d
(
1
−
t
)
x
)
=
(
n
x
)
p
x
(
1
−
p
)
n
−
x
+
(
n
x
)
⋅
x
⋅
∫
0
1
−
p
t
n
−
x
(
1
−
t
)
x
−
1
d
t
=
(
n
x
)
p
x
(
1
−
p
)
n
−
x
+
(
n
−
x
+
1
)
(
n
x
−
1
)
∫
0
1
−
p
t
n
−
x
(
1
−
t
)
x
−
1
d
t
=
A
(
n
,
x
,
p
)
+
B
(
n
,
x
−
1
,
p
)
(13)
\begin{aligned} \text{RHS}=B(n,x,p)&=(n-x)\left(\begin{matrix}n\\x\end{matrix}\right)\int_0^{1-p}t^{n-x-1}(1-t)^x\text{d}t\\ &=\left(\begin{matrix}n\\x\end{matrix}\right)\int_0^{1-p}(1-t)^x\text{d}t^{n-x}\\ &=\left(\begin{matrix}n\\x\end{matrix}\right)\left(t^{n-x}(1-t)^x|_0^{1-p}-\int_0^{1-p}t^{n-x}\text{d}(1-t)^x\right)\\ &=\left(\begin{matrix}n\\x\end{matrix}\right)p^x(1-p)^{n-x}+\left(\begin{matrix}n\\x\end{matrix}\right)\cdot x\cdot\int_0^{1-p}t^{n-x}(1-t)^{x-1}\text{d}t\\ &=\left(\begin{matrix}n\\x\end{matrix}\right)p^x(1-p)^{n-x}+(n-x+1)\left(\begin{matrix}n\\x-1\end{matrix}\right)\int_0^{1-p}t^{n-x}(1-t)^{x-1}\text{d}t\\ &=A(n,x,p)+B(n,x-1,p) \end{aligned}\tag{13}
RHS=B(n,x,p)=(n−x)(nx)∫01−ptn−x−1(1−t)xdt=(nx)∫01−p(1−t)xdtn−x=(nx)(tn−x(1−t)x∣01−p−∫01−ptn−xd(1−t)x)=(nx)px(1−p)n−x+(nx)⋅x⋅∫01−ptn−x(1−t)x−1dt=(nx)px(1−p)n−x+(n−x+1)(nx−1)∫01−ptn−x(1−t)x−1dt=A(n,x,p)+B(n,x−1,p)(13)
注意到式
(
13
)
(13)
(13)对任意
x
∈
N
+
x\in\N_+
x∈N+成立,且当
x
=
0
x=0
x=0时,可以计算得到
B
(
n
,
0
,
p
)
=
A
(
n
,
0
,
p
)
=
(
1
−
p
)
n
B(n,0,p)=A(n,0,p)=(1-p)^n
B(n,0,p)=A(n,0,p)=(1−p)n,于是可以写出以下若干等式:
B
(
n
,
x
,
p
)
=
A
(
n
,
x
,
p
)
+
B
(
n
,
x
−
1
,
p
)
B
(
n
,
x
−
1
,
p
)
=
A
(
n
,
x
−
1
,
p
)
+
B
(
n
,
x
−
2
,
p
)
B
(
n
,
x
−
2
,
p
)
=
A
(
n
,
x
−
2
,
p
)
+
B
(
n
,
x
−
3
,
p
)
.
.
.
.
.
.
.
.
.
B
(
n
,
1
,
p
)
=
A
(
n
,
1
,
p
)
+
B
(
n
,
0
,
p
)
B
(
n
,
0
,
p
)
=
A
(
n
,
0
,
p
)
(14)
\begin{aligned} &B(n,x,p)&&=A(n,x,p)&+B(n,x-1,p)\\ &B(n,x-1,p)&&=A(n,x-1,p)&+B(n,x-2,p)\\ &B(n,x-2,p)&&=A(n,x-2,p)&+B(n,x-3,p)\\ &...&&...&...\\ &B(n,1,p)&&=A(n,1,p)&+B(n,0,p)\\ &B(n,0,p)&&=A(n,0,p) \end{aligned}\tag{14}
B(n,x,p)B(n,x−1,p)B(n,x−2,p)...B(n,1,p)B(n,0,p)=A(n,x,p)=A(n,x−1,p)=A(n,x−2,p)...=A(n,1,p)=A(n,0,p)+B(n,x−1,p)+B(n,x−2,p)+B(n,x−3,p)...+B(n,0,p)(14)
将式
(
14
)
(14)
(14)中所有等式累和相消,可得:
B
(
n
,
x
,
p
)
=
∑
k
=
0
x
A
(
n
,
k
,
p
)
(15)
B(n,x,p)=\sum_{k=0}^xA(n,k,p)\tag{15}
B(n,x,p)=k=0∑xA(n,k,p)(15)
根据式
(
12
,
15
)
(12,15)
(12,15),可得:
LHS
=
∑
k
=
0
x
A
(
n
,
k
,
p
)
=
B
(
n
,
x
,
p
)
=
RHS
(16)
\text{LHS}=\sum_{k=0}^xA(n,k,p)=B(n,x,p)=\text{RHS}\tag{16}
LHS=k=0∑xA(n,k,p)=B(n,x,p)=RHS(16)
证毕。
■
\blacksquare
■
Exercise 4.28
-
( a ) (a) (a) 证明:
根据题意,构造如下的二元变换:
{ U = X X + Y V = X ⟹ { u = x x + y v = x ⟹ { x = h 1 ( u , v ) = v 1 y = h 2 ( u , v ) = v u − v (27) \left\{\begin{aligned} U&=\frac{X}{X+Y}\\ V&=X \end{aligned}\right.\Longrightarrow \left\{\begin{aligned} u&=\frac x{x+y}\\ v&=x \end{aligned}\right.\Longrightarrow \left\{\begin{aligned} x&=h_1(u,v)=v_1\\ y&=h_2(u,v)=\frac vu-v \end{aligned}\right. \tag{27} ⎩⎨⎧UV=X+YX=X⟹⎩⎨⎧uv=x+yx=x⟹⎩⎨⎧xy=h1(u,v)=v1=h2(u,v)=uv−v(27)
根据式 ( 27 ) (27) (27)的函数关系,可得对应的 Jacobi \text{Jacobi} Jacobi行列式:
J = ∣ ∂ x ∂ u ∂ x ∂ v ∂ y ∂ u ∂ y ∂ v ∣ = ∣ 0 1 − v u 2 1 u − 1 ∣ = v u 2 (28) J=\left|\begin{matrix}\frac{\partial x}{\partial u}&\frac{\partial x}{\partial v}\\\frac{\partial y}{\partial u}&\frac{\partial y}{\partial v}\end{matrix}\right|=\left|\begin{matrix}0&1\\-\frac v{u^2}&\frac1u-1\end{matrix}\right|=\frac v{u^2}\tag{28} J=∣∣∣∣∂u∂x∂u∂y∂v∂x∂v∂y∣∣∣∣=∣∣∣∣0−u2v1u1−1∣∣∣∣=u2v(28)
已知 X ∼ N ( 0 , 1 ) , Y ∼ N ( 0 , 1 ) X\sim N(0,1),Y\sim N(0,1) X∼N(0,1),Y∼N(0,1),且 X , Y X,Y X,Y独立,则可得 ( X , Y ) (X,Y) (X,Y)的联合概率密度分布函数:
f X , Y ( x , y ) = 1 2 π exp ( − 1 2 x 2 − 1 2 y 2 ) ( x ∈ R , y ∈ R ) (29) f_{X,Y}(x,y)=\frac1{2\pi}\exp\left(-\frac12x^2-\frac12y^2\right)\quad (x\in\R,y\in\R)\tag{29} fX,Y(x,y)=2π1exp(−21x2−21y2)(x∈R,y∈R)(29)
根据教材中的式 ( 4.3.2 ) (4.3.2) (4.3.2),结合式 ( 27 ) , ( 28 ) , ( 29 ) (27),(28),(29) (27),(28),(29),可以计算 ( U , V ) (U,V) (U,V)的联合概率密度分布:
f U , V ( u , v ) = v 2 π u 2 exp ( − v 2 2 − ( v / u − v ) 2 2 ) ( u ∈ R , v ∈ R ) (30) f_{U,V}(u,v)=\frac v{2\pi u^2}\exp\left(-\frac{v^2}2-\frac{(v/u-v)^2}2\right)\quad (u\in\R,v\in\R)\tag{30} fU,V(u,v)=2πu2vexp(−2v2−2(v/u−v)2)(u∈R,v∈R)(30)
根据式 ( 30 ) (30) (30)对 V V V求积分,可得:
f U ( u ) = ∫ − ∞ + ∞ v 2 π u 2 exp ( − v 2 2 − ( v / u − v ) 2 2 ) d v = 1 4 π u 2 ∫ − ∞ + ∞ exp ( − 2 u 2 − 2 u + 1 2 u 2 ⋅ v 2 ) d v 2 = 1 4 π u 2 ⋅ 2 ∫ 0 + ∞ exp ( − k t ) d t ( k = 2 u 2 − 2 u + 1 2 u 2 ) = 1 2 π u 2 ⋅ ( − 1 k exp ( − k t ) ∣ 0 + ∞ ) = 1 2 π u 2 ⋅ 1 k = 1 π ( 2 u 2 − 2 u + 1 ) = 1 2 π ( ( u − 1 2 ) 2 + 1 4 ) ( u ∈ R ) (31) \begin{aligned} f_U(u)&=\int_{-\infty}^{+\infty}\frac v{2\pi u^2}\exp\left(-\frac{v^2}2-\frac{(v/u-v)^2}2\right)\text{d}v\\ &=\frac1{4\pi u^2}\int_{-\infty}^{+\infty}\exp\left(-\frac{2u^2-2u+1}{2u^2}\cdot v^2\right)\text{d}v^2\\ &=\frac1{4\pi u^2}\cdot 2\int_0^{+\infty}\exp\left(-kt\right)\text{d}t\quad (k=\frac{2u^2-2u+1}{2u^2})\\ &=\frac1{2\pi u^2}\cdot \left(\left.-\frac 1k\exp(-kt)\right|_{0}^{+\infty}\right)\\ &=\frac{1}{2\pi u^2}\cdot\frac1k\\ &=\frac1{\pi(2u^2-2u+1)}\\ &=\frac{\frac12}{\pi(\left(u-\frac12\right)^2+\frac14)}\quad (u\in \R) \end{aligned}\tag{31} fU(u)=∫−∞+∞2πu2vexp(−2v2−2(v/u−v)2)dv=4πu21∫−∞+∞exp(−2u22u2−2u+1⋅v2)dv2=4πu21⋅2∫0+∞exp(−kt)dt(k=2u22u2−2u+1)=2πu21⋅(−k1exp(−kt)∣∣∣∣0+∞)=2πu21⋅k1=π(2u2−2u+1)1=π((u−21)2+41)21(u∈R)(31)
注意式 ( 31 ) (31) (31)的第三行的等式变换中应用了如下的换元法:
{ t = v 2 d t = 2 v d v (32) \left\{\begin{aligned} t&=v^2\\ \text{d}t&=2v\text{d}v \end{aligned}\right.\tag{32} {tdt=v2=2vdv(32)
根据式 ( 31 ) (31) (31)的推导,可知 U U U服从参数为 ( 1 / 2 , 1 / 2 ) (1/2,1/2) (1/2,1/2)的柯西分布,即 U = X / ( X + Y ) ∼ Cauchy ( 1 / 2 , 1 / 2 ) U=X/(X+Y)\sim\text{Cauchy}(1/2,1/2) U=X/(X+Y)∼Cauchy(1/2,1/2)证毕。 ■ \blacksquare ■
-
( b ) (b) (b) 证明: X / ∣ Y ∣ X/|Y| X/∣Y∣服从柯西分布,即 X / ∣ Y ∣ ∼ Cauchy ( 1 , 0 ) X/|Y|\sim \text{Cauchy}(1,0) X/∣Y∣∼Cauchy(1,0)
事实上利用习题 4.47 4.47 4.47的思路容易证明 X / ∣ Y ∣ X/|Y| X/∣Y∣与 X / Y X/Y X/Y分布相同,在 ( c ) (c) (c)中将证明这一点,而后者显然服从柯西分布(即*度为 1 1 1的 t t t分布),本小题选择直接证明前者的分布。
根据题意,构造如下的二元变换:
{ U = X ∣ Y ∣ V = Y ⟹ { u = x ∣ y ∣ v = y ⟹ { x = h 1 ( u , v ) = u ∣ v ∣ y = h 2 ( u , v ) = v (33) \left\{\begin{aligned} U&=\frac{X}{|Y|}\\ V&=Y \end{aligned}\right.\Longrightarrow \left\{\begin{aligned} u&=\frac x{|y|}\\ v&=y \end{aligned}\right.\Longrightarrow \left\{\begin{aligned} x&=h_1(u,v)=u|v|\\ y&=h_2(u,v)=v \end{aligned}\right. \tag{33} ⎩⎪⎨⎪⎧UV=∣Y∣X=Y⟹⎩⎨⎧uv=∣y∣x=y⟹{xy=h1(u,v)=u∣v∣=h2(u,v)=v(33)
根据式 ( 33 ) (33) (33)的函数关系,可得对应的 Jacobi \text{Jacobi} Jacobi行列式:
J = ∣ ∂ x ∂ u ∂ x ∂ v ∂ y ∂ u ∂ y ∂ v ∣ = ∣ ∣ v ∣ u ⋅ sign ( v ) 0 1 ∣ = ∣ v ∣ (34) J=\left|\begin{matrix}\frac{\partial x}{\partial u}&\frac{\partial x}{\partial v}\\\frac{\partial y}{\partial u}&\frac{\partial y}{\partial v}\end{matrix}\right|=\left|\begin{matrix}|v|&u\cdot\text{sign}(v)\\0&1\end{matrix}\right|=|v|\tag{34} J=∣∣∣∣∂u∂x∂u∂y∂v∂x∂v∂y∣∣∣∣=∣∣∣∣∣v∣0u⋅sign(v)1∣∣∣∣=∣v∣(34)
根据教材中的式 ( 4.3.2 ) (4.3.2) (4.3.2),结合式 ( 29 ) , ( 33 ) , ( 34 ) (29),(33),(34) (29),(33),(34),可以计算 ( U , V ) (U,V) (U,V)的联合概率密度分布:
f U , V ( u , v ) = ∣ v ∣ 2 π exp ( − 1 2 u 2 v 2 − 1 2 v 2 ) ( u ∈ R , v ∈ R ) (35) f_{U,V}(u,v)=\frac {|v|}{2\pi}\exp\left(-\frac12 u^2v^2-\frac12 v^2\right)\quad (u\in\R,v\in\R)\tag{35} fU,V(u,v)=2π∣v∣exp(−21u2v2−21v2)(u∈R,v∈R)(35)
根据式 ( 36 ) (36) (36)对 V V V求积分,可得:
f U ( u ) = ∫ − ∞ + ∞ ∣ v ∣ 2 π exp ( − 1 2 u 2 v 2 − 1 2 v 2 ) d v = 1 2 π { [ ∫ − ∞ 0 − v exp ( − 1 2 u 2 v 2 − 1 2 v 2 ) d v ] + [ ∫ 0 + ∞ v exp ( − 1 2 u 2 v 2 − 1 2 v 2 ) d v ] } = 1 2 π { [ ∫ 0 + ∞ w exp ( − 1 2 u 2 w 2 − 1 2 w 2 ) d w ] + [ ∫ 0 + ∞ v exp ( − 1 2 u 2 v 2 − 1 2 v 2 ) d v ] } = 1 π ∫ 0 + ∞ v exp ( − 1 2 u 2 v 2 − 1 2 v 2 ) d v = 1 2 π ∫ 0 + ∞ exp ( − k t ) d t ( k = u 2 + 1 2 ) = 1 2 π ⋅ ( − 1 k exp ( − k t ) ∣ 0 + ∞ ) = 1 2 π k = 1 π ( u 2 + 1 ) ( u ∈ R ) (36) \begin{aligned} f_U(u)&=\int_{-\infty}^{+\infty}\frac {|v|}{2\pi}\exp\left(-\frac12 u^2v^2-\frac12 v^2\right)\text{d}v\\ &=\frac{1}{2\pi}\left\{\left[\int_{-\infty}^0{-v}\exp\left(-\frac12 u^2v^2-\frac12 v^2\right)\text{d}v\right]+\left[\int_0^{+\infty}v\exp\left(-\frac12 u^2v^2-\frac12 v^2\right)\text{d}v\right]\right\}\\ &=\frac1{2\pi}\left\{\left[\int_0^{+\infty}w\exp\left(-\frac12 u^2w^2-\frac12 w^2\right)\text{d}w\right]+\left[\int_0^{+\infty}v\exp\left(-\frac12 u^2v^2-\frac12 v^2\right)\text{d}v\right]\right\}\\ &=\frac1\pi\int_0^{+\infty}v\exp\left(-\frac12 u^2v^2-\frac12 v^2\right)\text{d}v\\ &=\frac1{2\pi}\int_0^{+\infty}\exp\left(-kt\right)\text{d}t\quad (k=\frac{u^2+1}2)\\ &=\frac1{2\pi}\cdot \left(\left.-\frac 1k\exp(-kt)\right|_{0}^{+\infty}\right)\\ &=\frac1{2\pi k}\\ &=\frac1{\pi(u^2+1)}\quad(u\in\R) \end{aligned}\tag{36} fU(u)=∫−∞+∞2π∣v∣exp(−21u2v2−21v2)dv=2π1{[∫−∞0−vexp(−21u2v2−21v2)dv]+[∫0+∞vexp(−21u2v2−21v2)dv]}=2π1{[∫0+∞wexp(−21u2w2−21w2)dw]+[∫0+∞vexp(−21u2v2−21v2)dv]}=π1∫0+∞vexp(−21u2v2−21v2)dv=2π1∫0+∞exp(−kt)dt(k=2u2+1)=2π1⋅(−k1exp(−kt)∣∣∣∣0+∞)=2πk1=π(u2+1)1(u∈R)(36)
其中式 ( 36 ) (36) (36)第三行的等式变换中对第一个中括号中的积分应用了如下的换元法:
{ w = − v d w = − d v (37) \left\{\begin{aligned} w&=-v\\ \text{d}w&=-\text{d}v \end{aligned}\right.\tag{37} {wdw=−v=−dv(37)
根据式 ( 36 ) (36) (36)的推导,可知 U U U服从参数为 ( 1 , 0 ) (1,0) (1,0)的柯西分布,即 U = X / ∣ Y ∣ ∼ Cauchy ( 1 , 0 ) U=X/|Y|\sim\text{Cauchy}(1,0) U=X/∣Y∣∼Cauchy(1,0)证毕。 ■ \blacksquare ■
-
( c ) (c) (c) 不让人意外,因为两个独立同分布的正态分布随机变量的商服从柯西分布是已知的,这里给分母增加一个绝对值并不会改变分布,原因简单分析如下所示:
设 U = X / ∣ Y ∣ , V = X / Y U=X/|Y|,V=X/Y U=X/∣Y∣,V=X/Y,则有如下推导:
P ( U ≤ x ) = { P ( V ≤ x ) if Y > 0 P ( − V ≤ x ) if Y < 0 (38) P(U\le x)=\left\{\begin{aligned} &P(V\le x)&&\text{if }Y\gt 0\\ &P(-V\le x)&&\text{if }Y\lt 0 \end{aligned}\right.\tag{38} P(U≤x)={P(V≤x)P(−V≤x)if Y>0if Y<0(38)
事实上 V V V是*度为 1 1 1的 t t t分布,即 V ∼ t ( 1 ) V\sim t(1) V∼t(1),它的 pdf \text{pdf} pdf显然关于纵轴对称,因此有:
P ( − V ≤ x ) = P ( V ≥ − x ) = P ( V ≤ x ) (39) P(-V\le x)=P(V\ge -x)=P(V\le x)\tag{39} P(−V≤x)=P(V≥−x)=P(V≤x)(39)
根据式 ( 38 ) (38) (38)和式 ( 39 ) (39) (39)可知 U , V U,V U,V的分布是完全相同的。于是我们可以给出一般性的定理:
定理:若 X ∼ N ( 0 , σ X 2 ) , Y ∼ ( 0 , σ Y 2 ) X\sim N(0,\sigma_X^2),Y\sim(0,\sigma_Y^2) X∼N(0,σX2),Y∼(0,σY2),且 X , Y X,Y X,Y独立,则 U = X / ∣ Y ∣ U=X/|Y| U=X/∣Y∣与 V = X / Y V=X/Y V=X/Y分布相同,即 U ∼ Cauchy ( σ X / σ Y , 0 ) , V ∼ Cauchy ( σ X / σ Y , 0 ) U\sim\text{Cauchy}(\sigma_X/\sigma_Y,0),V\sim\text{Cauchy}(\sigma_X/\sigma_Y,0) U∼Cauchy(σX/σY,0),V∼Cauchy(σX/σY,0),具体而言, U U U(或 V V V)的概率密度函数为:
f U ( x ) = f V ( x ) = k π ( x 2 + k 2 ) ( x ∈ R ) (40) f_U(x)=f_V(x)=\frac{k}{\pi(x^2+k^2)}\quad(x\in\R)\tag{40}\\ fU(x)=fV(x)=π(x2+k2)k(x∈R)(40)
其中 k = σ X / σ Y k=\sigma_X/\sigma_Y k=σX/σY