欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

【学习笔记】统计推断(高级统计学)Updating

程序员文章站 2022-07-11 15:33:35
...

高级统计学笔记

  • 本课程的教材为 Casella \text{Casella} Casella的统计推断( Statistical Inference \text{Statistical Inference} Statistical Inference),教材文件与课后习题答案已上传至:

    链接: https://pan.baidu.com/s/1dlFvXHWUZdJayW4g_DNrWQ 
    提取码: s35h
    
  • 课后习题答案有一些题目是缺失的,笔者将挑选作业中涉及的更新至本文的最后一部分中。

  • 本文持续更新至本学期结束。



Lecture 1 概率理论

  • 命题:均匀分布的最大次序统计量是 β \beta β分布,它的期望为 n n + 1 \frac{n}{n+1} n+1n

    关于次序统计量的计算公式:
    Pr ⁡ ( Y ( i ) ≤ x ) = ∑ j = 0 i − 1 C n j ( 1 − F ( x ) ) j F ( x ) n − j \Pr(Y^{(i)}\le x)=\sum_{j=0}^{i-1}C_n^j(1-F(x))^jF(x)^{n-j} Pr(Y(i)x)=j=0i1Cnj(1F(x))jF(x)nj
    特别地,最大次序统计量为 Y ( 1 ) = F ( x ) n Y^{(1)}=F(x)^n Y(1)=F(x)n,最小次序统计量为 Y ( n ) = ∑ j = 0 n − 1 C n j ( 1 − F ( x ) ) j F ( x ) n − j Y^{(n)}=\sum_{j=0}^{n-1}C_n^j(1-F(x))^jF(x)^{n-j} Y(n)=j=0n1Cnj(1F(x))jF(x)nj

  • β \beta β分布 X ∼ Be ( α , β ) X\sim\text{Be}(\alpha,\beta) XBe(α,β)

    • 概率密度函数:
      f ( x ; α , β ) = Γ ( α + β ) Γ ( α ) Γ ( β ) x α − 1 ( 1 − x ) β − 1 = 1 B ( α , β ) x α − 1 ( 1 − x ) β − 1 f(x;\alpha,\beta)=\frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)}x^{\alpha-1}(1-x)^{\beta-1}=\frac1{B(\alpha,\beta)}x^{\alpha-1}(1-x)^{\beta-1} f(x;α,β)=Γ(α)Γ(β)Γ(α+β)xα1(1x)β1=B(α,β)1xα1(1x)β1
      其中 Γ ( x ) = ∫ 0 + ∞ t x − 1 e − t d t \Gamma(x)=\int_0^{+\infty}t^{x-1}e^{-t}\text{d}t Γ(x)=0+tx1etdt x > 0 x>0 x>0,具有性质 Γ ( n + 1 ) = x Γ ( n ) \Gamma(n+1)=x\Gamma(n) Γ(n+1)=xΓ(n)

    • 众数: α − 1 α + β − 2 \frac{\alpha-1}{\alpha+\beta-2} α+β2α1

    • 数学期望: μ = E ( X ) = α α + β \mu=\mathbb{E}(X)=\frac{\alpha}{\alpha+\beta} μ=E(X)=α+βα

    • 方差: Var ( X ) = E ( X − μ ) 2 = α β ( α + β ) 2 ( α + β + 1 ) \text{Var}(X)=\mathbb{E}(X-\mu)^2=\frac{\alpha\beta}{(\alpha+\beta)^2(\alpha+\beta+1)} Var(X)=E(Xμ)2=(α+β)2(α+β+1)αβ

  • 样本空间 S \mathcal{S} S:特定实验的所有可能结果(可数或不可数)

    抛两次硬币: S = { ( H , H ) , ( H , T ) , ( T , H ) , ( T , T ) } \mathcal{S}=\{(H,H),(H,T),(T,H),(T,T)\} S={(H,H),(H,T),(T,H),(T,T)}

  • 事件 A A A S \mathcal{S} S的任意子集称为事件

  • 互斥:称事件 A A A和事件 B B B不相交(互斥),若 A ∩ B = ∅ A\cap B=\emptyset AB=

  • 两两不相交:称事件族 { A k } k = 1 n \{A_k\}_{k=1}^n {Ak}k=1n两两不相交,若 ∀ i ≠ j \forall i\neq j i=j满足 A i ∩ A j = ∅ A_i\cap A_j=\emptyset AiAj=

  • 划分:称事件族 { A k } k = 1 n \{A_k\}_{k=1}^n {Ak}k=1n S \mathcal{S} S的划分,若事件族 { A k } k = 1 n \{A_k\}_{k=1}^n {Ak}k=1n两两不相交且 ⋃ k = 1 n A k = S \bigcup_{k=1}^n A_k=\mathcal{S} k=1nAk=S

  • σ \sigma σ代数:称 S \mathcal{S} S的子集 B \mathcal{B} B σ \sigma σ代数,若满足以下三个性质:

    1. ∅ ∈ B \emptyset\in\mathcal{B} B
    2. A ∈ B A\in\mathcal{B} AB,则 A c ∈ B A^c\in\mathcal{B} AcB
    3. A 1 , A 2 , . . . , ∈ B A_1,A_2,...,\in\mathcal{B} A1,A2,...,B,则 ⋃ k = 1 ∞ A k ∈ B \bigcup_{k=1}^\infty A_k\in\mathcal{B} k=1AkB
  • 可测空间 ( S , B ) (\mathcal{S},\mathcal{B}) (S,B)是一个可测空间

  • Kolmogorov Aximos \text{Kolmogorov Aximos} Kolmogorov Aximos:给定样本空间 S \mathcal{S} S与相关联的一个 σ \sigma σ代数 B \mathcal{B} B,称 P P P是定义在 B \mathcal{B} B上的概率函数,若满足以下三个性质:

    1. P ( A ) ≥ 0 , ∀ A ∈ B P(A)\ge0,\forall A\in\mathcal{B} P(A)0,AB
    2. P ( S ) = 1 P(\mathcal{S})=1 P(S)=1
    3. A 1 , A 2 , . . . , ∈ B A_1,A_2,...,\in\mathcal{B} A1,A2,...,B两两不相交,则 P ( ⋃ k = 1 ∞ ) = ∑ k = 1 ∞ P ( A k ) P(\bigcup_{k=1}^\infty)=\sum_{k=1}^\infty P(A_k) P(k=1)=k=1P(Ak)
  • 定理:设 S = { s 1 , . . . , s n } \mathcal{S}=\{s_1,...,s_n\} S={s1,...,sn}是有限集, B \mathcal{B} B S \mathcal{S} S子集的任意 σ \sigma σ代数, p 1 , . . . , p n p_1,...,p_n p1,...,pn是累和为 1 1 1的非实数, ∀ A ∈ B \forall A\in\mathcal{B} AB,定义 B \mathcal{B} B上的概率函数 P P P
    P ( A ) = ∑ i : s i ∈ A p i P(A)=\sum_{i:s_i\in A}p_i P(A)=i:siApi
    这在 S \mathcal{S} S是可数集时依然成立。

    概率函数 P P P具有如下性质:

    1. P ( ∅ ) = 0 P(\emptyset)=0 P()=0
    2. P ( A ) ≤ 1 P(A)\le 1 P(A)1
    3. P ( A c ) = 1 − P ( A ) P(A^c)=1-P(A) P(Ac)=1P(A)
    4. P ( B ∩ A c ) = P ( B ) − P ( A ∩ B ) P(B\cap A^c)=P(B)-P(A\cap B) P(BAc)=P(B)P(AB)
    5. P ( A ∪ B ) = P ( A ) + P ( B ) − P ( A ∩ B ) P(A\cup B)=P(A)+P(B)-P(A\cap B) P(AB)=P(A)+P(B)P(AB)
    6. A ⊂ B A\subset B AB,则 P ( A ) ≤ P ( B ) P(A)\le P(B) P(A)P(B)
    7. Bonferroni \text{Bonferroni} Bonferroni不等式: P ( A ∩ B ) ≥ P ( A ) + P ( B ) − 1 P(A\cap B)\ge P(A)+P(B)-1 P(AB)P(A)+P(B)1
    8. P ( A ) = ∑ i = 1 ∞ P ( A ∩ C i ) P(A)=\sum_{i=1}^\infty P(A\cap C_i) P(A)=i=1P(ACi),对于任意划分 C 1 , C 2 , . . . C_1,C_2,... C1,C2,...
    9. P ( ⋃ i = 1 ∞ A i ) ≤ ∑ i = 1 ∞ P ( A i ) P(\bigcup_{i=1}^\infty A_i)\le \sum_{i=1}^\infty P(A_i) P(i=1Ai)i=1P(Ai),对于任意集合 A 1 , A 2 , . . . A_1,A_2,... A1,A2,...
  • 命题:从 n n n个物体中取出 r r r个,有多少种取法?

    1. 不放回且有序: n ! ( n − r ) ! \frac{n!}{(n-r)!} (nr)!n!
    2. 不放回且无序: C n r C_n^r Cnr
    3. 放回且有序: n r n^r nr
    4. 放回且无序: C n + r − 1 r C_{n+r-1}^r Cn+r1r
  • 条件概率 P ( A ∣ B ) = P ( A ∩ B ) P ( B ) P(A|B)=\frac{P(A\cap B)}{P(B)} P(AB)=P(B)P(AB)

    • 推论:
      1. P ( A ∩ B ) = P ( A ∣ B ) P ( B ) P(A\cap B)=P(A|B)P(B) P(AB)=P(AB)P(B)
      2. P ( A ∩ B ) = P ( B ∣ A ) P ( A ) P(A\cap B)=P(B|A)P(A) P(AB)=P(BA)P(A)
      3. P ( A ∣ B ) = P ( B ∣ A ) P ( A ) P ( B ) P(A|B)=P(B|A)\frac{P(A)}{P(B)} P(AB)=P(BA)P(B)P(A)
  • 定理(贝叶斯法则):设 A 1 , A 2 , . . . A_1,A_2,... A1,A2,...是样本空间的划分, B B B为任意集合,则 ∀ i = 1 , 2 , . . . \forall i=1,2,... i=1,2,...,有:
    P ( A i ∣ B ) = P ( B ∣ A i ) P ( A i ) ∑ k = 1 ∞ P ( B ∣ A k ) P ( A k ) P(A_i|B)=\frac{P(B|A_i)P(A_i)}{\sum_{k=1}^\infty P(B|A_k)P(A_k)} P(AiB)=k=1P(BAk)P(Ak)P(BAi)P(Ai)

  • 统计独立:称事件 A , B A,B A,B统计独立,若 P ( A ∩ B ) = P ( A ) P ( B ) P(A\cap B)=P(A)P(B) P(AB)=P(A)P(B)

  • 相互独立:称事件 A 1 , . . . , A n A_1,...,A_n A1,...,An相互读理,若任意子集 A i 1 , . . . , A i k A_{i_1},...,A_{i_k} Ai1,...,Aik满足:
    P ( ⋂ j = 1 k A i j ) = ∏ j = 1 k P ( A i j ) P\left(\bigcap_{j=1}^k A_{i_j}\right)=\prod_{j=1}^kP(A_{i_j}) P(j=1kAij)=j=1kP(Aij)

  • 随机变量:指从样本空间 S \mathcal{S} S映射成实数的一个函数

  • 概率导出函数:设样本空间 S = { s 1 , . . . , s n } \mathcal{S}=\{s_1,...,s_n\} S={s1,...,sn}与概率函数 P P P,随机变量 X X X的取值范围为 X = { x 1 , . . . , x m } \mathcal{X}=\{x_1,...,x_m\} X={x1,...,xm},定义:
    P X ( X = x i ) = P ( { s j ∈ S : X ( s j ) = x i } ) P_{X}(X=x_i)=P(\{s_j\in\mathcal{S}:X(s_j)=x_i\}) PX(X=xi)=P({sjS:X(sj)=xi})
    P X P_{X} PX X \mathcal{X} X上的概率导出函数(由原始函数 P P P定义得到)

    X \mathcal{X} X是不可数的,则可以定义概率导出函数 P X P_{X} PX对于任意集合 A ⊂ X A\subset\mathcal{X} AX
    P x ( X ∈ A ) = P ( { s j ∈ S : X ( s j ) ∈ A } ) P_{x}(X\in A)=P(\{s_j\in\mathcal{S}:X(s_j)\in A\}) Px(XA)=P({sjS:X(sj)A})

  • 累积分布函数 cdf \text{cdf} cdf F X ( x ) = P X ( X ≤ x ) F_X(x)=P_X(X\le x) FX(x)=PX(Xx)

  • 定理 F ( x ) F(x) F(x)是某个随机变量的累积分布函数,当且仅当以下三个条件成立:

    1. lim ⁡ x → − ∞ F ( x ) = 0 , lim ⁡ x → + ∞ F ( x ) = 1 \lim_{x\rightarrow-\infty}F(x)=0,\lim_{x\rightarrow+\infty}F(x)=1 limxF(x)=0,limx+F(x)=1
    2. F ( x ) F(x) F(x)不减
    3. F ( x ) F(x) F(x)右连续,即 lim ⁡ x → x 0 + F ( x ) = F ( x 0 ) \lim_{x\rightarrow x_0^+}F(x)=F(x_0) limxx0+F(x)=F(x0)对任意 x 0 x_0 x0成立
  • 连续与离散:称随机变量 X X X是连续的,若 F X ( x ) F_X(x) FX(x)是连续的;称随机变量 X X X是离散的,若 F X ( x ) F_X(x) FX(x) step function \text{step function} step function

  • 同分布:称随机变量 X , Y X,Y X,Y同分布,若 ∀ A ∈ B 1 \forall A\in\mathcal{B}^1 AB1,其中 B 1 \mathcal{B}^1 B1是最小的包含区间 ( a , b ) , [ a , b ) , ( a , b ] , [ a , b ] (a,b),[a,b),(a,b],[a,b] (a,b),[a,b),(a,b],[a,b] σ \sigma σ代数,且 P ( X ∈ A ) = P ( Y ∈ A ) P(X\in A)=P(Y\in A) P(XA)=P(YA)

  • 定理:下面两个陈述等价:

    1. 随机变量 X , Y X,Y X,Y同分布
    2. ∀ x , F X ( x ) = F Y ( x ) \forall x,F_X(x)=F_Y(x) x,FX(x)=FY(x)

    注意 F X F_X FX完全决定了随机变量 X X X的概率分布

  • 概率质量函数 pmf \text{pmf} pmf f X ( x ) = P X ( X = x ) f_X(x)=P_X(X=x) fX(x)=PX(X=x)

  • 概率密度函数 pdf \text{pdf} pdf F X ( x ) = ∫ − ∞ x f X ( t ) d t F_X(x)=\int_{-\infty}^xf_X(t)\text{d}t FX(x)=xfX(t)dt

  • 定理 f X ( x ) f_X(x) fX(x)是某个随机变量 X X X pdf \text{pdf} pdf(或 pmf \text{pmf} pmf),当前仅当以下两个条件成立:

    1. ∀ x , f X ( x ) ≥ 0 \forall x,f_X(x)\ge 0 x,fX(x)0
    2. ∑ x f X ( x ) = 1 \sum_xf_X(x)=1 xfX(x)=1(或 ∫ − ∞ + ∞ f X ( x ) d x = 1 \int_{-\infty}^{+\infty}f_X(x)\text{d}x=1 +fX(x)dx=1

Lecture 2 变换与期望

2.1 随机变量的分布函数

  • 连续随机变量的函数:连续随机变量 X X X的任意函数 Y = g ( X ) Y=g(X) Y=g(X)也是随机变量
    g ( X ) : X → Y g − 1 ( A ) = { x ∈ X : g ( x ) ∈ A } P ( Y ∈ A ) = P ( g ( X ) ∈ A ) = P ( { x ∈ X : g ( x ) ∈ A } ) = P ( X ∈ g − 1 ( A ) ) g(X):\mathcal{X}\rightarrow \mathcal{Y}\\ g^{-1}(A)=\{x\in\mathcal{X}:g(x)\in A\}\\ P(Y\in A)=P(g(X)\in A)=P(\{x\in\mathcal{X}:g(x)\in A\})=P(X\in g^{-1}(A)) g(X):XYg1(A)={xX:g(x)A}P(YA)=P(g(X)A)=P({xX:g(x)A})=P(Xg1(A))

  • 离散随机变量的函数:离散随机变量的任意函数 Y = g ( X ) Y=g(X) Y=g(X)的样本空间 Y = { y : y = g ( x ) , x ∈ X } \mathcal{Y}=\{y:y=g(x),x\in\mathcal{X}\} Y={y:y=g(x),xX}也是一个可数集
    P ( Y = y ) = ∑ x ∈ g − 1 ( y ) P ( X = x ) y ∈ Y P(Y=y)=\sum_{x\in g^{-1}(y)}P(X=x)\quad y\in\mathcal{Y} P(Y=y)=xg1(y)P(X=x)yY

  • Y = g ( X ) Y=g(X) Y=g(X)的累积分布函数
    F Y ( y ) = P ( Y ≤ y ) = P ( g ( X ) ≤ y ) = P ( { x ∈ X : g ( x ) ≤ y } ) = ∫ { x ∈ X : g ( x ) ≤ y } f X ( x ) d x F_Y(y)=P(Y\le y)=P(g(X)\le y)=P(\{x\in\mathcal{X}:g(x)\le y\})=\int_{\{x\in\mathcal{X}:g(x)\le y\}}f_X(x)\text{d}x FY(y)=P(Yy)=P(g(X)y)=P({xX:g(x)y})={xX:g(x)y}fX(x)dx

  • 定理:设 X X X c d f \rm cdf cdf F X ( x ) F_X(x) FX(x) Y = g ( X ) Y=g(X) Y=g(X),它们的支撑集为 X \mathcal{X} X Y \mathcal{Y} Y,即 X = { x : f X ( x ) > 0 } , Y = { y : y = g ( x ) , ∃ x ∈ X } \mathcal{X}=\{x:f_X(x)>0\},\mathcal{Y}=\{y:y=g(x),\exist x\in\mathcal{X}\} X={x:fX(x)>0},Y={y:y=g(x),xX},则下述两个命题称里:

    1. g g g X \mathcal{X} X上的单调增函数,则 F Y ( y ) = F X ( g − 1 ( y ) ) , y ∈ Y F_Y(y)=F_X(g^{-1}(y)),y\in\mathcal{Y} FY(y)=FX(g1(y)),yY
    2. g g g X \mathcal{X} X上的单调减函数,且 X X X是连续随机变量,则 F Y ( y ) = 1 − F X ( g − 1 ( y ) ) , y ∈ Y F_Y(y)=1-F_X(g^{-1}(y)),y\in\mathcal{Y} FY(y)=1FX(g1(y)),yY
  • 均匀分布 → \rightarrow 指数分布技巧 X ∼ Uniform ( 0 , 1 ) X\sim\text{Uniform}(0,1) XUniform(0,1),则 Y = − log ⁡ X ∼ exp ( 1 ) Y=-\log X\sim\text{exp}(1) Y=logXexp(1)

  • 定理:设 X X X pdf \text{pdf} pdf f X ( x ) f_X(x) fX(x) Y = g ( X ) Y=g(X) Y=g(X),其中 g g g是单调函数,它们的支撑集为 X \mathcal{X} X Y \mathcal{Y} Y;设 f X ( x ) f_X(x) fX(x) X \mathcal{X} X上连续,且 g − 1 ( y ) g^{-1}(y) g1(y) Y \mathcal{Y} Y上有连续导数,则 Y Y Y pdf \text{pdf} pdf具有如下的表达式:
    f Y ( y ) = { f X ( g − 1 ( y ) ) ∣ d d y g − 1 ( y ) ∣ y ∈ Y 0 otherwise f_Y(y)=\left\{\begin{aligned} &f_X(g^{-1}(y))\left|\frac{\rm d}{\text{d}y}g^{-1}(y)\right|&&y\in\mathcal{Y}\\ &0&&\text{otherwise} \end{aligned}\right. fY(y)=fX(g1(y))dydg1(y)0yYotherwise

  • 平方变换 Y = X 2 Y=X^2 Y=X2 cdf \text{cdf} cdf pdf \text{pdf} pdf计算( g g g分段单调的情况)
    F Y ( y ) = F X ( y ) − F X ( − y ) y > 0 f Y ( y ) = 1 2 y [ f X ( y ) + f X ( − y ) ] y > 0 F_Y(y)=F_X(\sqrt{y})-F_X(-\sqrt{y})\quad y>0\\ f_Y(y)=\frac1{2\sqrt{y}}[f_X(\sqrt{y})+f_X(-\sqrt{y})]\quad y>0 FY(y)=FX(y )FX(y )y>0fY(y)=2y 1[fX(y )+fX(y )]y>0

  • 定理:设 X X X pdf \text{pdf} pdf f X ( x ) f_X(x) fX(x),支撑集为 X \mathcal{X} X Y = g ( X ) Y=g(X) Y=g(X);设存在 X \mathcal{X} X的一个划分 A 0 , A 1 , . . . , A k A_0,A_1,...,A_k A0,A1,...,Ak使得 P ( X ∈ A 0 ) = 0 P(X\in A_0)=0 P(XA0)=0 f X ( x ) f_X(x) fX(x)在每个 A i A_i Ai上连续;进一步地,设存在定义在 A 1 , . . . , A k A_1,...,A_k A1,...,Ak上的函数 g 1 ( x ) , . . . , g k ( x ) g_1(x),...,g_k(x) g1(x),...,gk(x),满足:

    1. g ( x ) = g i ( x ) , x ∈ A i g(x)=g_i(x),x\in A_i g(x)=gi(x),xAi
    2. g i ( x ) g_i(x) gi(x) A i A_i Ai上单调, i = 1 , . . . , k i=1,...,k i=1,...,k
    3. Y = { y : y = g i ( x ) , ∃ x ∈ A i } \mathcal{Y}=\{y:y=g_i(x),\exist x\in A_i\} Y={y:y=gi(x),xAi}对每个 i = 1 , 2 , . . . , k i=1,2,...,k i=1,2,...,k都相同
    4. g i − 1 ( y ) g^{-1}_i(y) gi1(y) Y \mathcal{Y} Y上存在连续导数, i = 1 , . . . , k i=1,...,k i=1,...,k

    则有:
    f Y ( y ) = { ∑ i = 1 k f X ( g i − 1 ( y ) ) ∣ d d y g i − 1 ( y ) ∣ y ∈ Y 0 otherwise f_Y(y)=\left\{\begin{aligned} &\sum_{i=1}^kf_X(g_i^{-1}(y))\left|\frac{\text{d}}{\text{d}y}g_i^{-1}(y)\right|&&y\in \mathcal{Y}\\ &0&&\text{otherwise} \end{aligned}\right. fY(y)=i=1kfX(gi1(y))dydgi1(y)0yYotherwise

  • 卡方分布 Y = X 2 Y=X^2 Y=X2,其中 X ∼ N ( 0 , 1 ) X\sim N(0,1) XN(0,1),则利用上述定理:
    f Y ( y ) = ∣ − 1 2 y ∣ + 1 2 π exp { − ( − y ) 2 / 2 } + ∣ 1 2 y ∣ + 1 2 π exp { − ( y ) 2 / 2 } = 1 2 π y exp ⁡ { − y 2 } f_Y(y)=\left|-\frac1{2\sqrt{y}}\right|+\frac1{\sqrt{2\pi}}\text{exp}\{-(-\sqrt{y})^2/2\}+\left|\frac1{2\sqrt{y}}\right|+\frac1{\sqrt{2\pi}}\text{exp}\{-(\sqrt{y})^2/2\}=\frac1{\sqrt{2\pi y}}\exp\{-\frac y2\} fY(y)=2y 1+2π 1exp{(y )2/2}+2y 1+2π 1exp{(y )2/2}=2πy 1exp{2y}

  • 定理:设 X X X有连续 cdf \text{cdf} cdf F X ( x ) F_X(x) FX(x),定义随机变量 Y = F X ( X ) Y=F_X(X) Y=FX(X),则 Y ∼ Uniform(0,1) Y\sim \text{Uniform(0,1)} YUniform(0,1),即 P ( Y ≤ y ) = y , 0 < y < 1 P(Y\le y)=y,0<y<1 P(Yy)=y,0<y<1

    分析 E [ E [ Y ∣ X ] ] = E Y \mathbb{E}[\mathbb{E}[Y|X]]=\mathbb{E}Y E[E[YX]]=EY P ( F ( Y ∣ X ) ≤ y ) = P ( Y ≤ F − 1 ( y ∣ X ) ∣ X ) P(F(Y|X)\le y)=P(Y\le F^{-1}(y|X)|X) P(F(YX)y)=P(YF1(yX)X),外面套一层期望即可

    拓展:给定 X , Y , Z X,Y,Z X,Y,Z,做变换 X → F X ( X ) , Y → F ( Y ∣ X ) , Z → F ( Z ∣ X , Y ) X\rightarrow F_X(X),Y\rightarrow F(Y|X),Z\rightarrow F(Z|X,Y) XFX(X),YF(YX),ZF(ZX,Y)得到映射后的随机变量 U , V , D U,V,D U,V,D,它们相互独立,且都服从 Uniform ( 0 , 1 ) \text{Uniform}(0,1) Uniform(0,1),这在线性回归中可以作为标准化,消除变量之间的相关性,然后就可以分别回归。( Rosenblatt \text{Rosenblatt} Rosenblatt变换)

2.2 期望值

  • 期望值
    E [ g ( X ) ] = { ∫ − ∞ + ∞ g ( x ) f X ( x ) d x if  X  is continuous ∑ x ∈ X g ( x ) f X ( x ) if  X  is discrete \mathbb{E}[g(X)]=\left\{\begin{aligned} &\int_{-\infty}^{+\infty}g(x)f_X(x)\text{d}x&&\text{if }X\text{ is continuous}\\ &\sum_{x\in\mathcal{X}}g(x)f_X(x)&&\text{if }X\text{ is discrete} \end{aligned}\right. E[g(X)]=+g(x)fX(x)dxxXg(x)fX(x)if X is continuousif X is discrete
    称期望不存在,若 E ∣ g ( X ) ∣ = ∞ \mathbb{E}|g(X)|=\infty Eg(X)=

  • 二项分布
    P ( X = x ) = C n x p x ( 1 − p ) n − x , x = 0 , 1 , . . . , n E X = n p P(X=x)=C_n^xp^x(1-p)^{n-x},x=0,1,...,n\\ \mathbb{E}X=np P(X=x)=Cnxpx(1p)nx,x=0,1,...,nEX=np

  • 柯西分布:*度为 1 1 1 t t t分布
    f X ( x ) = 1 π ( 1 + x 2 ) , x ∈ R E ∣ X ∣ = 2 π ∫ 0 + ∞ x 1 + x 2 d x f_X(x)=\frac1{\pi(1+x^2)},x\in\R\\ \mathbb{E}|X|=\frac2\pi\int_0^{+\infty}\frac x{1+x^2}\text{d}x fX(x)=π(1+x2)1,xREX=π20+1+x2xdx
    注意到:
    ∫ 0 M x 1 + x 2 d x = log ⁡ ( 1 + M 2 ) 2 \int_0^M\frac x{1+x^2}\text{d}x=\frac{\log(1+M^2)}2 0M1+x2xdx=2log(1+M2)
    则期望不存在。

  • 几何分布 P ( X = x ) = ( 1 − p ) x − 1 p P(X=x)=(1-p)^{x-1}p P(X=x)=(1p)x1p E X = 1 p \mathbb{E}X=\frac1p EX=p1

    计算方法:使用定义硬算级数或写成 E X = p + ( 1 − p ) [ E X + 1 ] \mathbb{E}X=p+(1-p)[\mathbb{E}X+1] EX=p+(1p)[EX+1]来计算

    可放回的抽 n n n个球,期望需要 1 + n n − 1 + n n − 2 + . . . + n 1 1+\frac n{n-1}+\frac n{n-2}+...+\frac n1 1+n1n+n2n+...+1n次全部抽中

  • 最小二乘损失 E ( X − b ) 2 \mathbb{E}(X-b)^2 E(Xb)2,平方损失下的最优解是期望函数,绝对损失下的最优解是中位数函数

  • 作业 1.2 , 1.38 , 1.53 , 1.54 1.2,1.38,1.53,1.54 1.2,1.38,1.53,1.54

2.3 矩母函数

    • n n n阶矩: E X n \mathbb{E}X^n EXn
    • n n n阶中心距: E ( X − μ ) n \mathbb{E}(X-\mu)^n E(Xμ)n,其中 μ = E X \mu=\mathbb{E}X μ=EX
    • 方差是 2 2 2阶中心距
  • 矩母函数 mgf \text{mgf} mgf:设 X X X cdf \text{cdf} cdf F X F_X FX,则矩母函数定义为:
    M X ( t ) = E e t X M_X(t)=\mathbb{E}e^{tX} MX(t)=EetX
    t t t取在 0 0 0的某个邻域内期望存在,即存在 h > 0 h>0 h>0,使得 ∀ t ∈ ( − h , h ) \forall t\in(-h,h) t(h,h)有期望存在

    称矩母函数不存在,若上述期望不存在

  • 定理:若 X X X存在矩母函数 M X ( t ) M_X(t) MX(t),则有:
    E X n = M X ( n ) ( 0 ) = d n d t n M X ( t ) ∣ t = 0 d d t M X ( t ) = E X e t X d d t M X ( t ) ∣ t = 0 = E X M X ( t ) = ∑ k = 0 + ∞ E X k k ! t k \mathbb{E}X^n=M_X^{(n)}(0)=\left.\frac{\text{d}^n}{\text{d}t^n}M_X(t)\right|_{t=0}\\ \frac{\text{d}}{\text{d}t}M_X(t)=\mathbb{E}Xe^{tX}\\ \left.\frac{\text{d}}{\text{d}t}M_X(t)\right|_{t=0}=\mathbb{E}X\\ M_X(t)=\sum_{k=0}^{+\infty}\frac{\mathbb{E}X^k}{k!}t^k EXn=MX(n)(0)=dtndnMX(t)t=0dtdMX(t)=EXetXdtdMX(t)t=0=EXMX(t)=k=0+k!EXktk

  • Γ \Gamma Γ分布的矩母函数 X ∼ Γ ( α , β ) , α > 0 , β > 0 X\sim\Gamma(\alpha,\beta),\alpha>0,\beta>0 XΓ(α,β),α>0,β>0
    f ( x ) = 1 Γ ( α ) β α x α − 1 e − x β , x > 0 f(x)=\frac1{\Gamma(\alpha)\beta^\alpha}x^{\alpha-1}e^{-\frac x\beta},x>0 f(x)=Γ(α)βα1xα1eβx,x>0
    其中:
    Γ ( α ) = ∫ 0 + ∞ t α − 1 e − t d t \Gamma(\alpha)=\int_0^{+\infty}t^{\alpha-1}e^{-t}\text{d}t Γ(α)=0+tα1etdt
    X X X的矩母函数为:
    M X ( t ) = ( 1 1 − β t ) α , t < 1 β M_X(t)=\left(\frac1{1-\beta t}\right)^\alpha,t<\frac1\beta MX(t)=(1βt1)α,t<β1

  • 二项分布的矩母函数 X ∈ Binomial ( n , p ) X\in \text{Binomial}(n,p) XBinomial(n,p)
    M X ( t ) = [ p e t + ( 1 − p ) ] n M_X(t)=[pe^t+(1-p)]^n MX(t)=[pet+(1p)]n

  • 矩母函数性质

    • Y = a X + b Y=aX+b Y=aX+b,则 M Y ( t ) = e b t M X ( a t ) M_Y(t)=e^{bt}M_X(at) MY(t)=ebtMX(at)

    • Y = X 1 + X 2 + . . . + X n Y=X_1+X_2+...+X_n Y=X1+X2+...+Xn,则 M Y ( t ) = M X 1 ( t ) × M X 2 ( t ) × . . . × M X n ( t ) M_Y(t)=M_{X_1}(t)\times M_{X_2}(t)\times ...\times M_{X_n}(t) MY(t)=MX1(t)×MX2(t)×...×MXn(t)

    • 矩母函数唯一确定随机变量的分布,但任意阶矩是不行的

      考虑下面两个 pdf \text{pdf} pdf:它们的任意阶矩都相等,但是它们是不同分布的:
      f 1 ( x ) = 1 2 π x e − log ⁡ 2 x / 2 x > 0 f 2 ( x ) = f 1 ( x ) [ 1 + sin ⁡ ( 2 π log ⁡ x ) ] x > 0 f_1(x)=\frac1{\sqrt{2\pi}x}e^{-\log^2x/2}\quad x>0\\ f_2(x)=f_1(x)[1+\sin(2\pi\log x)]\quad x>0 f1(x)=2π x1elog2x/2x>0f2(x)=f1(x)[1+sin(2πlogx)]x>0

  • 定理:设 F X ( x ) F_X(x) FX(x) F Y ( y ) F_Y(y) FY(y)是两个存在矩的 cdf \text{cdf} cdf,则有如下命题成立:

    1. X , Y X,Y X,Y存在有界的支撑集,则 F X ( u ) = F Y ( u ) F_X(u)=F_Y(u) FX(u)=FY(u)对任意 u u u成立,当且仅当 E X r = E Y r \mathbb{E}X^r=\mathbb{E}Y^r EXr=EYr对任意整数 r = 0 , 1 , 2 , . . . r=0,1,2,... r=0,1,2,...成立
    2. 若矩母函数存在且 M x ( t ) = M Y ( t ) M_x(t)=M_Y(t) Mx(t)=MY(t)对任意 t t t 0 0 0的某个邻域中成立,则 F X ( u ) = F Y ( u ) F_X(u)=F_Y(u) FX(u)=FY(u)对任意 u u u成立
  • 定理:设 { X i : i = 1 , 2 , . . . } \{X_i:i=1,2,...\} {Xi:i=1,2,...}是一系列随机变量,矩母函数为 M X i ( t ) M_{X_i}(t) MXi(t),假设:
    lim ⁡ i → + ∞ M X i ( t ) = M X ( t ) \lim_{i\rightarrow +\infty}M_{X_i}(t)=M_X(t) i+limMXi(t)=MX(t)

    对任意 t t t 0 0 0的某个邻域中成立,且 M X ( t ) M_X(t) MX(t)是一个矩母函数,则存在唯一的 cdf \text{cdf} cdf,记为 F X F_X FX,它的矩被 M X ( t ) M_X(t) MX(t)确定,且 ∀ x \forall x x F X ( x ) F_X(x) FX(x)连续,我们有:
    lim ⁡ i → + ∞ F X i ( x ) = F X ( x ) \lim_{i\rightarrow +\infty}F_{X_i}(x)=F_X(x) i+limFXi(x)=FX(x)
    即矩母函数的收敛性能够推导出 cdf \text{cdf} cdf的收敛性

  • 泊松近似 Binomial ( n , p ) \text{Binomial}(n,p) Binomial(n,p)近似 Poisson ( n p ) \text{Poisson}(np) Poisson(np),若 n n n非常大, p p p非常小,且 n p np np较小。

    事实上 Binomial ( n , p ) \text{Binomial}(n,p) Binomial(n,p)分布的矩母函数 M X ( t ) = [ p e t + ( 1 − p ) ] n M_X(t)=[pe^t+(1-p)]^n MX(t)=[pet+(1p)]n就会收敛到 Poisson ( λ ) \text{Poisson}(\lambda) Poisson(λ)的矩母函数 e λ ( e t − 1 ) e^{\lambda}(e^t-1) eλ(et1)

  • 特征函数:特征函数提供了另一种描述随机变量的方法,定义为 ϕ X ( t ) = E ( e i t X ) \phi_X(t)=\mathbb{E}(e^{itX}) ϕX(t)=E(eitX),这个跟矩母函数很相似,也可以唯一确定随机变量的分布,仅仅是添加了一个复数符号 i i i,但是这意味着特征函数一定存在(有界性推论)。

  • 特征函数性质

    • 有界性: ∣ ϕ ( t ) ∣ ≤ 1 |\phi(t)|\le 1 ϕ(t)1
    • 共轭性: ϕ ( − t ) = ϕ ˉ ( t ) \phi(-t)=\bar\phi(t) ϕ(t)=ϕˉ(t)
    • 特征函数在全空间一致连续
    • Y = a X + b Y=aX+b Y=aX+b,则 ϕ Y ( t ) = e i t b ϕ X ( a t ) \phi_Y(t)=e^{itb}\phi_X(at) ϕY(t)=eitbϕX(at)
    • 若随机变量 X X X k k k阶矩,则特征函数 ϕ X ( t ) \phi_X(t) ϕX(t) k k k阶连续可微在实数轴上,此时有 E ( X k ) = ( − i ) k ϕ X ( k ) ( 0 ) \mathbb{E}(X^k)=(-i)^k\phi_{X}^{(k)}(0) E(Xk)=(i)kϕX(k)(0)
  • 定理:若 ϕ X \phi_X ϕX是分布函数 F X F_X FX的特征函数,且 F X F_X FX a , b a,b a,b两个点处连续,则:
    F X ( b ) − F X ( a ) = 1 2 π lim ⁡ T → + ∞ ∫ − T + T e − i t a − e − i t b i t ϕ X ( t ) d t F_X(b)-F_X(a)=\frac1{2\pi}\lim_{T\rightarrow+\infty}\int_{-T}^{+T}\frac{e^{-ita}-e^{-itb}}{it}\phi_X(t)\text{d}t FX(b)FX(a)=2π1T+limT+TiteitaeitbϕX(t)dt
    该公式可以改写为下面更适合于数值计算的形式:
    F ( x + h ) − F ( x − h ) 2 h = 1 2 π ∫ − i n f t y + ∞ sin ⁡ h t h t e − i t x ϕ X ( t ) d t \frac{F(x+h)-F(x-h)}{2h}=\frac1{2\pi}\int_{-infty}^{+\infty}\frac{\sin ht}{ht}e^{-itx}\phi_X(t)\text{d}t 2hF(x+h)F(xh)=2π1infty+htsinhteitxϕX(t)dt

  • 定理:若特征函数 ϕ X \phi_X ϕX可积,则 F X F_X FX是绝对连续的,且 X X X pdf \text{pdf} pdf
    f X ( x ) = F X ′ ( x ) = 1 2 π = ∫ R e − i t x ϕ X ( t ) d t f_X(x)=F'_X(x)=\frac1{2\pi}=\int_\R e^{-itx}\phi_X(t)\text{d}t fX(x)=FX(x)=2π1=ReitxϕX(t)dt
    推论:两个随机变量 X 1 , X 2 X_1,X_2 X1,X2具有相同的概率分布当且仅当 ϕ X 1 = ϕ X 2 \phi_{X_1}=\phi_{X_2} ϕX1=ϕX2

2.4 积分号下的微分

积分微分号交换是需要条件的。

  • 莱布尼茨法则:若 f ( x , θ ) , a ( θ ) , b ( θ ) f(x,\theta),a(\theta),b(\theta) f(x,θ),a(θ),b(θ)关于 θ \theta θ可微,则:(固定两个对第三个求导,做三次即可)
    d d θ ∫ a ( θ ) b ( θ ) f ( x , θ ) d x = f ( b ( θ ) , θ ) ⋅ d d θ b ( θ ) − f ( a ( θ ) , θ ) ⋅ d d θ a ( θ ) + ∫ a ( θ ) b ( θ ) ∂ ∂ θ f ( x , θ ) d x \frac{\rm d}{\text{d}\theta}\int_{a(\theta)}^{b(\theta)}f(x,\theta)\text{d}x=f(b(\theta),\theta)\cdot\frac{\rm d}{\text{d}\theta}b(\theta)-f(a(\theta),\theta)\cdot\frac{\rm d}{\text{d}\theta}a(\theta)+\int_{a(\theta)}^{b(\theta)}\frac{\partial}{\partial\theta}f(x,\theta)\text{d}x dθda(θ)b(θ)f(x,θ)dx=f(b(θ),θ)dθdb(θ)f(a(θ),θ)dθda(θ)+a(θ)b(θ)θf(x,θ)dx
    说明:若有一个微分函数的积分在有限域上,则交换顺序可行,反常积分则可能出问题。

  • 定理:设函数 h ( x , y ) h(x,y) h(x,y)对任意 x x x y 0 y_0 y0处连续,则存在函数 g ( x ) g(x) g(x)满足:

    • ∣ h ( x , y ) ∣ ≤ g ( x ) |h(x,y)|\le g(x) h(x,y)g(x)对任意 x , y x,y x,y成立
    • ∫ − ∞ + ∞ g ( x ) d x < + i n f t y \int_{-\infty}^{+\infty}g(x)\text{d}x<+infty +g(x)dx<+infty

    则有:
    lim ⁡ y → y 0 ∫ − ∞ + ∞ h ( x , y ) d x = ∫ − ∞ + ∞ lim ⁡ y → y 0 h ( x , y ) d x \lim_{y\rightarrow y_0}\int_{-\infty}^{+\infty}h(x,y)\text{d}x=\int_{-\infty}^{+\infty}\lim_{y\rightarrow y_0}h(x,y)\text{d}x yy0lim+h(x,y)dx=+yy0limh(x,y)dx

  • 定理:设 f ( x , θ ) f(x,\theta) f(x,θ) θ = θ 0 \theta=\theta_0 θ=θ0处可微,则存在对于每一个 x x x,都存在一个函数 g ( x , θ 0 ) g(x,\theta_0) g(x,θ0)和常数 δ 0 > 0 \delta_0>0 δ0>0,使得:

    1. ∣ f ( x , θ 0 + δ ) − f ( x , θ 0 ) δ ∣ ≤ g ( x , θ 0 ) \left|\frac{f(x,\theta_0+\delta)-f(x,\theta_0)}\delta\right|\le g(x,\theta_0) δf(x,θ0+δ)f(x,θ0)g(x,θ0)对任意 x x x ∣ δ ∣ ≤ δ 0 |\delta|\le \delta_0 δδ0
    2. ∫ − ∞ + ∞ g ( x , θ 0 ) d x < + ∞ \int_{-\infty}^{+\infty}g(x,\theta_0)\text{d}x<+\infty +g(x,θ0)dx<+

    则有:
    d d θ ∫ − ∞ + ∞ f ( x , θ ) d x ∣ θ = θ 0 = ∫ − ∞ + ∞ [ ∂ ∂ θ f ( x , θ ) ∣ θ = θ 0 ] d x \left.\frac{\text{d}}{\text{d}\theta}\int_{-\infty}{+\infty}f(x,\theta)\text{d}x\right|_{\theta=\theta_0}=\int_{-\infty}^{+\infty}\left[\left.\frac{\partial}{\partial \theta}f(x,\theta)\right|_{\theta=\theta_0}\right]\text{d}x dθd+f(x,θ)dxθ=θ0=+[θf(x,θ)θ=θ0]dx

  • 推论:设 f ( x , θ ) f(x,\theta) f(x,θ) θ \theta θ可微,则存在 g ( x , θ ) g(x,\theta) g(x,θ)使得:
    ∣ ∂ ∂ θ f ( x , θ ) ∣ θ = θ 0 ∣ ≤ g ( x , θ ) \left|\left.\frac{\partial}{\partial \theta}f(x,\theta)\right|_{\theta=\theta_0}\right|\le g(x,\theta) θf(x,θ)θ=θ0g(x,θ)
    对任意满足 ∣ θ ′ − θ ∣ ≤ δ 0 |\theta'-\theta|\le\delta_0 θθδ0,且 ∫ − ∞ + ∞ g ( x , θ 0 ) d x < + i n f t y \int_{-\infty}^{+\infty}g(x,\theta_0)\text{d}x<+infty +g(x,θ0)dx<+infty,则有:
    d d θ ∫ − ∞ + ∞ f ( x , θ ) d x = ∫ − ∞ + ∞ ∂ ∂ θ f ( x , θ ) d x \frac{\text{d}}{\text{d}\theta}\int_{-\infty}^{+\infty}f(x,\theta)\text{d}x=\int_{-\infty}^{+\infty}\frac{\partial}{\partial\theta}f(x,\theta)\text{d}x dθd+f(x,θ)dx=+θf(x,θ)dx

  • 作业 2.14 , 2.18 , 2.26 , 2.40 2.14,2.18,2.26,2.40 2.14,2.18,2.26,2.40


Chapter 3 常见分布族

3.1 离散型分布

  • 离散均匀分布 Uniform ( 1 , N ) \text{Uniform}(1,N) Uniform(1,N)
    P ( X = x ∣ N ) = 1 N x = 1 , . . . , N E X = N + 1 2 Var ( X ) = ( N + 1 ) ( N − 1 ) 12 P(X=x|N)=\frac1N\quad x=1,...,N\\ \mathbb{E}X=\frac{N+1}2\\ \text{Var}(X)=\frac{(N+1)(N-1)}{12} P(X=xN)=N1x=1,...,NEX=2N+1Var(X)=12(N+1)(N1)

  • 超几何分布 H ( N , M , K ) H(N,M,K) H(N,M,K):从 N N N个球(其中 M M M个球是红色)中取 K K K个球
    P ( X = x ∣ N , M , K ) = C M x C N − M K − x C N K E X = K M N Var ( X ) = K M ( N − M ) ( N − K ) N 2 ( N − 1 ) P(X=x|N,M,K)=\frac{C_{M}^xC_{N-M}^{K-x}}{C_{N}^K}\\ \mathbb{E}X=\frac{KM}N\\ \text{Var}(X)=\frac{KM(N-M)(N-K)}{N^2(N-1)} P(X=xN,M,K)=CNKCMxCNMKxEX=NKMVar(X)=N2(N1)KM(NM)(NK)
    事实上超几何分布的期望方差与二项分布具有一致性: n = M , p = K N n=M,p=\frac KN n=M,p=NK,方差乘以 N − M N − 1 \frac{N-M}{N-1} N1NM的系数

  • 二项分布 Binomial ( n , p ) \text{Binomial}(n,p) Binomial(n,p)
    P ( Y = y ∣ n , p ) = C n y p y ( 1 − p ) n − y y = 0 , 1 , 2 , . . . , n E Y = n p Var ( Y ) = n p ( 1 − p ) M Y ( t ) = [ p e t + ( 1 − p ) ] n P(Y=y|n,p)=C_n^yp^y(1-p)^{n-y}\quad y=0,1,2,...,n\\ \mathbb{E}Y=np\\ \text{Var}(Y)=np(1-p)\\ M_Y(t)=[pe^t+(1-p)]^n P(Y=yn,p)=Cnypy(1p)nyy=0,1,2,...,nEY=npVar(Y)=np(1p)MY(t)=[pet+(1p)]n

  • 泊松分布 Poisson ( λ ) \text{Poisson}(\lambda) Poisson(λ)
    P ( X = x ∣ λ ) = e − λ λ x x ! E X = Var ( X ) = λ M X ( t ) = e λ ( e t − 1 ) ϕ X ( t ) = e λ ( e i t − 1 ) P(X=x|\lambda)=e^{-\lambda}\frac{\lambda^x}{x!}\\ \mathbb{E}X=\text{Var}(X)=\lambda\\ M_X(t)=e^{\lambda}(e^t-1)\\ \phi_X(t)=e^{\lambda(e^{it}-1)} P(X=xλ)=eλx!λxEX=Var(X)=λMX(t)=eλ(et1)ϕX(t)=eλ(eit1)
    泊松分布的可加性:若 X i ∼ Poisson ( λ i ) X_{i}\sim \text{Poisson}(\lambda_i) XiPoisson(λi)且相互独立,则有:
    X 1 + X 2 ∼ Poisson ( λ 1 + λ 2 ) P ( X i = x ∣ X 1 + X 2 = k ) = C k x θ i x ( 1 − θ i ) k − x θ i = λ i λ 1 + λ 2 i = 1 , 2 X_1+X_2\sim\text{Poisson}(\lambda_1+\lambda_2)\\ P(X_i=x|X_1+X_2=k)=C_k^x\theta_i^x(1-\theta_i)^{k-x}\\ \theta_i=\frac{\lambda_i}{\lambda_1+\lambda_2}\quad i=1,2 X1+X2Poisson(λ1+λ2)P(Xi=xX1+X2=k)=Ckxθix(1θi)kxθi=λ1+λ2λii=1,2
    泊松分布的正态渐近性 λ → + ∞ , X − λ λ → N ( 0 , 1 ) \lambda\rightarrow+\infty,\frac{X-\lambda}{\sqrt{\lambda}}\rightarrow N(0,1) λ+,λ XλN(0,1)中心极限定理

  • 负二项分布(帕斯卡分布) N B ( r , p ) NB(r,p) NB(r,p)
    P ( X = x ∣ r , p ) = C x − 1 r − 1 p r ( 1 − p ) x − r x = r , r + 1 , . . . P(X=x|r,p)=C_{x-1}^{r-1}p^r(1-p)^{x-r}\quad x=r,r+1,...\\ P(X=xr,p)=Cx1r1pr(1p)xrx=r,r+1,...
    Y = X − r Y=X-r Y=Xr,有:
    E Y = r ( 1 − p ) p Var ( Y ) = r ( 1 − p ) p 2 = E Y + 1 r E 2 Y \mathbb{E}Y=\frac{r(1-p)}p\\ \text{Var}(Y)=\frac{r(1-p)}{p^2}=\mathbb{E}Y+\frac1r\mathbb{E}^2Y EY=pr(1p)Var(Y)=p2r(1p)=EY+r1E2Y

  • 几何分布 Geometric ( p ) \text{Geometric}(p) Geometric(p):在负二项分布中令 r = 1 r=1 r=1即可
    P ( X = x ∣ p ) = p ( 1 − p ) x − 1 x = 1 , 2 , . . . E X = 1 p Var ( X ) = 1 − p p 2 P(X=x|p)=p(1-p)^{x-1}\quad x=1,2,...\\ \mathbb{E}X=\frac1p\\ \text{Var}(X)=\frac{1-p}{p^2} P(X=xp)=p(1p)x1x=1,2,...EX=p1Var(X)=p21p
    几何分布的无记忆性
    P ( X > s ∣ X > t ) = P ( X > s − t ) = ( 1 − p ) s − t P(X>s|X>t)=P(X>s-t)=(1-p)^{s-t} P(X>sX>t)=P(X>st)=(1p)st

3.2 连续型分布

  • 连续均匀分布 Uniform ( a , b ) \text{Uniform}(a,b) Uniform(a,b)
    f ( x ∣ a , b ) = { 1 b − a a ≤ x ≤ b 0 otherwise E X = a + b 2 Var ( X ) = ( b − a ) 2 12 f(x|a,b)=\left\{\begin{aligned} &\frac1{b-a}&&a\le x\le b\\ &0&&\text{otherwise} \end{aligned}\right.\\ \mathbb{E}X=\frac{a+b}2\\ \text{Var}(X)=\frac{(b-a)^2}{12} f(xa,b)=ba10axbotherwiseEX=2a+bVar(X)=12(ba)2

  • 伽马分布 Gamma ( α , β ) \text{Gamma}(\alpha,\beta) Gamma(α,β)
    f ( x ∣ α , β ) = 1 Γ ( α ) β α x α − 1 e − x β x > 0 , α > 0 , β > 0 Γ ( α ) = ∫ 0 + ∞ t α − 1 e − t d t E X = α β Var ( X ) = α β 2 M X ( t ) = ( 1 1 − β t ) α t < 1 β f(x|\alpha,\beta)=\frac1{\Gamma(\alpha)\beta^\alpha}x^{\alpha-1}e^{-\frac x\beta}\quad x>0,\alpha>0,\beta>0\\ \Gamma(\alpha)=\int_0^{+\infty}t^{\alpha-1}e^{-t}\text{d}t\\ \mathbb{E}X=\alpha\beta\\ \text{Var}(X)=\alpha\beta^2\\ M_X(t)=\left(\frac1{1-\beta t}\right)^{\alpha}\quad t<\frac1\beta f(xα,β)=Γ(α)βα1xα1eβxx>0,α>0,β>0Γ(α)=0+tα1etdtEX=αβVar(X)=αβ2MX(t)=(1βt1)αt<β1
    α \alpha α参数可加性 β \beta β参数不具有可加性

    与卡方分布及指数分布的联系 α = 1 \alpha=1 α=1对应指数分布, α = n 2 , β = 2 \alpha=\frac n2,\beta=2 α=2n,β=2对应卡方分布(*度为 n n n,只能为偶数)

  • 指数分布 Exp ( β ) \text{Exp}(\beta) Exp(β):在伽马分布中令 α = 1 \alpha=1 α=1即可
    f ( x ∣ β ) = 1 β e − x β x > 0 E X = β Var ( X ) = β 2 f(x|\beta)=\frac1\beta e^{-\frac x\beta}\quad x>0\\ \mathbb{E}X=\beta\\ \text{Var}(X)=\beta^2 f(xβ)=β1eβxx>0EX=βVar(X)=β2
    指数分布的无记忆性 P ( X > s ∣ X > t ) = P ( X > s − t ) P(X>s|X>t)=P(X>s-t) P(X>sX>t)=P(X>st)

    与均匀分布的联系:若 Y ∼ Uniform ( 0 , 1 ) Y\sim\text{Uniform}(0,1) YUniform(0,1),则

    • X = log ⁡ Y ∼ Exp ( 1 ) X=\log Y\sim\text{Exp}(1) X=logYExp(1)
  • X = − β log ⁡ Y ∼ Exp ( β ) ∼ Gamma ( 1 , β ) X=-\beta \log Y\sim\text{Exp}(\beta)\sim \text{Gamma}(1,\beta) X=βlogYExp(β)Gamma(1,β)

    • X = − 2 log ⁡ Y ∼ Gamma ( 1 , 2 ) ∼ X 2 ( 2 ) X=-2\log Y\sim\text{Gamma}(1,2)\sim\mathcal{X}^2(2) X=2logYGamma(1,2)X2(2)
  • 正态分布 N ( μ , σ 2 ) N(\mu,\sigma^2) N(μ,σ2)
    f ( x ∣ μ , σ 2 ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 E X = μ Var ( X ) = σ 2 f(x|\mu,\sigma^2)=\frac1{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}\\ \mathbb{E}X=\mu\\ \text{Var}(X)=\sigma^2 f(xμ,σ2)=2π σ1e2σ2(xμ)2EX=μVar(X)=σ2
    正态分布标准化 Z = X − μ σ ∼ N ( 0 , 1 ) Z=\frac{X-\mu}{\sigma}\sim N(0,1) Z=σXμN(0,1) ϕ ( x ) = ϕ ( − x ) \phi(x)=\phi(-x) ϕ(x)=ϕ(x) Φ ( x ) = 1 − ϕ ( − x ) \Phi(x)=1-\phi(-x) Φ(x)=1ϕ(x)

    相互独立的正态分布随机变量的线性组合仍然是正态分布:不可以放缩到不相关(反例: X 1 = δ 1 Z , X 2 = δ 2 Z X_1=\delta_1 Z,X_2=\delta_2 Z X1=δ1Z,X2=δ2Z,可以证明 X 1 , X 2 X_1,X_2 X1,X2 c d f \rm cdf cdf依然是正态分布,其中 δ i \delta_i δi是等概率取值 { − 1 , 1 } \{-1,1\} {1,1}的随机变量)

  • 对数正态分布 ln ⁡ X ∼ N ( μ , σ 2 ) \ln X\sim N(\mu,\sigma^2) lnXN(μ,σ2)
    f ( x ∣ μ , σ 2 ) = 1 x 2 π σ e − ( log ⁡ x − μ ) 2 2 σ 2 E X = E e log ⁡ X = e μ + σ 2 2 f(x|\mu,\sigma^2)=\frac1{x\sqrt{2\pi}\sigma}e^{-\frac{(\log x-\mu)^2}{2\sigma^2}}\\ \mathbb{E}X=\mathbb{E}e^{\log X}=e^{\mu+\frac{\sigma^2} 2} f(xμ,σ2)=x2π σ1e2σ2(logxμ)2EX=EelogX=eμ+2σ2

  • t t t分布 X = Z Y / n X=\frac{Z}{\sqrt{Y/n}} X=Y/n Z,其中 Z ∼ N ( 0 , 1 ) , Y ∼ X 2 ( n ) Z\sim N(0,1),Y\sim \mathcal{X}^2(n) ZN(0,1),YX2(n)
    f ( t ) = Γ ( n + 1 2 ) n π Γ ( n 2 ) ( 1 + t 2 n ) − n + 1 2 E X = 0 n > 1 Var ( X ) = n n − 2 n > 2 f(t)=\frac{\Gamma\left(\frac{n+1}2\right)}{\sqrt{n\pi}\Gamma\left(\frac n2\right)}\left(1+\frac{t^2}n\right)^{-\frac{n+1}{2}}\\ \mathbb{E}X=0\quad n>1\\ \text{Var}(X)=\frac n{n-2}\quad n>2 f(t)=nπ Γ(2n)Γ(2n+1)(1+nt2)2n+1EX=0n>1Var(X)=n2nn>2
    其中 n n n表示 t t t分布的*度

  • F F F分布 X / m Y / n ∼ F ( m , n ) \frac{X/m}{Y/n}\sim F(m,n) Y/nX/mF(m,n),其中 X ∼ X 2 ( m ) , Y ∼ X 2 ( n ) X\sim\mathcal{X}^2(m),Y\sim \mathcal{X}^2(n) XX2(m),YX2(n)
    E X = n n − 2 n > 2 Var ( X ) = 2 ( n n − 1 ) 2 m + n − 2 m ( n − 4 ) n > 4 \mathbb{E}X=\frac n{n-2}\quad n>2\\ \text{Var}(X)=2\left(\frac n{n-1}\right)^2\frac{m+n-2}{m(n-4)}\quad n>4\\ EX=n2nn>2Var(X)=2(n1n)2m(n4)m+n2n>4
    分位数 F α ( m , n ) = [ F 1 − α ( n , m ) ] − 1 F_\alpha(m,n)=[F_{1-\alpha}(n,m)]^{-1} Fα(m,n)=[F1α(n,m)]1

    三条性质

    • X ∼ F ( p , q ) X\sim F(p,q) XF(p,q),则 1 X ∼ F ( q , p ) \frac 1X\sim F(q,p) X1F(q,p)
    • X ∼ t ( q ) X\sim t(q) Xt(q),则 X 2 ∼ F ( 1 , q ) X^2\sim F(1,q) X2F(1,q)
    • X ∼ F ( p , q ) X\sim F(p,q) XF(p,q),则 ( p / q ) X / ( 1 + ( p / q ) X ) ∼ β ( p 2 , q 2 ) (p/q)X/(1+(p/q)X)\sim\beta(\frac p2,\frac q2) (p/q)X/(1+(p/q)X)β(2p,2q)
  • β \beta β分布 Be ( α , β ) \text{Be}(\alpha,\beta) Be(α,β)
    f ( x ; α , β ) = Γ ( α + β ) Γ ( α ) Γ ( β ) x α − 1 ( 1 − x ) β − 1 = 1 B ( α , β ) x α − 1 ( 1 − x ) β − 1 f(x;\alpha,\beta)=\frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)}x^{\alpha-1}(1-x)^{\beta-1}=\frac1{B(\alpha,\beta)}x^{\alpha-1}(1-x)^{\beta-1} f(x;α,β)=Γ(α)Γ(β)Γ(α+β)xα1(1x)β1=B(α,β)1xα1(1x)β1

    • 众数: α − 1 α + β − 2 \frac{\alpha-1}{\alpha+\beta-2} α+β2α1
    • 数学期望: μ = E ( X ) = α α + β \mu=\mathbb{E}(X)=\frac{\alpha}{\alpha+\beta} μ=E(X)=α+βα
    • 方差: Var ( X ) = E ( X − μ ) 2 = α β ( α + β ) 2 ( α + β + 1 ) \text{Var}(X)=\mathbb{E}(X-\mu)^2=\frac{\alpha\beta}{(\alpha+\beta)^2(\alpha+\beta+1)} Var(X)=E(Xμ)2=(α+β)2(α+β+1)αβ

    四条性质

    • X ∼ Be ( α , β ) X\sim \text{Be}(\alpha,\beta) XBe(α,β),则 1 − X ∼ Be ( β , α ) 1-X\sim \text{Be}(\beta,\alpha) 1XBe(β,α)
    • X ∼ Be ( 1 , 1 ) X\sim\text{Be}(1,1) XBe(1,1),则 X ∼ Uniform ( 0 , 1 ) X\sim\text{Uniform}(0,1) XUniform(0,1)
    • X ∼ Gamma ( α , λ ) , Y ∼ Gamma ( β , λ ) X\sim\text{Gamma}(\alpha,\lambda),Y\sim\text{Gamma}(\beta,\lambda) XGamma(α,λ),YGamma(β,λ),且 X , Y X,Y X,Y相互独立,则 U = X X + Y ∼ Be ( α , β ) , V = X + Y ∼ Gamma ( α + β , λ ) U=\frac X{X+Y}\sim\text{Be}(\alpha,\beta),V=X+Y\sim\text{Gamma}(\alpha+\beta,\lambda) U=X+YXBe(α,β),V=X+YGamma(α+β,λ),且 U , V U,V U,V相互独立
    • 均匀分布的次序统计量服从 β \beta β分布:从连续型均匀分布中随机采样 n n n个样本,第 k k k小的样本取值服从分布 Be ( k , n + 1 − k ) \text{Be}(k,n+1-k) Be(k,n+1k)

3.3 指数分布族

  • 指数分布族 pdf \text{pdf} pdf pmf \text{pmf} pmf具有如下形式:
    f ( x ∣ θ ) h ( x ) c ( θ ) exp ( ∑ i = 1 k w i ( θ ) t i ( x ) ) f(x|\theta)h(x)c(\theta)\text{exp}\left(\sum_{i=1}^kw_i(\theta)t_i(x)\right) f(xθ)h(x)c(θ)exp(i=1kwi(θ)ti(x))
    其中 h ( x ) ≥ 0 , c ( θ ) ≥ 0 h(x)\ge 0,c(\theta)\ge0 h(x)0,c(θ)0,且支撑集与 θ \theta θ无关

  • 二项分布
    f ( x ∣ p ) = C n x ( 1 − p ) n e log ⁡ ( p 1 − p ) x f(x|p)=C_n^x(1-p)^ne^{\log\left(\frac p{1-p}\right)x} f(xp)=Cnx(1p)nelog(1pp)x
    使用下面的定理有:
    d d p ω 1 ( p ) = d d p log ⁡ p 1 − p = 1 p ( 1 − p ) d d p log ⁡ c ( p ) = d d p n log ⁡ ( 1 − p ) = − n ( 1 − p ) \frac{\rm d}{\text{d}p}\omega_1(p)=\frac{\rm d}{\text{d}p}\log\frac p{1-p}=\frac 1{p(1-p)}\\ \frac{\rm d}{\text{d}p}\log c(p)=\frac{\rm d}{\text{d}p}n\log(1-p)=-\frac n{(1-p)}\\ dpdω1(p)=dpdlog1pp=p(1p)1dpdlogc(p)=dpdnlog(1p)=(1p)n
    代入有 E { 1 p ( 1 − p ) X } = n 1 − p \mathbb{E}\left\{\frac{1}{p(1-p)}X\right\}=\frac n{1-p} E{p(1p)1X}=1pn,即 E X = n p \mathbb{E}X=np EX=np

  • 定理:若随机变量 X X X的或 pmf \text{pmf} pmf具有如下形式(指数分布族)
    f ( x ∣ θ ) h ( x ) c ( θ ) exp ( ∑ i = 1 k w i ( θ ) t i ( x ) ) f(x|\theta)h(x)c(\theta)\text{exp}\left(\sum_{i=1}^kw_i(\theta)t_i(x)\right) f(xθ)h(x)c(θ)exp(i=1kwi(θ)ti(x))

    E ( ∑ i = 1 k ∂ w i ( θ ) ∂ θ j t i ( X ) ) = − ∂ ∂ θ j log ⁡ c ( θ ) Var ( ∑ i = 1 k ∂ w i ( θ ) ∂ θ j t i ( X ) ) = − ∂ 2 ∂ θ j 2 log ⁡ c ( θ ) − E ( ∑ i = 1 k ∂ 2 w i ( θ ) ∂ θ j 2 t i ( X ) ) \mathbb{E}\left(\sum_{i=1}^k\frac{\partial w_i(\theta)}{\partial \theta_j}t_i(X)\right)=-\frac{\partial}{\partial \theta_j}\log c(\theta)\\ \text{Var}\left(\sum_{i=1}^k\frac{\partial w_i(\theta)}{\partial \theta_j}t_i(X)\right)=-\frac{\partial^2}{\partial \theta_j^2}\log c(\theta)-\mathbb{E}\left(\sum_{i=1}^k\frac{\partial^2 w_i(\theta)}{\partial \theta_j^2}t_i(X)\right) E(i=1kθjwi(θ)ti(X))=θjlogc(θ)Var(i=1kθjwi(θ)ti(X))=θj22logc(θ)E(i=1kθj22wi(θ)ti(X))

  • 常见指数分布族:正态分布,二项分布,多项分布,泊松分布, β β β分布,伽马分布,对数正态分布

  • 非指数分布族:均匀分布,带有位置参数的指数分布,超几何分布,柯西分布

3.4 位置与尺度族

  • 位置与尺度:令 f ( x ) f(x) f(x) pdf \text{pdf} pdf,设 μ \mu μ σ > 0 \sigma>0 σ>0是给定的常数,则 g ( x ∣ μ , σ ) = 1 σ f ( x − μ σ ) g(x|\mu,\sigma)=\frac 1\sigma f\left(\frac {x-\mu}\sigma\right) g(xμ,σ)=σ1f(σxμ)也是一个 pdf \text{pdf} pdf,其中 μ \mu μ称为位置参数, μ \mu μ为尺度参数。

  • 定理:随机变量 X X X pdf \text{pdf} pdf 1 σ f ( x − μ σ ) \frac 1\sigma f\left(\frac {x-\mu}\sigma\right) σ1f(σxμ),当且仅当存在 pdf \text{pdf} pdf f ( z ) f(z) f(z)的随机变量 Z Z Z,满足 X = σ Z + μ X=\sigma Z+\mu X=σZ+μ

3.5 不等式与恒等式

  • 切比雪夫不等式:若 X X X为非负随机变量,则 ∀ r > 0 \forall r>0 r>0,有
    P ( X ≥ r ) ≤ E X r P(X\ge r)\le \frac{\mathbb{E}X} r P(Xr)rEX
    证明
    E X ≥ E { 1 X ≥ r X } ≥ E { 1 X ≥ r r } = r P ( X ≥ r ) \mathbb{E}X\ge \mathbb{E}\left\{\textbf{1}_{X\ge r}X\right\}\ge \mathbb{E}\left\{\textbf{1}_{X\ge r}r\right\}=rP(X\ge r) EXE{1XrX}E{1Xrr}=rP(Xr)
    应用案例

    • 任意具有有穷二次矩的随机变量 X X X
      P ( ∣ X − μ ∣ ≥ 2 σ ) = P ( ∣ X − μ ∣ 2 ≥ 4 σ 2 ) ≤ Var ( X ) 4 σ 2 = 1 4 P(|X-\mu|\ge 2\sigma)=P(|X-\mu|^2\ge 4\sigma^2)\le \frac{\text{Var}(X)}{4\sigma^2}=\frac 14 P(Xμ2σ)=P(Xμ24σ2)4σ2Var(X)=41

    • mgf \text{mgf} mgf存在,则 ∀ t ≥ 0 \forall t\ge 0 t0,有
      P ( X ≥ a ) ≤ e − a t M X ( t ) P(X\ge a)\le e^{-at}M_X(t) P(Xa)eatMX(t)

    • 缺陷:切比雪夫不等式过于保守,事实上 P ( ∣ X − μ ∣ ≥ 2 σ ) = 1 − 0.9544 = 0.04546 P(|X-\mu|\ge 2\sigma)=1-0.9544=0.04546 P(Xμ2σ)=10.9544=0.04546

    • Z ∼ N ( 0 , 1 ) Z\sim N(0,1) ZN(0,1),可以积分算出确切的概率:
      P ( ∣ Z ∣ ≥ t ) ≤ 2 π e − t 2 2 t ∀ t > 0 P ( ∣ Z ∣ ≥ 2 ) ≤ 2 π e − 2 2 = 0.054 P(|Z|\ge t)\le \sqrt{\frac{2}{\pi}}\frac{e^{-\frac{t^2}{2}}}{t}\quad \forall t>0\\ P(|Z|\ge 2)\le \sqrt{\frac{2}{\pi}}\frac{e^{-2}}{2}=0.054 P(Zt)π2 te2t2t>0P(Z2)π2 2e2=0.054

  • 斯坦因引理:若 X ∼ N ( μ , σ 2 ) X\sim N(\mu,\sigma^2) XN(μ,σ2) g g g是可微函数满足 E ∣ g ′ ( X ) ∣ < + ∞ \mathbb{E}|g'(X)|<+\infty Eg(X)<+,则
    E ∣ g ′ ( X ) ∣ = Cov ( g ( X ) , X ) / Var ( X ) \mathbb{E}|g'(X)|=\text{Cov}(g(X),X)/\text{Var}(X) Eg(X)=Cov(g(X),X)/Var(X)
    Y = g ( X ) + ϵ Y=g(X)+\epsilon Y=g(X)+ϵ,且 ϵ \epsilon ϵ X X X独立,则
    E ∣ g ′ ( X ) ∣ = Cov ( g ( X ) , X ) / Var ( X ) = Cov ( Y , X ) / Var ( X ) \mathbb{E}|g'(X)|=\text{Cov}(g(X),X)/\text{Var}(X)=\text{Cov}(Y,X)/\text{Var}(X) Eg(X)=Cov(g(X),X)/Var(X)=Cov(Y,X)/Var(X)

    即总是可以将一个随机变量写成均值与误差的形式:如线性回归 Y = β ⊤ X + ϵ Y=\beta^{\top}X+\epsilon Y=βX+ϵ

    斯坦因引理使得计算高阶矩更容易,假设 X ∼ N ( μ , σ 2 ) X\sim N(\mu,\sigma^2) XN(μ,σ2),则
    E X 3 = E { X 2 ( X − μ + μ ) } = E { X 2 ( X − μ ) } + μ E X 2 = 2 σ 2 E X + μ ( σ 2 + μ 2 ) = 3 μ σ 2 + μ 3 \mathbb{E}X^3=\mathbb{E}\{X^2(X-\mu+\mu)\}=\mathbb{E}\{X^2(X-\mu)\}+\mu\mathbb{E}X^2=2\sigma^2\mathbb{E}X+\mu(\sigma^2+\mu^2)=3\mu\sigma^2+\mu^3 EX3=E{X2(Xμ+μ)}=E{X2(Xμ)}+μEX2=2σ2EX+μ(σ2+μ2)=3μσ2+μ3

  • 卡方恒等式:设 X p 2 \mathcal{X}_p^2 Xp2表示*度为 p p p 卡方随机变量,则对于任意函数 h ( x ) h(x) h(x),有(若期望存在)
    E h ( X p 2 ) = p E ( h ( X p + 2 2 ) X p + 2 2 ) \mathbb{E}h(\mathcal{X}_p^2)=p\mathbb{E}\left(\frac{h(\mathcal{X}_{p+2}^2)}{\mathcal{X}_{p+2}^2}\right) Eh(Xp2)=pE(Xp+22h(Xp+22))
    其中卡方分布的一阶矩和二阶矩分别为:
    E X p 2 = p E ( X p + 2 2 X p + 2 2 ) = p E ( X p 2 ) 2 = p E ( ( X p + 2 2 ) 2 X p + 2 2 ) = p ( p + 2 ) \mathbb{E}\mathcal{X}_p^2=p\mathbb{E}\left(\frac{\mathcal{X}_{p+2}^2}{\mathcal{X}_{p+2}^2}\right)=p\\ \mathbb{E}(\mathcal{X}_p^2)^2=p\mathbb{E}\left(\frac{(\mathcal{X}_{p+2}^2)^2}{\mathcal{X}_{p+2}^2}\right)=p(p+2)\\ EXp2=pE(Xp+22Xp+22)=pE(Xp2)2=pE(Xp+22(Xp+22)2)=p(p+2)

  • 作业 3.20 , 3.23 , 3.45 , 3.47 3.20,3.23,3.45,3.47 3.20,3.23,3.45,3.47


Chapter 4 多元随机变量

4.1 联合分布与边际分布

  • 联合概率质量函数:称 f ( x , y ) = P ( X = x , Y = y ) f(x,y)=P(X=x,Y=y) f(x,y)=P(X=x,Y=y) ( X , Y ) (X,Y) (X,Y)的联合概率质量函数,若 ( X , Y ) (X,Y) (X,Y)是离散二元随机向量。

    g ( x , y ) g(x,y) g(x,y)是在离散二元随机向量 ( X , Y ) (X,Y) (X,Y)所有可能取值 ( x , y ) (x,y) (x,y)上都有定义的实值函数,则 g ( X , Y ) g(X,Y) g(X,Y)本身就是一个随机变量,期望计算公式为:
    E g ( X , Y ) = ∑ x , y g ( x , y ) f ( x , y ) \mathbb{E}g(X,Y)=\sum_{x,y}g(x,y)f(x,y) Eg(X,Y)=x,yg(x,y)f(x,y)

  • 边际概率质量函数:即使在考察离散二元随机向量 ( X , Y ) (X,Y) (X,Y)的概率模型时,我们也可能会对其中一个随机变量的概率或期望产生兴趣。

    f X ( x ) = P ( X = x ) = ∑ y f X , Y ( x , y ) f_X(x)=P(X=x)=\sum_yf_{X,Y}(x,y) fX(x)=P(X=x)=yfX,Y(x,y) X X X的边际概率质量函数,注意这是在给定离散二元随机向量 ( X , Y ) (X,Y) (X,Y)联合分布的概率模型条件下,离散随机变量 X X X的概率质量函数。

    例题:若联合概率质量函数定义如下:
    f ( 0 , 0 ) = 1 12 f ( 1 , 0 ) = 5 12 f ( 0 , 1 ) = f ( 1 , 1 ) = 1 4 f(0,0)=\frac1{12}\quad f(1,0)=\frac5{12}\quad f(0,1)=f(1,1)=\frac14 f(0,0)=121f(1,0)=125f(0,1)=f(1,1)=41

    • X X X的边际概率质量函数为: f X ( 0 ) = 1 3 , f X ( 1 ) = 2 3 f_X(0)=\frac13,f_X(1)=\frac23 fX(0)=31,fX(1)=32

    • Y Y Y的边际概率质量函数为: f Y ( 0 ) = 1 2 , f Y ( 1 ) = 1 2 f_Y(0)=\frac12,f_Y(1)=\frac12 fY(0)=21,fY(1)=21

  • 联合概率密度函数:称 f ( x , y ) f(x,y) f(x,y)为关于连续二元随机向量 ( X , Y ) (X,Y) (X,Y)的联合概率密度函数,若对于任意集合 A A A,有:
    P ( ( X , Y ) ∈ A ) = ∬ A f ( x , y ) d x d y P((X,Y)\in A)=\iint_Af(x,y)\text{d}x\text{d}y P((X,Y)A)=Af(x,y)dxdy
    g ( x , y ) g(x,y) g(x,y)是实值函数,则随机变量 g ( X , Y ) g(X,Y) g(X,Y)的期望计算公式为:
    E g ( X , Y ) = ∫ − ∞ + ∞ ∫ − ∞ + ∞ g ( x , y ) f ( x , y ) d x d y \mathbb{E}g(X,Y)=\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}g(x,y)f(x,y)\text{d}x\text{d}y Eg(X,Y)=++g(x,y)f(x,y)dxdy
    例题:定义联合概率密度函数:
    f ( x , y ) = { 1 0 < x < 1 , x < y < x + 1 0 otherwise f(x,y)=\left\{\begin{aligned} &1&&0<x<1,x<y<x+1\\ &0&&\text{otherwise} \end{aligned}\right. f(x,y)={100<x<1,x<y<x+1otherwise
    则计算 g ( X , Y ) = X Y g(X,Y)=XY g(X,Y)=XY的期望如下所示:
    E X Y = ∫ 0 1 ∫ x x + 1 x y d x d y = ∫ 0 1 1 2 x y 2 ∣ x x + 1 d x = 7 12 \mathbb{E}XY=\int_0^1\int_x^{x+1}xy\text{d}x\text{d}y=\int_0^1\left.\frac12xy^2\right|_x^{x+1}\text{d}x=\frac7{12} EXY=01xx+1xydxdy=0121xy2xx+1dx=127

  • 边际概率密度函数:类似离散情形下的定义, X , Y X,Y X,Y的边际概率密度函数为:
    f X ( x ) = ∫ − ∞ + ∞ f ( x , y ) d y f Y ( y ) = ∫ − ∞ + ∞ f ( x , y ) d x f_X(x)=\int_{-\infty}^{+\infty}f(x,y)\text{d}y\\ f_Y(y)=\int_{-\infty}^{+\infty}f(x,y)\text{d}x\\ fX(x)=+f(x,y)dyfY(y)=+f(x,y)dx

  • 联合累积分布函数
    F ( x , y ) = P ( X ≤ x , Y ≤ y ) ( x , y ) ∈ R 2 F(x,y)=P(X\le x,Y\le y)\quad (x,y)\in\R^2 F(x,y)=P(Xx,Yy)(x,y)R2
    对于连续二元随机向量,即有:
    F ( x , y ) = ∫ − ∞ x ∫ − ∞ y f ( s , t ) d t d s f ( x , y ) = ∂ 2 F ( x , y ) ∂ x ∂ y \begin{aligned} F(x,y)&=\int_{-\infty}^x\int_{-\infty}^yf(s,t)\text{d}t\text{d}s\\ f(x,y)&=\frac{\partial^2F(x,y)}{\partial x\partial y}& \end{aligned} F(x,y)f(x,y)=xyf(s,t)dtds=xy2F(x,y)
    一些性质

    1. F ( x , y ) F(x,y) F(x,y)对于每个变量都是单调不减的;
    2. F ( x , y ) F(x,y) F(x,y)对于每个变量都是右连续的;
    3. 0 ≤ F ( x 1 , . . . , x n ) ≤ 1 0\le F(x_1,...,x_n)\le 1 0F(x1,...,xn)1
    4. lim ⁡ x 1 , . . . , x m → + ∞ F ( x 1 , . . . , x n ) = 1 \lim_{x_1,...,x_m\rightarrow+\infty}F(x_1,...,x_n)=1 limx1,...,xm+F(x1,...,xn)=1
    5. lim ⁡ x i → − ∞ F ( x 1 , . . . , x n ) = 0 , ∀ i \lim_{x_i\rightarrow-\infty}F(x_1,...,x_n)=0,\forall i limxiF(x1,...,xn)=0,i
    6. a 1 ≤ b 1 a_1\le b_1 a1b1 a 2 ≤ b 2 a_2\le b_2 a2b2,则 F ( b 1 , b 2 ) − F ( a 1 , b 2 ) − F ( a 2 , b 1 ) + F ( a 1 , a 2 ) ≥ 0 F(b_1,b_2)-F(a_1,b_2)-F(a_2,b_1)+F(a_1,a_2)\ge0 F(b1,b2)F(a1,b2)F(a2,b1)+F(a1,a2)0
    7. 注意与一元情况不同,多元情况不存在 F ( X , Y ) ∼ Uniform ( 0 , 1 ) F(X,Y)\sim \text{Uniform}(0,1) F(X,Y)Uniform(0,1)的结论。

4.2 条件分布与独立性

  • 条件概率质量(密度)函数:若 ( X , Y ) (X,Y) (X,Y)为二元随机向量,则在给定 X = x X=x X=x下, Y Y Y的条件概率质量(密度)函数为:
    f ( y ∣ x ) = f ( x , y ) f X ( x ) f X ( x ) > 0 f(y|x)=\frac{f(x,y)}{f_X(x)}\quad f_X(x)\gt0 f(yx)=fX(x)f(x,y)fX(x)>0

  • 条件期望:若 g ( Y ) g(Y) g(Y) Y Y Y的函数,则 g ( Y ) g(Y) g(Y)在给定 X = x X=x X=x下的条件期望为:
    E [ g ( Y ) ∣ X = x ] = ∑ y g ( y ) f ( y ∣ x ) In discrete case E [ g ( Y ) ∣ X = x ] = ∫ g ( y ) f ( y ∣ x ) d y In continuous case \begin{aligned} \mathbb{E}[g(Y)|X=x]&=\sum_yg(y)f(y|x)&&\text{In discrete case}\\ \mathbb{E}[g(Y)|X=x]&=\int g(y)f(y|x)\text{d}y&&\text{In continuous case} \end{aligned} E[g(Y)X=x]E[g(Y)X=x]=yg(y)f(yx)=g(y)f(yx)dyIn discrete caseIn continuous case
    例题:若 f ( x , y ) = e − y , 0 < x < y < + ∞ f(x,y)=e^{-y},0<x<y<+\infty f(x,y)=ey,0<x<y<+,则有如下推导:
    f X ( x ) = ∫ − ∞ + ∞ e − y d y = ∫ x + ∞ e − y d y = e − x f ( y ∣ x ) = f ( x , y ) f X ( x ) = { e x − y if  y > x 0 if  y ≤ x E [ Y ∣ X = x ] = ∫ x + ∞ y e x − y d y = 1 + x Var ( Y ∣ X = x ) = E [ Y 2 ∣ X = x ] − ( E [ Y ∣ X = x ] ) 2 = ∫ x + ∞ y 2 e x − y − ( ∫ x + ∞ y e x − y d y ) 2 = 1 \begin{aligned} f_X(x)&=\int_{-\infty}^{+\infty}e^{-y}\text{d}y=\int_x^{+\infty}e^{-y}\text{d}y=e^{-x}\\ f(y|x)&=\frac{f(x,y)}{f_X(x)}=\left\{\begin{aligned} &e^{x-y}&&\text{if }y>x\\ &0&&\text{if }y\le x \end{aligned}\right.\\ \mathbb{E}[Y|X=x]&=\int_x^{+\infty}ye^{x-y}\text{d}y=1+x\\ \text{Var}(Y|X=x)&=\mathbb{E}[Y^2|X=x]-(\mathbb{E}[Y|X=x])^2\\ &=\int_x^{+\infty}y^2e^{x-y}-\left(\int_x^{+\infty}ye^{x-y}\text{d}y\right)^2=1 \end{aligned} fX(x)f(yx)E[YX=x]Var(YX=x)=+eydy=x+eydy=ex=fX(x)f(x,y)={exy0if y>xif yx=x+yexydy=1+x=E[Y2X=x](E[YX=x])2=x+y2exy(x+yexydy)2=1
    拟合优度https://www.cnblogs.com/wqbin/p/11109650.html
    R 2 = ∑ i ( Y ^ i − Y ˉ ) / ∑ i ( Y i − Y ˉ ) = Var ( Y ^ ) / Var ( Y ) = Var ( X β ^ ) / [ Var ( X β ^ ) + Var ( ϵ ) ] Cov ( E [ Y ∣ X ] , Y ) = E [ E [ Y ∣ X ] Y ∣ X ] − ( E Y ) 2 R 2 = Cov ( E [ Y ∣ X ] , Y ) Var ( Y ) Var ( E [ Y ∣ X ] ) R^2=\sum_{i}(\hat Y_i-\bar Y)/\sum_{i}(Y_i-\bar Y)=\text{Var}(\hat Y)/\text{Var}(Y)=\text{Var}(X\hat \beta)/[\text{Var}(X\hat \beta)+\text{Var}(\epsilon)]\\ \text{Cov}(\mathbb{E}[Y|X],Y)=\mathbb{E}[\mathbb{E}[Y|X]Y|X]-(\mathbb{E}Y)^2\\ R^2=\frac{\text{Cov}(\mathbb{E}[Y|X],Y)}{\text{Var}(Y)\text{Var}(\mathbb{E}[Y|X])} R2=i(Y^iYˉ)/i(YiYˉ)=Var(Y^)/Var(Y)=Var(Xβ^)/[Var(Xβ^)+Var(ϵ)]Cov(E[YX],Y)=E[E[YX]YX](EY)2R2=Var(Y)Var(E[YX])Cov(E[YX],Y)

  • 独立性:称 X , Y X,Y X,Y是独立的随机变量,若 ∀ ( x , y ) ∈ R 2 \forall (x,y)\in\R^2 (x,y)R2,有 f ( x , y ) = f X ( x ) f Y ( y ) f(x,y)=f_X(x)f_Y(y) f(x,y)=fX(x)fY(y)成立。

    充要条件 X , Y X,Y X,Y独立当且仅当存在函数 g ( x ) g(x) g(x) h ( y ) h(y) h(y)使得 ∀ ( x , y ) ∈ R 2 \forall (x,y)\in\R^2 (x,y)R2,有 f ( x , y ) = g ( x ) h ( y ) f(x,y)=g(x)h(y) f(x,y)=g(x)h(y)成立。

    必要条件 ( X , Y ) (X,Y) (X,Y)定义在支撑集 { ( x , y ) : x ∈ A , y ∈ B } \{(x,y):x\in A,y\in B\} {(x,y):xA,yB},其中 A = { x : f X ( x ) > 0 } , b = { y : f Y ( y ) > 0 } A=\{x:f_X(x)>0\},b=\{y:f_Y(y)>0\} A={x:fX(x)>0},b={y:fY(y)>0}分别为 X , Y X,Y X,Y的支撑集。

    独立性的性质:若 X , Y X,Y X,Y是独立的随机变量,则有如下命题成立:

    1. ∀ A ⊂ R , B ⊂ R \forall A\subset\R,B\subset\R AR,BR,有 P ( X ∈ A , Y ∈ B ) = P ( X ∈ A ) P ( Y ∈ B ) P(X\in A,Y\in B)=P(X\in A)P(Y\in B) P(XA,YB)=P(XA)P(YB),即事件 { X ∈ A } \{X\in A\} {XA}与事件 { Y ∈ B } \{Y\in B\} {YB}独立;

    2. g ( x ) g(x) g(x)是只关于 x x x的函数且 h ( y ) h(y) h(y)是只关于 y y y的函数,则有:
      E [ g ( X ) h ( Y ) ] = E g ( X ) E h ( Y ) \mathbb{E}[g(X)h(Y)]=\mathbb{E}g(X)\mathbb{E}h(Y) E[g(X)h(Y)]=Eg(X)Eh(Y)

    3. X , Y X,Y X,Y的矩母函数分别为 M X ( t ) , M Y ( t ) M_X(t),M_Y(t) MX(t),MY(t),则 Z = X + Y Z=X+Y Z=X+Y的矩母函数为:
      M Z ( t ) = M X ( t ) M Y ( t ) M_Z(t)=M_X(t)M_Y(t) MZ(t)=MX(t)MY(t)

    4. X ∼ N ( μ 1 , σ 1 2 ) , Y ∼ N ( μ 2 , σ 2 2 ) X\sim N(\mu_1,\sigma_1^2),Y\sim N(\mu_2,\sigma_2^2) XN(μ1,σ12),YN(μ2,σ22)是独立的正态随机变量,则 Z = X + Y ∼ N ( μ 1 + μ 2 , σ 1 2 + σ 2 2 ) Z=X+Y\sim N(\mu_1+\mu_2,\sigma_1^2+\sigma_2^2) Z=X+YN(μ1+μ2,σ12+σ22)

4.3 二元变换

  • 二元变换:若 ( X , Y ) (X,Y) (X,Y)是已知概率分布的二元随机向量,考察一组新的二元随机向量 ( U , V ) (U,V) (U,V),其中 U = g 1 ( X , Y ) , V = g 2 ( X , Y ) U=g_1(X,Y),V=g_2(X,Y) U=g1(X,Y),V=g2(X,Y),假定 g 1 ( x , y ) g_1(x,y) g1(x,y) g 2 ( x , y ) g_2(x,y) g2(x,y)是给定的函数,则 ( U , V ) ∈ B ⊂ R 2 (U,V)\in \mathcal{B}\subset\R^2 (U,V)BR2当且仅当 ( X , Y ) ∈ A (X,Y)\in\mathcal{A} (X,Y)A,其中 A = { ( x , y ) : ( g 1 ( x , y ) , g 2 ( x , y ) ) ∈ B } \mathcal{A}=\{(x,y):(g_1(x,y),g_2(x,y))\in\mathcal{B}\} A={(x,y):(g1(x,y),g2(x,y))B},且满足:
    P ( ( U , V ) ∈ B ) = P ( ( X , Y ) ∈ A ) P((U,V)\in \mathcal{B})=P((X,Y)\in \mathcal{A}) P((U,V)B)=P((X,Y)A)

  • 离散二元变换:若 ( X , Y ) (X,Y) (X,Y)是离散二元随机向量,且支撑集 A \mathcal{A} A可数,定义:
    B = { ( u , v ) : u = g 1 ( x , y ) , v = g 2 ( x , y )  for some  ( x , y ) ∈ A } \mathcal{B}=\{(u,v):u=g_1(x,y),v=g_2(x,y)\text{ for some }(x,y)\in\mathcal{A}\} B={(u,v):u=g1(x,y),v=g2(x,y) for some (x,y)A}
    B \mathcal{B} B是离散随机向量 ( U , V ) (U,V) (U,V)的支撑集,且依然可数。对于 ( u , v ) ∈ B (u,v)\in\mathcal{B} (u,v)B,定义:
    A u , v = { ( x , y ) ∈ A : g 1 ( x , y ) = u , g 2 ( x , y ) = v } \mathcal{A}_{u,v}=\{(x,y)\in\mathcal{A}:g_1(x,y)=u,g_2(x,y)=v\} Au,v={(x,y)A:g1(x,y)=u,g2(x,y)=v}
    ( U , V ) (U,V) (U,V)的联合概率质量函数可以计算为:
    f U , V ( u , v ) = P ( U = u , V = v ) = P ( ( X , Y ) ∈ A u , v ) = ∑ ( x , y ) ∈ A u , v f X , Y ( x , y ) f_{U,V}(u,v)=P(U=u,V=v)=P((X,Y)\in\mathcal{A}_{u,v})=\sum_{(x,y)\in\mathcal{A}_{u,v}}f_{X,Y}(x,y) fU,V(u,v)=P(U=u,V=v)=P((X,Y)Au,v)=(x,y)Au,vfX,Y(x,y)
    例题:若 X ∼ Poisson ( λ 1 ) , Y ∼ Poisson ( λ 2 ) X\sim\text{Poisson}(\lambda_1),Y\sim\text{Poisson}(\lambda_2) XPoisson(λ1),YPoisson(λ2),且 X , Y X,Y X,Y独立,支撑集为:
    A = { ( x , y ) : x ∈ N , y ∈ N } \mathcal{A}=\{(x,y):x\in\N,y\in\N\} A={(x,y):xN,yN}
    执行变换 U = X + Y , V = Y U=X+Y,V=Y U=X+Y,V=Y,则变换后的支撑集为:
    B = { ( u , v ) : v ∈ N , u ∈ N , u ≥ v } \mathcal{B}=\{(u,v):v\in\N,u\in\N,u\ge v\} B={(u,v):vN,uN,uv}
    ( U , V ) (U,V) (U,V)的联合概率质量函数为:
    f U , V ( u , v ) = λ 1 u − v λ 2 v e − λ 1 − λ 2 ( u − v ) ! v ! f_{U,V}(u,v)=\frac{\lambda_1^{u-v}\lambda_2^ve^{-\lambda_1-\lambda_2}}{(u-v)!v!} fU,V(u,v)=(uv)!v!λ1uvλ2veλ1λ2
    且进一步地可以计算边际概率质量函数:
    f U ( u ) = ∑ v = 0 u f U , V ( u , v ) = e − ( λ 1 + λ 2 ) u ! ( λ 1 + λ 2 ) u f_U(u)=\sum_{v=0}^uf_{U,V}(u,v)=\frac{e^{-(\lambda_1+\lambda_2)}}{u!}(\lambda_1+\lambda_2)^u fU(u)=v=0ufU,V(u,v)=u!e(λ1+λ2)(λ1+λ2)u
    事实上 X + Y ∼ Poisson ( λ 1 + λ 2 ) X+Y\sim \text{Poisson}(\lambda_1+\lambda_2) X+YPoisson(λ1+λ2)

  • 连续二元变换:若 ( X , Y ) (X,Y) (X,Y)为连续随机向量,联合概率密度函数为 f X , Y ( x , y ) f_{X,Y}(x,y) fX,Y(x,y),变换 u = g 1 ( x , y ) , v = g 2 ( x , y ) u=g_1(x,y),v=g_2(x,y) u=g1(x,y),v=g2(x,y)定义了从 A → B \mathcal{A}\rightarrow \mathcal{B} AB的一一映射。 x = h 1 ( u , v ) , y = h 2 ( u , v ) x=h_1(u,v),y=h_2(u,v) x=h1(u,v),y=h2(u,v)是逆变换,则有:
    f U , V ( u , v ) = f X , Y ( h 1 ( u , v ) , h 2 ( u , v ) ) ∣ J ∣ P ( ( X , Y ) ∈ A ) = ∫ A f X , Y ( x , y ) d x d y = ∫ B f X , Y ( h 1 ( u , v ) , h 2 ( u , v ) ) ∣ J ∣ d u d v = P ( ( U , V ) ∈ B ) f_{U,V}(u,v)=f_{X,Y}(h_1(u,v),h_2(u,v))|J|\\ P((X,Y)\in\mathcal{A})=\int_{\mathcal{A}}f_{X,Y}(x,y)\text{d}x\text{d}y=\int_{\mathcal{B}}f_{X,Y}(h_1(u,v),h_2(u,v))|J|\text{d}u\text{d}v=P((U,V)\in\mathcal{B}) fU,V(u,v)=fX,Y(h1(u,v),h2(u,v))JP((X,Y)A)=AfX,Y(x,y)dxdy=BfX,Y(h1(u,v),h2(u,v))Jdudv=P((U,V)B)
    其中 J J J是变换的雅可比行列式:
    J = ∣ ∂ x ∂ u ∂ x ∂ v ∂ y ∂ u ∂ y ∂ v ∣ = ∂ x ∂ u ∂ y ∂ v − ∂ x ∂ v ∂ y ∂ u J=\left|\begin{matrix}\frac{\partial x}{\partial u}&\frac{\partial x}{\partial v}\\\frac{\partial y}{\partial u}&\frac{\partial y}{\partial v}\end{matrix}\right|=\frac{\partial x}{\partial u}\frac{\partial y}{\partial v}-\frac{\partial x}{\partial v}\frac{\partial y}{\partial u} J=uxuyvxvy=uxvyvxuy
    例题(教材 p.146 \text{p.146} p.146): X ∼ Beta ( α , β ) , Y ∼ Beta ( α + β , γ ) X\sim \text{Beta}(\alpha,\beta),Y\sim \text{Beta}(\alpha+\beta,\gamma) XBeta(α,β),YBeta(α+β,γ),且 X , Y X,Y X,Y独立,执行变换 U = X Y , V = X U=XY,V=X U=XY,V=X,则:
    f X , Y ( x , y ) = Γ ( α + β ) Γ ( α ) Γ ( β ) x α − 1 ( 1 − x ) β − 1 Γ ( α + β + γ ) Γ ( α + β ) Γ ( γ ) y α + β − 1 ( 1 − y ) γ − 1 0 < x < 1 , 0 < y < 1 J = ∣ ∂ x ∂ u ∂ x ∂ v ∂ y ∂ u ∂ y ∂ v ∣ = ∣ 0 1 1 v − u v 2 ∣ = − 1 v f_{X,Y}(x,y)=\frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)}x^{\alpha-1}(1-x)^{\beta-1}\frac{\Gamma(\alpha+\beta+\gamma)}{\Gamma(\alpha+\beta)\Gamma(\gamma)}y^{\alpha+\beta-1}(1-y)^{\gamma-1}\quad 0<x<1,0<y<1\\ J=\left|\begin{matrix}\frac{\partial x}{\partial u}&\frac{\partial x}{\partial v}\\\frac{\partial y}{\partial u}&\frac{\partial y}{\partial v}\end{matrix}\right|=\left|\begin{matrix}0&1\\\frac1v&-\frac u{v^2}\end{matrix}\right|=-\frac1v fX,Y(x,y)=Γ(α)Γ(β)Γ(α+β)xα1(1x)β1Γ(α+β)Γ(γ)Γ(α+β+γ)yα+β1(1y)γ10<x<1,0<y<1J=uxuyvxvy=0v11v2u=v1
    于是可以计算 ( U , V ) (U,V) (U,V)的联合概率密度分布:
    f U , V ( u , v ) = Γ ( α + β + γ ) Γ ( α ) Γ ( β ) Γ ( γ ) v α − 1 ( 1 − v ) β − 1 ( u v ) α + β − 1 ( 1 − u v ) γ − 1 1 v 0 < u < 1 , 0 < v < 1 f_{U,V}(u,v)=\frac{\Gamma(\alpha+\beta+\gamma)}{\Gamma(\alpha)\Gamma(\beta)\Gamma(\gamma)}v^{\alpha-1}(1-v)^{\beta-1}\left(\frac uv\right)^{\alpha+\beta-1}\left(1-\frac uv\right)^{\gamma-1}\frac1 v\quad 0<u<1,0<v<1 fU,V(u,v)=Γ(α)Γ(β)Γ(γ)Γ(α+β+γ)vα1(1v)β1(vu)α+β1(1vu)γ1v10<u<1,0<v<1
    最后计算 U U U的边际概率密度分布:
    f U ( u ) = ∫ u 1 f U , V ( u , v ) d v = Γ ( α + β + γ ) Γ ( α ) Γ ( β + γ ) u α − 1 ( 1 − u ) β + γ − 1 0 < u < 1 f_U(u)=\int_u^1f_{U,V}(u,v)\text{d}v=\frac{\Gamma(\alpha+\beta+\gamma)}{\Gamma(\alpha)\Gamma(\beta+\gamma)}u^{\alpha-1}(1-u)^{\beta+\gamma-1}\quad 0<u<1 fU(u)=u1fU,V(u,v)dv=Γ(α)Γ(β+γ)Γ(α+β+γ)uα1(1u)β+γ10<u<1
    发现 U ∼ Beta ( α , β + γ ) U\sim \text{Beta}(\alpha,\beta+\gamma) UBeta(α,β+γ)

    例题(教材 p . 147 p.147 p.147): X , Y X,Y X,Y为独立同分布的标准正态分布随机变量,则 X + Y , X − Y X+Y,X-Y X+Y,XY依然独立且服从分布 N ( 0 , 2 ) N(0,2) N(0,2),若将 X , Y X,Y X,Y放缩到服从联合正态分布(边际分布为标准正态分布),则上述独立性依然成立。

4.4 混合分布

  • 案例:若某种昆虫产卵,每个卵的存活概率为 p p p,问期望上有多少卵能够存活?

    X X X为存活数量, Y Y Y为产卵数,则有:
    X ∣ Y ∼ Binomial ( Y , p ) y ∼ Poisson ( λ ) \begin{aligned} X|Y&\sim \text{Binomial}(Y,p)\\ y&\sim \text{Poisson}(\lambda) \end{aligned} XYyBinomial(Y,p)Poisson(λ)
    两种方法:

    1. 证明 X ∼ Poisson ( λ p ) X\sim\text{Poisson}(\lambda p) XPoisson(λp)
    2. 利用 E X = E ( E [ X ∣ Y ] ) = λ p \mathbb{E}X=\mathbb{E}(\mathbb{E}[X|Y])=\lambda p EX=E(E[XY])=λp
  • 定理:若 X , Y X,Y X,Y为任意随机变量,则:
    E X = E ( E [ X ∣ Y ] ) Var ( X ) = E [ Var ( X ∣ Y ) ] + Var ( E [ X ∣ Y ] ) \begin{aligned} \mathbb{E}X&=\mathbb{E}(\mathbb{E}[X|Y])\\ \text{Var}(X)&=\mathbb{E}[\text{Var}(X|Y)]+\text{Var}(\mathbb{E}[X|Y]) \end{aligned} EXVar(X)=E(E[XY])=E[Var(XY)]+Var(E[XY])

4.5 协方差与相关系数

  • 协方差与相关系数:随机变量 X , Y X,Y X,Y的协方差定义为:
    Cov ( X , Y ) = E [ X − E X ] E [ Y − E Y ] \text{Cov}(X,Y)=\mathbb{E}[X-\mathbb{E}X]\mathbb{E}[Y-\mathbb{E}Y] Cov(X,Y)=E[XEX]E[YEY]
    相关系数定义为:
    ρ X , Y = Cov ( X , Y ) Var ( X ) Var ( Y ) \rho_{X,Y}=\frac{\text{Cov}(X,Y)}{\sqrt{\text{Var}(X)\text{Var}(Y)}} ρX,Y=Var(X)Var(Y) Cov(X,Y)
    协方差的 double-robustness \text{double-robustness} double-robustness性质:双重稳健性,任意替换一个 E X \mathbb{E}X EX E Y \mathbb{E}Y EY都还是协方差,因此只要估计准确其中一个即可
    E [ ( X − C ) ( Y − E Y ) ] E [ ( X − E X ) ( Y − C ) ] \mathbb{E}[(X-C)(Y-\mathbb{E}Y)]\\ \mathbb{E}[(X-\mathbb{E}X)(Y-C)]\\ E[(XC)(YEY)]E[(XEX)(YC)]

  • 独立与不相关:随机变量 X , Y X,Y X,Y的协方差可以计算为:
    Cov ( X , Y ) = E X Y − E X E Y \text{Cov}(X,Y)=\mathbb{E}XY-\mathbb{E}X\mathbb{E}Y Cov(X,Y)=EXYEXEY
    X , Y X,Y X,Y独立则 Cov ( X , Y ) = 0 , ρ X , Y = 0 \text{Cov}(X,Y)=0,\rho_{X,Y}=0 Cov(X,Y)=0,ρX,Y=0,但反之不成立,只能推出不相关。

    X ∼ N ( 0 , 1 ) X\sim N(0,1) XN(0,1),则 X X X X 2 X^2 X2不相关。

  • 协方差的性质:若 X , Y X,Y X,Y为任意随机变量,则有如下命题成立:

    1. a , b a,b a,b为任意常数,则有:
      Var ( a X + b Y ) = a 2 Var ( X ) + b 2 Var ( Y ) + 2 a b Cov ( X , Y ) \text{Var}(aX+bY)=a^2\text{Var}(X)+b^2\text{Var}(Y)+2ab\text{Cov}(X,Y) Var(aX+bY)=a2Var(X)+b2Var(Y)+2abCov(X,Y)
      X , Y X,Y X,Y独立,则有:
      Var ( a X + b Y ) = a 2 Var ( X ) + b 2 Var ( Y ) \text{Var}(aX+bY)=a^2\text{Var}(X)+b^2\text{Var}(Y) Var(aX+bY)=a2Var(X)+b2Var(Y)

    2. − 1 ≤ ρ X , Y ≤ 1 -1\le\rho_{X,Y}\le 1 1ρX,Y1总是成立,且 ∣ ρ X , Y ∣ = 1 |\rho_{X,Y}|=1 ρX,Y=1当且仅当存在常数 a ≠ 0 a\neq 0 a=0 b b b,使得 P ( Y = a X + b ) = 1 P(Y=aX+b)=1 P(Y=aX+b)=1成立,且若 ρ X , Y = 1 \rho_{X,Y}=1 ρX,Y=1,则 a > 0 a>0 a>0;若 ρ X , Y = − 1 \rho_{X,Y}=-1 ρX,Y=1,则 a < 0 a<0 a<0

  • 二元正态分布:称 ( X , Y ) ∼ N ( μ X , μ Y , σ X 2 , σ Y 2 , ρ ) (X,Y)\sim N(\mu_X,\mu_Y,\sigma^2_X,\sigma^2_Y,\rho) (X,Y)N(μX,μY,σX2,σY2,ρ),若有联合概率密度函数为:
    f ( x , y ) = 1 2 π σ X σ Y 1 − ρ 2 exp ⁡ { − 1 2 ( 1 − ρ 2 ) ( ( x − μ X σ X ) 2 − 2 ρ ( x − μ X σ X ) ( y − μ Y σ Y ) + ( y − μ Y σ Y ) 2 ) } f(x,y)=\frac{1}{2\pi\sigma_X\sigma_Y\sqrt{1-\rho^2}}\exp\left\{-\frac{1}{2(1-\rho^2)}\left(\left(\frac{x-\mu_X}{\sigma_X}\right)^2-2\rho\left(\frac{x-\mu_X}{\sigma_X}\right)\left(\frac{y-\mu_Y}{\sigma_Y}\right)+\left(\frac{y-\mu_Y}{\sigma_Y}\right)^2\right)\right\} f(x,y)=2πσXσY1ρ2 1exp{2(1ρ2)1((σXxμX)22ρ(σXxμX)(σYyμY)+(σYyμY)2)}
    Y = ρ X + ϵ Y=\rho X+\epsilon Y=ρX+ϵ来做替换,会发现有:
    Y − μ Y = ρ σ Y σ X ( X − μ X ) + ρ X , Y σ X σ Y σ X 2 Var ( ϵ ) = 1 − ρ 2 Var ( Y ) = 1 Var ( ρ X ) = ρ 2 Y = ρ X + 1 − ρ 2 Z Y-\mu Y=\frac{\rho\sigma_Y}{\sigma_X}(X-\mu_X)+\frac{\rho_{X,Y}\sigma_X\sigma_Y}{\sigma_X^2}\\ \text{Var}(\epsilon)=1-\rho^2\\ \text{Var}(Y)=1\\ \text{Var}(\rho X)=\rho^2\\ Y=\rho X+\sqrt{1-\rho^2}Z YμY=σXρσY(XμX)+σX2ρX,YσXσYVar(ϵ)=1ρ2Var(Y)=1Var(ρX)=ρ2Y=ρX+1ρ2 Z
    其中 Z ∼ N ( 0 , 1 ) Z\sim N(0,1) ZN(0,1) X X X独立。

4.6 多元分布

  • X 1 , . . . , X n X_1,...,X_n X1,...,Xn是互相独立的随机变量,则有:
    f ( x 1 , . . . , x n ) = ∏ i = 1 n f X i ( x i ) f(x_1,...,x_n)=\prod_{i=1}^nf_{X_i}(x_i) f(x1,...,xn)=i=1nfXi(xi)

  • 两两独立的情况:
    f ( x 1 , x 2 , x 3 ) = f X 1 ( x 1 ) f X 2 ( x 2 ) f X 3 ( x 3 ) ( 1 + sin ⁡ x 1 sin ⁡ x 2 sin ⁡ x 3 ) f(x_1,x_2,x_3)=f_{X_1}(x_1)f_{X_2}(x_2)f_{X_3}(x_3)(1+\sin x_1\sin x_2\sin x_3) f(x1,x2,x3)=fX1(x1)fX2(x2)fX3(x3)(1+sinx1sinx2sinx3)

4.7 不等式

  • Holder \text{Holder} Holder不等式:若 a , b a,b a,b为任意正数, p , q p,q p,q为满足 p − 1 + q − 1 = 1 p^{-1}+q^{-1}=1 p1+q1=1的任意正数,则有如下不等式成立:
    1 p a p + 1 q b q ≥ a b \frac1pa^p+\frac1qb^q\ge ab p1ap+q1bqab
    等号成立当且仅当 a p = b q a^p=b^q ap=bq

    推广到随机变量:若 X , Y X,Y X,Y是任意随机变量, p , q p,q p,q为满足 p − 1 + q − 1 = 1 p^{-1}+q^{-1}=1 p1+q1=1的任意正数,则有如下不等式成立:
    ∣ E X Y ∣ ≤ E ∣ X Y ∣ ≤ ( E ∣ X ∣ p ) 1 p ( E ∣ Y ∣ q ) 1 q |\mathbb{E}XY|\le\mathbb{E}|XY|\le(\mathbb{E}|X|^p)^{\frac1p}(\mathbb{E}|Y|^q)^{\frac1q} EXYEXY(EXp)p1(EYq)q1
    三种特例

    1. 柯西施瓦兹不等式:若 p = q = 2 p=q=2 p=q=2,则有如下不等式成立:
      ∣ E X Y ∣ ≤ E ∣ X Y ∣ ≤ ( E X 2 ) 1 2 ( E Y 2 ) 1 2 |\mathbb{E}XY|\le\mathbb{E}|XY|\le(\mathbb{E}X^2)^{\frac12}(\mathbb{E}Y^2)^{\frac12} EXYEXY(EX2)21(EY2)21

    2. Y = 1 Y=1 Y=1,则有如下不等式成立:
      E ∣ X ∣ ≤ ( E ∣ X ∣ p ) 1 p \mathbb{E}|X|\le(\mathbb{E}|X|^p)^{\frac1p} EX(EXp)p1

    3. 对于 1 < r < p 1<r<p 1<r<p,若用 ∣ X ∣ r |X|^r Xr替换 ∣ X ∣ |X| X,记 s = p r s=pr s=pr,则有如下不等式成立:
      ( E ∣ X ∣ r ) 1 r ≤ ( E X s ) 1 s (\mathbb{E}|X|^r)^{\frac1r}\le(\mathbb{E}X^s)^{\frac1s} (EXr)r1(EXs)s1

  • Minkowski \text{Minkowski} Minkowski不等式:若 X , Y X,Y X,Y是任意随机变量,则 ∀ p ≥ 1 \forall p\ge1 p1有如下不等式成立:
    ( E ∣ X + Y ∣ p ) 1 p ≤ ( E ∣ X ∣ p ) 1 p + ( E ∣ Y ∣ p ) 1 p (\mathbb{E}|X+Y|^p)^{\frac1p}\le(\mathbb{E}|X|^p)^{\frac1p}+(\mathbb{E}|Y|^p)^{\frac1p} (EX+Yp)p1(EXp)p1+(EYp)p1

  • 琴生不等式:若 g ( X ) g(X) g(X)是凸函数,则对于任意随机变量 X X X,有如下不等式成立:
    E g ( X ) ≥ g ( E X ) \mathbb{E}g(X)\ge g(\mathbb{E}X) Eg(X)g(EX)
    等号成立当且仅当对于 g ( x ) g(x) g(x) x = E X x=\mathbb{E}X x=EX处的切线 l ( x ) = a + b x l(x)=a+bx l(x)=a+bx,有 P ( g ( X ) = a + b X ) = 1 P(g(X)=a+bX)=1 P(g(X)=a+bX)=1成立。

    凸函数与凹函数:称 g ( x ) g(x) g(x)为凸函数,若 ∀ x , y \forall x,y x,y ∀ λ ∈ ( 0 , 1 ) \forall \lambda\in(0,1) λ(0,1),有 g ( λ x + ( 1 − λ ) y ) ≤ λ g ( x ) + ( 1 − λ ) g ( y ) g(\lambda x+(1-\lambda)y)\le\lambda g(x)+(1-\lambda)g(y) g(λx+(1λ)y)λg(x)+(1λ)g(y);称 g ( x ) g(x) g(x)为凹函数,若 − g ( x ) -g(x) g(x)为凸函数。

  • 协方差不等式:若 X X X为任意随机变量, g ( x ) , h ( x ) g(x),h(x) g(x),h(x)是任意函数且 E g ( X ) , E h ( X ) , E [ g ( X ) h ( X ) ] \mathbb{E}g(X),\mathbb{E}h(X),\mathbb{E}[g(X)h(X)] Eg(X),Eh(X),E[g(X)h(X)]都存在,则以下两个命题成立:

    1. g ( x ) g(x) g(x)是不减且 h ( x ) h(x) h(x)不增,则有如下不等式成立:
      E [ g ( X ) h ( X ) ] ≤ E g ( X ) E h ( X ) \mathbb{E}[g(X)h(X)]\le \mathbb{E}g(X)\mathbb{E}h(X) E[g(X)h(X)]Eg(X)Eh(X)

    2. g ( x ) g(x) g(x) h ( x ) h(x) h(x)都不减或都不增,则有如下不等式成立:
      E [ g ( X ) h ( X ) ] ≥ E g ( X ) E h ( X ) \mathbb{E}[g(X)h(X)]\ge\mathbb{E}g(X)\mathbb{E}h(X) E[g(X)h(X)]Eg(X)Eh(X)

  • 作业 4.4 , 4.13 ( 2.2.3 ) , 4.23 , 4.24 , 4.28 , 4.47 4.4,4.13(2.2.3),4.23,4.24,4.28,4.47 4.4,4.13(2.2.3),4.23,4.24,4.28,4.47

高级统计学缺少习题答案的课后习题解答

Exercise 2.40

证明:

定义以下两个表达式:
A ( n , x , p ) = ( n x ) p x ( 1 − p ) n − x B ( n , x , p ) = ( n − x ) ( n x ) ∫ 0 1 − p t n − x − 1 ( 1 − t ) x d t (11) \begin{aligned} A(n,x,p)&=\left(\begin{matrix}n\\x\end{matrix}\right)p^x(1-p)^{n-x}\\ B(n,x,p)&=(n-x)\left(\begin{matrix}n\\x\end{matrix}\right)\int_0^{1-p}t^{n-x-1}(1-t)^x\text{d}t \end{aligned}\tag{11} A(n,x,p)B(n,x,p)=(nx)px(1p)nx=(nx)(nx)01ptnx1(1t)xdt(11)
则需要证明的等式两侧分别可以写为:
LHS = ∑ k = 0 x A ( n , k , p ) RHS = B ( n , x , p ) (12) \begin{aligned} \text{LHS}&=\sum_{k=0}^xA(n,k,p)\\ \text{RHS}&=B(n,x,p) \end{aligned}\tag{12} LHSRHS=k=0xA(n,k,p)=B(n,x,p)(12)
对等式右侧进行分部积分,可得如下的递推关系:
RHS = B ( n , x , p ) = ( n − x ) ( n x ) ∫ 0 1 − p t n − x − 1 ( 1 − t ) x d t = ( n x ) ∫ 0 1 − p ( 1 − t ) x d t n − x = ( n x ) ( t n − x ( 1 − t ) x ∣ 0 1 − p − ∫ 0 1 − p t n − x d ( 1 − t ) x ) = ( n x ) p x ( 1 − p ) n − x + ( n x ) ⋅ x ⋅ ∫ 0 1 − p t n − x ( 1 − t ) x − 1 d t = ( n x ) p x ( 1 − p ) n − x + ( n − x + 1 ) ( n x − 1 ) ∫ 0 1 − p t n − x ( 1 − t ) x − 1 d t = A ( n , x , p ) + B ( n , x − 1 , p ) (13) \begin{aligned} \text{RHS}=B(n,x,p)&=(n-x)\left(\begin{matrix}n\\x\end{matrix}\right)\int_0^{1-p}t^{n-x-1}(1-t)^x\text{d}t\\ &=\left(\begin{matrix}n\\x\end{matrix}\right)\int_0^{1-p}(1-t)^x\text{d}t^{n-x}\\ &=\left(\begin{matrix}n\\x\end{matrix}\right)\left(t^{n-x}(1-t)^x|_0^{1-p}-\int_0^{1-p}t^{n-x}\text{d}(1-t)^x\right)\\ &=\left(\begin{matrix}n\\x\end{matrix}\right)p^x(1-p)^{n-x}+\left(\begin{matrix}n\\x\end{matrix}\right)\cdot x\cdot\int_0^{1-p}t^{n-x}(1-t)^{x-1}\text{d}t\\ &=\left(\begin{matrix}n\\x\end{matrix}\right)p^x(1-p)^{n-x}+(n-x+1)\left(\begin{matrix}n\\x-1\end{matrix}\right)\int_0^{1-p}t^{n-x}(1-t)^{x-1}\text{d}t\\ &=A(n,x,p)+B(n,x-1,p) \end{aligned}\tag{13} RHS=B(n,x,p)=(nx)(nx)01ptnx1(1t)xdt=(nx)01p(1t)xdtnx=(nx)(tnx(1t)x01p01ptnxd(1t)x)=(nx)px(1p)nx+(nx)x01ptnx(1t)x1dt=(nx)px(1p)nx+(nx+1)(nx1)01ptnx(1t)x1dt=A(n,x,p)+B(n,x1,p)(13)
注意到式 ( 13 ) (13) (13)对任意 x ∈ N + x\in\N_+ xN+成立,且当 x = 0 x=0 x=0时,可以计算得到 B ( n , 0 , p ) = A ( n , 0 , p ) = ( 1 − p ) n B(n,0,p)=A(n,0,p)=(1-p)^n B(n,0,p)=A(n,0,p)=(1p)n,于是可以写出以下若干等式:
B ( n , x , p ) = A ( n , x , p ) + B ( n , x − 1 , p ) B ( n , x − 1 , p ) = A ( n , x − 1 , p ) + B ( n , x − 2 , p ) B ( n , x − 2 , p ) = A ( n , x − 2 , p ) + B ( n , x − 3 , p ) . . . . . . . . . B ( n , 1 , p ) = A ( n , 1 , p ) + B ( n , 0 , p ) B ( n , 0 , p ) = A ( n , 0 , p ) (14) \begin{aligned} &B(n,x,p)&&=A(n,x,p)&+B(n,x-1,p)\\ &B(n,x-1,p)&&=A(n,x-1,p)&+B(n,x-2,p)\\ &B(n,x-2,p)&&=A(n,x-2,p)&+B(n,x-3,p)\\ &...&&...&...\\ &B(n,1,p)&&=A(n,1,p)&+B(n,0,p)\\ &B(n,0,p)&&=A(n,0,p) \end{aligned}\tag{14} B(n,x,p)B(n,x1,p)B(n,x2,p)...B(n,1,p)B(n,0,p)=A(n,x,p)=A(n,x1,p)=A(n,x2,p)...=A(n,1,p)=A(n,0,p)+B(n,x1,p)+B(n,x2,p)+B(n,x3,p)...+B(n,0,p)(14)
将式 ( 14 ) (14) (14)中所有等式累和相消,可得:
B ( n , x , p ) = ∑ k = 0 x A ( n , k , p ) (15) B(n,x,p)=\sum_{k=0}^xA(n,k,p)\tag{15} B(n,x,p)=k=0xA(n,k,p)(15)
根据式 ( 12 , 15 ) (12,15) (12,15),可得:
LHS = ∑ k = 0 x A ( n , k , p ) = B ( n , x , p ) = RHS (16) \text{LHS}=\sum_{k=0}^xA(n,k,p)=B(n,x,p)=\text{RHS}\tag{16} LHS=k=0xA(n,k,p)=B(n,x,p)=RHS(16)
证毕。 ■ \blacksquare


Exercise 4.28

  • ( a ) (a) (a) 证明:

    根据题意,构造如下的二元变换:
    { U = X X + Y V = X ⟹ { u = x x + y v = x ⟹ { x = h 1 ( u , v ) = v 1 y = h 2 ( u , v ) = v u − v (27) \left\{\begin{aligned} U&=\frac{X}{X+Y}\\ V&=X \end{aligned}\right.\Longrightarrow \left\{\begin{aligned} u&=\frac x{x+y}\\ v&=x \end{aligned}\right.\Longrightarrow \left\{\begin{aligned} x&=h_1(u,v)=v_1\\ y&=h_2(u,v)=\frac vu-v \end{aligned}\right. \tag{27} UV=X+YX=Xuv=x+yx=xxy=h1(u,v)=v1=h2(u,v)=uvv(27)
    根据式 ( 27 ) (27) (27)的函数关系,可得对应的 Jacobi \text{Jacobi} Jacobi行列式:
    J = ∣ ∂ x ∂ u ∂ x ∂ v ∂ y ∂ u ∂ y ∂ v ∣ = ∣ 0 1 − v u 2 1 u − 1 ∣ = v u 2 (28) J=\left|\begin{matrix}\frac{\partial x}{\partial u}&\frac{\partial x}{\partial v}\\\frac{\partial y}{\partial u}&\frac{\partial y}{\partial v}\end{matrix}\right|=\left|\begin{matrix}0&1\\-\frac v{u^2}&\frac1u-1\end{matrix}\right|=\frac v{u^2}\tag{28} J=uxuyvxvy=0u2v1u11=u2v(28)
    已知 X ∼ N ( 0 , 1 ) , Y ∼ N ( 0 , 1 ) X\sim N(0,1),Y\sim N(0,1) XN(0,1),YN(0,1),且 X , Y X,Y X,Y独立,则可得 ( X , Y ) (X,Y) (X,Y)的联合概率密度分布函数:
    f X , Y ( x , y ) = 1 2 π exp ⁡ ( − 1 2 x 2 − 1 2 y 2 ) ( x ∈ R , y ∈ R ) (29) f_{X,Y}(x,y)=\frac1{2\pi}\exp\left(-\frac12x^2-\frac12y^2\right)\quad (x\in\R,y\in\R)\tag{29} fX,Y(x,y)=2π1exp(21x221y2)(xR,yR)(29)
    根据教材中的式 ( 4.3.2 ) (4.3.2) (4.3.2),结合式 ( 27 ) , ( 28 ) , ( 29 ) (27),(28),(29) (27),(28),(29),可以计算 ( U , V ) (U,V) (U,V)的联合概率密度分布:
    f U , V ( u , v ) = v 2 π u 2 exp ⁡ ( − v 2 2 − ( v / u − v ) 2 2 ) ( u ∈ R , v ∈ R ) (30) f_{U,V}(u,v)=\frac v{2\pi u^2}\exp\left(-\frac{v^2}2-\frac{(v/u-v)^2}2\right)\quad (u\in\R,v\in\R)\tag{30} fU,V(u,v)=2πu2vexp(2v22(v/uv)2)(uR,vR)(30)
    根据式 ( 30 ) (30) (30) V V V求积分,可得:
    f U ( u ) = ∫ − ∞ + ∞ v 2 π u 2 exp ⁡ ( − v 2 2 − ( v / u − v ) 2 2 ) d v = 1 4 π u 2 ∫ − ∞ + ∞ exp ⁡ ( − 2 u 2 − 2 u + 1 2 u 2 ⋅ v 2 ) d v 2 = 1 4 π u 2 ⋅ 2 ∫ 0 + ∞ exp ⁡ ( − k t ) d t ( k = 2 u 2 − 2 u + 1 2 u 2 ) = 1 2 π u 2 ⋅ ( − 1 k exp ⁡ ( − k t ) ∣ 0 + ∞ ) = 1 2 π u 2 ⋅ 1 k = 1 π ( 2 u 2 − 2 u + 1 ) = 1 2 π ( ( u − 1 2 ) 2 + 1 4 ) ( u ∈ R ) (31) \begin{aligned} f_U(u)&=\int_{-\infty}^{+\infty}\frac v{2\pi u^2}\exp\left(-\frac{v^2}2-\frac{(v/u-v)^2}2\right)\text{d}v\\ &=\frac1{4\pi u^2}\int_{-\infty}^{+\infty}\exp\left(-\frac{2u^2-2u+1}{2u^2}\cdot v^2\right)\text{d}v^2\\ &=\frac1{4\pi u^2}\cdot 2\int_0^{+\infty}\exp\left(-kt\right)\text{d}t\quad (k=\frac{2u^2-2u+1}{2u^2})\\ &=\frac1{2\pi u^2}\cdot \left(\left.-\frac 1k\exp(-kt)\right|_{0}^{+\infty}\right)\\ &=\frac{1}{2\pi u^2}\cdot\frac1k\\ &=\frac1{\pi(2u^2-2u+1)}\\ &=\frac{\frac12}{\pi(\left(u-\frac12\right)^2+\frac14)}\quad (u\in \R) \end{aligned}\tag{31} fU(u)=+2πu2vexp(2v22(v/uv)2)dv=4πu21+exp(2u22u22u+1v2)dv2=4πu2120+exp(kt)dt(k=2u22u22u+1)=2πu21(k1exp(kt)0+)=2πu21k1=π(2u22u+1)1=π((u21)2+41)21(uR)(31)
    注意式 ( 31 ) (31) (31)的第三行的等式变换中应用了如下的换元法:
    { t = v 2 d t = 2 v d v (32) \left\{\begin{aligned} t&=v^2\\ \text{d}t&=2v\text{d}v \end{aligned}\right.\tag{32} {tdt=v2=2vdv(32)
    根据式 ( 31 ) (31) (31)的推导,可知 U U U服从参数为 ( 1 / 2 , 1 / 2 ) (1/2,1/2) (1/2,1/2)的柯西分布,即 U = X / ( X + Y ) ∼ Cauchy ( 1 / 2 , 1 / 2 ) U=X/(X+Y)\sim\text{Cauchy}(1/2,1/2) U=X/(X+Y)Cauchy(1/2,1/2)

    证毕。 ■ \blacksquare

  • ( b ) (b) (b) 证明: X / ∣ Y ∣ X/|Y| X/Y服从柯西分布,即 X / ∣ Y ∣ ∼ Cauchy ( 1 , 0 ) X/|Y|\sim \text{Cauchy}(1,0) X/YCauchy(1,0)

    事实上利用习题 4.47 4.47 4.47的思路容易证明 X / ∣ Y ∣ X/|Y| X/Y X / Y X/Y X/Y分布相同,在 ( c ) (c) (c)中将证明这一点,而后者显然服从柯西分布(即*度为 1 1 1 t t t分布),本小题选择直接证明前者的分布。

    根据题意,构造如下的二元变换:
    { U = X ∣ Y ∣ V = Y ⟹ { u = x ∣ y ∣ v = y ⟹ { x = h 1 ( u , v ) = u ∣ v ∣ y = h 2 ( u , v ) = v (33) \left\{\begin{aligned} U&=\frac{X}{|Y|}\\ V&=Y \end{aligned}\right.\Longrightarrow \left\{\begin{aligned} u&=\frac x{|y|}\\ v&=y \end{aligned}\right.\Longrightarrow \left\{\begin{aligned} x&=h_1(u,v)=u|v|\\ y&=h_2(u,v)=v \end{aligned}\right. \tag{33} UV=YX=Yuv=yx=y{xy=h1(u,v)=uv=h2(u,v)=v(33)
    根据式 ( 33 ) (33) (33)的函数关系,可得对应的 Jacobi \text{Jacobi} Jacobi行列式:
    J = ∣ ∂ x ∂ u ∂ x ∂ v ∂ y ∂ u ∂ y ∂ v ∣ = ∣ ∣ v ∣ u ⋅ sign ( v ) 0 1 ∣ = ∣ v ∣ (34) J=\left|\begin{matrix}\frac{\partial x}{\partial u}&\frac{\partial x}{\partial v}\\\frac{\partial y}{\partial u}&\frac{\partial y}{\partial v}\end{matrix}\right|=\left|\begin{matrix}|v|&u\cdot\text{sign}(v)\\0&1\end{matrix}\right|=|v|\tag{34} J=uxuyvxvy=v0usign(v)1=v(34)
    根据教材中的式 ( 4.3.2 ) (4.3.2) (4.3.2),结合式 ( 29 ) , ( 33 ) , ( 34 ) (29),(33),(34) (29),(33),(34),可以计算 ( U , V ) (U,V) (U,V)的联合概率密度分布:
    f U , V ( u , v ) = ∣ v ∣ 2 π exp ⁡ ( − 1 2 u 2 v 2 − 1 2 v 2 ) ( u ∈ R , v ∈ R ) (35) f_{U,V}(u,v)=\frac {|v|}{2\pi}\exp\left(-\frac12 u^2v^2-\frac12 v^2\right)\quad (u\in\R,v\in\R)\tag{35} fU,V(u,v)=2πvexp(21u2v221v2)(uR,vR)(35)
    根据式 ( 36 ) (36) (36) V V V求积分,可得:
    f U ( u ) = ∫ − ∞ + ∞ ∣ v ∣ 2 π exp ⁡ ( − 1 2 u 2 v 2 − 1 2 v 2 ) d v = 1 2 π { [ ∫ − ∞ 0 − v exp ⁡ ( − 1 2 u 2 v 2 − 1 2 v 2 ) d v ] + [ ∫ 0 + ∞ v exp ⁡ ( − 1 2 u 2 v 2 − 1 2 v 2 ) d v ] } = 1 2 π { [ ∫ 0 + ∞ w exp ⁡ ( − 1 2 u 2 w 2 − 1 2 w 2 ) d w ] + [ ∫ 0 + ∞ v exp ⁡ ( − 1 2 u 2 v 2 − 1 2 v 2 ) d v ] } = 1 π ∫ 0 + ∞ v exp ⁡ ( − 1 2 u 2 v 2 − 1 2 v 2 ) d v = 1 2 π ∫ 0 + ∞ exp ⁡ ( − k t ) d t ( k = u 2 + 1 2 ) = 1 2 π ⋅ ( − 1 k exp ⁡ ( − k t ) ∣ 0 + ∞ ) = 1 2 π k = 1 π ( u 2 + 1 ) ( u ∈ R ) (36) \begin{aligned} f_U(u)&=\int_{-\infty}^{+\infty}\frac {|v|}{2\pi}\exp\left(-\frac12 u^2v^2-\frac12 v^2\right)\text{d}v\\ &=\frac{1}{2\pi}\left\{\left[\int_{-\infty}^0{-v}\exp\left(-\frac12 u^2v^2-\frac12 v^2\right)\text{d}v\right]+\left[\int_0^{+\infty}v\exp\left(-\frac12 u^2v^2-\frac12 v^2\right)\text{d}v\right]\right\}\\ &=\frac1{2\pi}\left\{\left[\int_0^{+\infty}w\exp\left(-\frac12 u^2w^2-\frac12 w^2\right)\text{d}w\right]+\left[\int_0^{+\infty}v\exp\left(-\frac12 u^2v^2-\frac12 v^2\right)\text{d}v\right]\right\}\\ &=\frac1\pi\int_0^{+\infty}v\exp\left(-\frac12 u^2v^2-\frac12 v^2\right)\text{d}v\\ &=\frac1{2\pi}\int_0^{+\infty}\exp\left(-kt\right)\text{d}t\quad (k=\frac{u^2+1}2)\\ &=\frac1{2\pi}\cdot \left(\left.-\frac 1k\exp(-kt)\right|_{0}^{+\infty}\right)\\ &=\frac1{2\pi k}\\ &=\frac1{\pi(u^2+1)}\quad(u\in\R) \end{aligned}\tag{36} fU(u)=+2πvexp(21u2v221v2)dv=2π1{[0vexp(21u2v221v2)dv]+[0+vexp(21u2v221v2)dv]}=2π1{[0+wexp(21u2w221w2)dw]+[0+vexp(21u2v221v2)dv]}=π10+vexp(21u2v221v2)dv=2π10+exp(kt)dt(k=2u2+1)=2π1(k1exp(kt)0+)=2πk1=π(u2+1)1(uR)(36)
    其中式 ( 36 ) (36) (36)第三行的等式变换中对第一个中括号中的积分应用了如下的换元法:
    { w = − v d w = − d v (37) \left\{\begin{aligned} w&=-v\\ \text{d}w&=-\text{d}v \end{aligned}\right.\tag{37} {wdw=v=dv(37)
    根据式 ( 36 ) (36) (36)的推导,可知 U U U服从参数为 ( 1 , 0 ) (1,0) (1,0)的柯西分布,即 U = X / ∣ Y ∣ ∼ Cauchy ( 1 , 0 ) U=X/|Y|\sim\text{Cauchy}(1,0) U=X/YCauchy(1,0)

    证毕。 ■ \blacksquare

  • ( c ) (c) (c) 不让人意外,因为两个独立同分布的正态分布随机变量的商服从柯西分布是已知的,这里给分母增加一个绝对值并不会改变分布,原因简单分析如下所示:

    U = X / ∣ Y ∣ , V = X / Y U=X/|Y|,V=X/Y U=X/Y,V=X/Y,则有如下推导:
    P ( U ≤ x ) = { P ( V ≤ x ) if  Y > 0 P ( − V ≤ x ) if  Y < 0 (38) P(U\le x)=\left\{\begin{aligned} &P(V\le x)&&\text{if }Y\gt 0\\ &P(-V\le x)&&\text{if }Y\lt 0 \end{aligned}\right.\tag{38} P(Ux)={P(Vx)P(Vx)if Y>0if Y<0(38)
    事实上 V V V是*度为 1 1 1 t t t分布,即 V ∼ t ( 1 ) V\sim t(1) Vt(1),它的 pdf \text{pdf} pdf显然关于纵轴对称,因此有:
    P ( − V ≤ x ) = P ( V ≥ − x ) = P ( V ≤ x ) (39) P(-V\le x)=P(V\ge -x)=P(V\le x)\tag{39} P(Vx)=P(Vx)=P(Vx)(39)
    根据式 ( 38 ) (38) (38)和式 ( 39 ) (39) (39)可知 U , V U,V U,V的分布是完全相同的。

    于是我们可以给出一般性的定理:

    定理:若 X ∼ N ( 0 , σ X 2 ) , Y ∼ ( 0 , σ Y 2 ) X\sim N(0,\sigma_X^2),Y\sim(0,\sigma_Y^2) XN(0,σX2),Y(0,σY2),且 X , Y X,Y X,Y独立,则 U = X / ∣ Y ∣ U=X/|Y| U=X/Y V = X / Y V=X/Y V=X/Y分布相同,即 U ∼ Cauchy ( σ X / σ Y , 0 ) , V ∼ Cauchy ( σ X / σ Y , 0 ) U\sim\text{Cauchy}(\sigma_X/\sigma_Y,0),V\sim\text{Cauchy}(\sigma_X/\sigma_Y,0) UCauchy(σX/σY,0),VCauchy(σX/σY,0),具体而言, U U U(或 V V V)的概率密度函数为:
    f U ( x ) = f V ( x ) = k π ( x 2 + k 2 ) ( x ∈ R ) (40) f_U(x)=f_V(x)=\frac{k}{\pi(x^2+k^2)}\quad(x\in\R)\tag{40}\\ fU(x)=fV(x)=π(x2+k2)k(xR)(40)
    其中 k = σ X / σ Y k=\sigma_X/\sigma_Y k=σX/σY