欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

Python统计推断

程序员文章站 2022-07-11 15:37:29
...

在概率论中,我们考虑一个样本空间 Ω \Omega Ω,它是所有可能结果 ω \omega ω的集合,以及它的具有 σ \sigma σ-代数结构的子集的集合 F \mathcal{F} F,其中的元素称为事件。

定义 1.1(随机变量)。– 真正的随机变量 X X X是从 Ω \Omega Ω R \mathbb{R} R的(可测量的)应用:

X : ω ∈ Ω ↦ x ∈ R , ( 1 ) X: \omega \in \Omega \mapsto x \in \mathbb{R},\qquad(1) X:ωΩxR,(1)

定义 1.2(离散随机变量)。– 如果随机变量 X X X取其值在 R \mathbb{R} R的子集中,最多可数,则称其为离散变量。 如果 { a 0 , … , a n , … } \left\{a_{0}, \ldots, a_{n}, \ldots\right\} {a0,,an,},其中 n ∈ N n \in \mathbb{N} nN,表示这组值,则 X X X的概率分布由以下序列表征:

p X ( n ) = P { X = a n } , ( 2 ) p_{X}(n)=\mathbb{P}\left\{X=a_{n}\right\},\qquad(2) pX(n)=P{X=an},(2)

表示 X X X等于元素 a n a_n an的概率。 这些值使得 0 ≤ p X ( n ) ≤ 1 0 \leq p_{X}(n) \leq 1 0pX(n)1 ∑ n ≥ 0 p X ( n ) = 1 \sum_{n \geq 0} p_{X}(n)=1 n0pX(n)=1

这导致我们得到随机变量 X X X属于区间 ] a , b ] ] a, b] ]a,b]的概率。 它由以下给出:

P { X ∈ ] a , b ] } = ∑ n ≥ 0 p X ( n ) 1 ( a n ∈ ] a , b ] ) , ( 3 ) \mathbb{P}\{X \in] a, b]\}=\sum_{n \geq 0} p_{X}(n) \mathbb{1}\left.\left.\left(a_{n} \in\right] a,b\right]\right),\qquad(3) P{X]a,b]}=n0pX(n)1(an]a,b]),(3)

对于 x ∈ R x \in \mathbb{R} xR,随机变量 X X X的累积分布函数 (cdf) 定义为:

F X ( x ) = P { X ≤ x } = ∑ { n : a n ≤ x } p X ( n ) = ∑ n ≥ 0 p X ( n ) l ( a n ∈ ] − ∞ , x ] ) , ( 4 ) F_{X}(x)=\mathbb{P}\{X \leq x\}=\sum_{\left\{n: a_{n} \leq x\right\}} p_{X}(n)=\sum_{n \geq 0} p_{X}(n) \mathbb{l}\left.\left.\left(a_{n} \in\right]-\infty, x\right]\right),\qquad(4) FX(x)=P{Xx}={n:anx}pX(n)=n0pX(n)l(an],x]),(4)

它是一个单调递增函数,其中 F X ( − ∞ ) = 0 F_{X}(-\infty)=0 FX()=0 F X ( + ∞ ) = 1 F_{X}(+\infty)=1 FX(+)=1。 它的图形是一个阶梯函数,跳跃位于 a n a_{n} an幅度为 p X ( n ) p_{X}(n) pX(n)

定义 1.3( q q q分位数)。– 第 k k k q q q分位数,与给定的累积函数 F ( x ) F(x) F(x)相关,写为:

c k = min ⁡ { x : F ( x ) ≥ k / q } , ( 5 ) c_{k}=\min \{x: F(x) \geq k / q\},\qquad(5) ck=min{x:F(x)k/q},(5)

其中 k k k从 1 到 q − 1 q-1 q1。因此, q q q分位数的数量是 q − 1 q-1 q1

q q q 分位数是将概率范围划分为等概率 1 的 1 / q 1 / q 1/q 个区间的限制。例如,2-分位数是中位数。

更具体地说,我们有:

定义 1.4(中值)。– 随机变量 X X X 的中值是值 M M M,使得累积函数满足 F X ( M ) = 1 / 2 F_{X}(M)=1 / 2 FX(M)=1/2

以下程序执行高斯分布的 q q q分位数。 概率密度下的每个面积等于 1 / q 1 / q 1/q

from numpy import linspace, arange
from scipy.stats import norm
from matplotlib import pyplot as plt
x = linspace(-3,3,100); y = norm.pdf(x); plt.clf(); plt.plot(x,y)
q = 5; Qqi = arange(1,q)/q; quantiles = norm.ppf(Qqi)
plt.hold(’on’)
for iq in range(q-1):
		print(%i-th of the %i-quantiles is %4.3e%(iq+1,q,quantiles[iq]))
		plt.plot([quantiles[iq],quantiles[iq]],[0.0,norm.pdf(quantiles[iq])],:)
plt.hold(’off’);plt.title(’eachareaisequalto%4.2f%(1.0/q));
plt.show();

定义 1.5(两个离散随机变量)。– 令 { X , Y } \{X, Y\} {X,Y} 为两个离散随机变量,分别具有一组值 { a 0 , … , a n , … } \left\{a_{0}, \ldots, a_{n}, \ldots\right\} {a0,,an,} { b 0 , … , b k , … } \left\{b_{0}, \ldots, b_{k}, \ldots\right\} {b0,,bk,}。 联合概率分布的特征是正值序列:

详情参阅http://viadean.com/py_st_infer.html

相关标签: Python 统计推断