随机变量的概率分布学习笔记
随机变量的概率分布学习笔记
作者: kagula
日期: 2020-11-26
前言
本文的主要内容是概率分布的入门复习, 聚焦几个重要的基础分布律, 探索下它们的应用.
正文
随机变量
随机变量是实数同某次实验结果的映射, 分为离散型随机变量和连续型随机变量.
若随机变量的取值能跟整数一一对应则称为离散型随机变量, 反之为连续型随机变量.
离散型随机变量的重要属性是分布律, 连续型随机变量的重要属性是概率密度和分布函数.
离散型随机变量的分布律(又称为分布列, 概率分布)对应连续型随机变量的概率密度, 很多情况下也可以用概率密度代替分布律这种叫法.
离散型随机变量的分布律
分布律
定义:
设X为离散型随机变量, 可能取值为 且
P{X=}=, k=1,2, …,
则称为X的分布律(或分布列, 或概率分布).
性质:
- ≧0, k=1,2, …,
上图, 列出了三种重要的常用离散型随机变量分布及三者之间的关系, 其中最重要的是二项分布, 0-1分布和泊松分布都是它的特殊形式.
当二项分布中在变量只取0或1时, 就是0-1分布.
当二项分布中的n特别大,例如大于等于20, p特别小, 例如小于等于0.05, 为了节约计算资源, 就可以用泊松分布代替二项分布, 算出二项分布的近似值.
二项分布可以用来表达做了n次实验, 每次实验发生的结果只有两种可能1或0, 发生1的概率设为p, 发生0在概率为1-p, 其中有m<=n次结果为1或0的概率.
假设下面实例的概率分布服从二项分布, 则下面的情景可以用二项式分布来计算:
- 有n个人服用了某特效药, 该特效药有效的概率为p, 则至少有m个人治愈的概率是多少?
- 有一批产品不合格率为p, 检查n件产品, 其中有m件产品不合格的概率.
- 有n部机器独立运转, 每台机器的故障率为p, 则至少有一台机器出故障的概率是多少.
连续型随机变量的分布律
连续型随机变量的分布主要有均匀分布, 指数分布, 正态分布三种, 它们都有相应的概率密度和分布函数. 各种连续型随机变量通过概率密度和分布函数描述客观世界.
- 均匀分布
适用场景
某路公交车每n分钟到达车站, 乘客在n分钟内任一时刻到达车站, 求在指定时间间隔内等到某路公交车的概率.
买n张不同号码的**, 至少有一张中奖的概率.
- 指数分布
指数分布常被用作各种”寿命”的分布, 如电子元件的使用寿命、动物的寿命、电话的通话时间、顾客在某一服务系统接受服务的时间.
- 正态分布和标准正态分布
μ=0, σ=1的正态分布称为标准正态分布, 在考试的时候求正态分布可以先把正态分布转为标准正态分布, 通过查询标准正态分布表, 然后再计算, 然后得到正态分布.
标准正态分布记为Ф(x).
正态分布是最常见的一种分布, 在实际问题中, 许多随机变量服从或近似服从正态分布, 例如, 一个地区的男性成年人的身高和体重; 测量某个物理量所产生的随机误差;一批原棉纤维的长度;某地区的年降水量等, 它们都服从正态分布.
中心极限定理表明: 一个变量如果由大量独立、微小且均匀的随机因素的叠加生成,那么它就近似服从正态分布.
后言
数据是无限的, 用有限的数据推测无限的数据, 这就是分布函数(数学模型)存在的意义.
这里要注意的是对原始数据的采集要避免幸存者偏差, 观察者驳论等陷阱.
备注
一一对应
一一对应可以看成是”一对一函数”. 集合A(定义域)中的任意一个元素恰好对应B集合(值域)中的一个元素, 假设x, y属于集合A, 若f(x)不等于f(y), 必然有x不等于y. 所以相对于一对多, 多对一, 它是种约束条件较严格的映射关系.
附
中英文对照
随机变量 random variable (v. r.)
二项分布 binomial distribution
泊松分布 Poisson distribution
分布函数 cumulative distribution function (cdf)
概率密度 possibility density function (pdf)
正态分布 normal distribution
MATLAB相关
- 常用函数
组合 nchoosek
正态概率密度函数 normpdf
正态分布函数 normcdf
可以使用 ”help 函数名” 命令, 在matlab中查看具体使用方式.
- 代码段
%二项式分布
N=100;
k=0:N;
pdf=binocdf(k,N,0.5);
pdf2=binocdf(k,N,0.6);
h=plotyy(k,pdf,k,pdf2);
set(h(1),'Ycolor',[0,0,1]);
set(get(h(1),'Ylabel'),'String','p=0.5');
set(h(2),'Ycolor',[1,0,0]);
set(get(h(2),'Ylabel'),'String','p=0.6');
xlabel('k');
grid off;
box off;
%1到5的均匀分布密度函数
ezplot(@(x)unifpdf(x,1,5),[0,6])
%1到5的均匀分布分布函数
a=1;
b=5;
x=0:1:6;
clear y
for i=1:length(x)
y(i)=(x(i)-a)/(b-a);
if y(i)>1
y(i)=1;
end
if y(i)<0
y(i)=0;
end
end
plot(x,y)
axis([0 length(x)-1,0,1.2]) %分别设置X axis和Y axis的范围.
set(gca,'XTick',0:1:length(x)) %设置X axis的刻度为1.
%指数密度
x=0:0.2:10;
y1=exppdf(x);
y2=exppdf(x,2);
hold on;%hold on是当前轴及图像保持而不被刷新,准备接受此后将绘制的图形,多图共存
plot(x,y1,'b');
plot(x,y2,'g');
%title('指数分布密度函数图像');
%xlabel('x');
%ylabel('y');
% 画标准正态分布概率密度函数
x = -10:0.1:10;
y1 = normpdf(x, 0, 1);
y2 = normpdf(x, 0, 3);
%grid on;
%axis([-20 20,0,0.15]) %分别设置X axis和Y axis的范围.
plot(x,y1,'r');
hold on
plot(x,y2,'b');
box off
% 画标准正态分布函数
xbound = 10;
x = -xbound:0.1:xbound;
y1 = normcdf(x, 0, 1);
y2 = normcdf(x, 0, 3);
%grid on;
%axis([-20 20,0,0.15]) %分别设置X axis和Y axis的范围.
plot(x,y1,'r');
hold on
plot(x,y2,'b');
box off %去掉边界上顶部和右边的线
axis([-xbound xbound,0,1.1]) %分别设置X axis和Y axis的范围.
UML Class图
上面的UML class样例图转载自某个网站, 具体出自哪里忘记了.
参考资料
[1]<<Probability & Statistics>> 2009版 干晓蓉 武汉大学出版社
[2]<<概率论与数理统计(二)>> 2006版 孙洪祥 柳金甫 辽宁大学出版社
下一篇: AmazeUI 按钮