数理统计与概率论及Python实现——概率论中基本概念
公众号后台回复“图书“,了解更多号主新书内容
作者:Keivan Chan
来源:97年陈伯伯
其实从中学就开始学习统计学了,画直方图,求平均值,找中位数等;大学也集中学过概率论和数理统计;
到了工作中,统计作为数据科学的基础,想要从事这方面的工作,这始终是一个绕不过去的槛;
这次主要写连载,一是主要为了巩固数理统计的知识,二也是尝试用简单易懂系统的文字向感兴趣的朋友介绍相关内容;
导读:
基础中的基础
随机事件试验与样本空间:
频率与概率
基础中的基础
在所有可观察的现象中,可以从大的方面分为两类——必然现象和随机现象。
物理学中各种定律描述的基本上都是必然现象,比如物体会因为重力而从高处下落,某一时刻地球位于太阳系中的位置。这些现象的发生都是确定无疑的,如果我们完全认识了它们的内在规律,那么在发生之前就是可以完全准确的预测出结果。
但是还有一类现象是不确定的。它的不确定性表现在,事先无法准确的预测其结果。唯一可以获得这类现象的结果的办法是等到它们发生之后。最典型的例子就是抛硬币。抛一枚均匀的硬币之前,已知结果只有正面和反面两种,但是无法知道到底会是哪一面。比如说,跟喜欢的人表白;明天是否会下雨等。可以看到,这些现象单次发生的时候,是毫无规律可循的。
也正是有了这两种现象,才让这个世界既可以被认识,又不至于完全可以被预测。
但当我们在相同的条件下,大量重复(如果可以的话)做某件不确定的事,然后统计实验结果,就有可能发现某种规律。还是拿抛硬币来举例,每次抛硬币都不知道会得到正面还是反面,但如果有耐心将一枚均匀的硬币抛20,000次(已经有多位著名的统计学家这么做过了),然后统计一下正反面分别出现了多少次,就可以发现它们差不多都是10,000次,也就是差不多各占50%。上面的抛硬币的例子中,随机现象(抛硬币)在相同的条件下,大量重复试验中呈现的规律性就叫做统计规律性。
《概率论与数量统计》就是研究随机现象的统计规律的一门学科。
概率论研究的是随机现象的模型(即概率分布);
数理统计是研究随机现象的数据收集和处理;即包括数据的收集、整理、分析和建模,从而对随机现象的某些规律进行预测或决策。
怎么学习概率论与数量统计:
学思想:如何看待和处理随机规律性;
学方法:建立统计模型;
学应用:模型的实际应用,也可以自己收集、寻找各种实例;
学软件:掌握统计软件的使用和结果分析。
随机事件试验与样本空间:
随机事件:在一定条件下,并不总是出现相同结果的现象成为随机现象,三个特点:
可以在相同条件下重复进行;
事先知道所有可能出现的结果;
进行试验前不知道哪个试验结果会发生。
随机实验:对在相同条件下可以重复的随机现象的观测、记录、实验称为随机实验;例如常出现的掷骰子,摸球,射击,抛硬币等。
样本空间:随机现象的一切可能基本结果组成的集合称为样本空间,一般即为S(大写的S);S中的元素e称为样本点;
将样本点的个数为有限个或可列个的情况归为一类,称为离散样本空间;
将样本点的个数为不可列个的情况归为一类,称为连续样本空间;
随机事件:随机现象的某些样本点组成的集合称为随机事件;简称事件;即事件是样本空间的子集;
由样本空间单个元素组成的子集称为基本事件;
由样本空间最大子集构成的事件称为必然事件;
由样本空间最小自己(即空集)构成的事件称为不可能事件;
事件的相互关系:
事件的包含:A⊆B
事件的相等:A=B
事件的积(交):A∩B,AB
互斥事件(互不相容事件):不能同时出现
事件的和(并):A∪B
事件的差:A-B,A发生,B不发生
对立事件(逆事件):互斥,必需出现其中一个
事件的运算性质就是集合的性质
频率与概率
频率:
频率是0~1之间的一个实数,在大量重复试验的基础上给出了随机事件发生可能性的估计。
频率的稳定性:在充分多次试验中,事件的频率总在一个定值附近摆动,而且,试验次数越多摆动越小。这个性质叫做频率的稳定性。
概率:
概率的统计性定义:当试验次数增加时,随机事件A发生的频率的稳定值p就称为概率。记为P(A)=p
概率的公理化定义:设随机试验对于的样本空间为S。对每一个事件A,定义P(A),满足:
非负性:P(A) ≥ 0;
规范性:P(S) = 1;
可列可加性:A1, A2, ...两两互斥,及AiAj = ∅, i≠j, 则P(∪Ai) = ∑P(Ai)
(看不懂的调过即可)(从统计学定义理解即可)
条件概率:
P(A|B)表示在事件B发生的条件下,事件A发生的概率,相当于A在B中所占的比例。此时,样本空间从原来的完整样本空间S缩小到了B
由于有了条件的约束(事件B),使得原来的样本空间减小了。
图1:a.条件概率的样本空间;b.条件概率的计算公式
例:一个家庭中有两个小孩,已知至少一个是女孩,问两个都是女孩的概率是多少?
(假定生男生女是等可能的)
解:由题意,样本空间为
S = {(兄, 弟), (兄, 妹), (姐, 弟), (姐, 妹)}
B = {(兄, 妹), (姐, 弟), (姐, 妹)}
A = {(姐, 妹)}
由于事件B已经发生,所以这时试验的所有可能只有三种,而事件A包含的基本事件只占其中的一种,所以有:
P(A|B) = 1/3,
即在已知至少一个是女孩的情况下,两个都是女孩的概率为1/3。
在这个例子中,如果不知道事件B发生,则事件A发生的概率为P(A) = 1/4
这里P(A) ≠ P(A|B),其原因在于事件B的发生改变了样本空间,使它由原来的S缩减为新的样本空间SB = B。
今天就这样,白了个白~
◆ ◆ ◆ ◆ ◆
麟哥新书已经在京东上架了,我写了本书:《拿下Offer-数据分析师求职面试指南》,目前京东正在举行100-50活动,大家可以用相当于原价5折的预购价格购买,还是非常划算的:
点击下方小程序即可进入购买页面:
数据森麟公众号的交流群已经建立,许多小伙伴已经加入其中,感谢大家的支持。大家可以在群里交流关于数据分析&数据挖掘的相关内容,还没有加入的小伙伴可以扫描下方管理员二维码,进群前一定要关注公众号奥,关注后让管理员帮忙拉进群,期待大家的加入。
管理员二维码:
猜你喜欢
● 麟哥拼了!!!亲自出镜推荐自己新书《数据分析师求职面试指南》● 厉害了!麟哥新书登顶京东销量排行榜!● 笑死人不偿命的知乎沙雕问题排行榜
● 用Python扒出B站那些“惊为天人”的阿婆主!● 你相信逛B站也能学编程吗点击阅读原文,即可参与京东100-50购书活动