欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

数理统计与概率论及Python实现——概率论中基本概念

程序员文章站 2024-03-25 21:10:22
...

数理统计与概率论及Python实现——概率论中基本概念

公众号后台回复“图书“,了解更多号主新书内容

作者:Keivan Chan

来源:97年陈伯伯

其实从中学就开始学习统计学了,画直方图,求平均值,找中位数等;大学也集中学过概率论和数理统计;

到了工作中,统计作为数据科学的基础,想要从事这方面的工作,这始终是一个绕不过去的槛;

这次主要写连载,一是主要为了巩固数理统计的知识,二也是尝试用简单易懂系统的文字向感兴趣的朋友介绍相关内容;

导读:

基础中的基础

随机事件试验与样本空间:

频率与概率

基础中的基础

    在所有可观察的现象中,可以从大的方面分为两类——必然现象随机现象

    物理学中各种定律描述的基本上都是必然现象,比如物体会因为重力而从高处下落,某一时刻地球位于太阳系中的位置。这些现象的发生都是确定无疑的,如果我们完全认识了它们的内在规律,那么在发生之前就是可以完全准确的预测出结果。

    但是还有一类现象是不确定的。它的不确定性表现在,事先无法准确的预测其结果。唯一可以获得这类现象的结果的办法是等到它们发生之后。最典型的例子就是抛硬币。抛一枚均匀的硬币之前,已知结果只有正面和反面两种,但是无法知道到底会是哪一面。比如说,跟喜欢的人表白;明天是否会下雨等。可以看到,这些现象单次发生的时候,是毫无规律可循的。

    

    也正是有了这两种现象,才让这个世界既可以被认识,又不至于完全可以被预测。

    但当我们在相同的条件下,大量重复(如果可以的话)做某件不确定的事,然后统计实验结果,就有可能发现某种规律。还是拿抛硬币来举例,每次抛硬币都不知道会得到正面还是反面,但如果有耐心将一枚均匀的硬币抛20,000次(已经有多位著名的统计学家这么做过了),然后统计一下正反面分别出现了多少次,就可以发现它们差不多都是10,000次,也就是差不多各占50%。上面的抛硬币的例子中,随机现象(抛硬币)在相同的条件下,大量重复试验中呈现的规律性就叫做统计规律性

    

    《概率论与数量统计》就是研究随机现象的统计规律的一门学科。

    

    概率论研究的是随机现象的模型(即概率分布);

    数理统计是研究随机现象的数据收集和处理;即包括数据的收集、整理、分析和建模,从而对随机现象的某些规律进行预测或决策。

    怎么学习概率论与数量统计:

  1. 学思想:如何看待和处理随机规律性;

  2. 学方法:建立统计模型;

  3. 学应用:模型的实际应用,也可以自己收集、寻找各种实例;

  4. 学软件:掌握统计软件的使用和结果分析。

随机事件试验与样本空间:

随机事件:在一定条件下,并不总是出现相同结果的现象成为随机现象,三个特点:

  • 可以在相同条件下重复进行;

  • 事先知道所有可能出现的结果;

  • 进行试验前不知道哪个试验结果会发生。

随机实验:对在相同条件下可以重复的随机现象的观测、记录、实验称为随机实验;例如常出现的掷骰子,摸球,射击,抛硬币等。

样本空间:随机现象的一切可能基本结果组成的集合称为样本空间,一般即为S(大写的S);S中的元素e称为样本点

           将样本点的个数为有限个或可列个的情况归为一类,称为离散样本空间;

           将样本点的个数为不可列个的情况归为一类,称为连续样本空间;

随机事件:随机现象的某些样本点组成的集合称为随机事件;简称事件;即事件是样本空间的子集;

            由样本空间单个元素组成的子集称为基本事件;

            由样本空间最大子集构成的事件称为必然事件;

            由样本空间最小自己(即空集)构成的事件称为不可能事件;

事件的相互关系:

  • 事件的包含:A⊆B

  • 事件的相等:A=B

  • 事件的积(交):A∩B,AB

  • 互斥事件(互不相容事件):不能同时出现

  • 事件的和(并):A∪B

  • 事件的差:A-B,A发生,B不发生

  • 对立事件(逆事件):互斥,必需出现其中一个

          事件的运算性质就是集合的性质

频率与概率

频率:

    频率是0~1之间的一个实数,在大量重复试验的基础上给出了随机事件发生可能性的估计。

    频率的稳定性:在充分多次试验中,事件的频率总在一个定值附近摆动,而且,试验次数越多摆动越小。这个性质叫做频率的稳定性。

    

概率:

    概率的统计性定义:当试验次数增加时,随机事件A发生的频率的稳定值p就称为概率。记为P(A)=p

    概率的公理化定义:设随机试验对于的样本空间为S。对每一个事件A,定义P(A),满足:

  1. 非负性:P(A) ≥ 0;

  2. 规范性:P(S) = 1;

  3. 可列可加性:A1, A2, ...两两互斥,及AiAj = ∅, i≠j, 则P(∪Ai) = ∑P(Ai)

(看不懂的调过即可)(从统计学定义理解即可)

条件概率:

    P(A|B)表示在事件B发生的条件下,事件A发生的概率,相当于A在B中所占的比例。此时,样本空间从原来的完整样本空间S缩小到了B

    由于有了条件的约束(事件B),使得原来的样本空间减小了。

    数理统计与概率论及Python实现——概率论中基本概念               数理统计与概率论及Python实现——概率论中基本概念

图1:a.条件概率的样本空间;b.条件概率的计算公式

 

例:一个家庭中有两个小孩,已知至少一个是女孩,问两个都是女孩的概率是多少?

(假定生男生女是等可能的)

解:由题意,样本空间为

S = {(兄, 弟), (兄, 妹), (姐, 弟), (姐, 妹)}

B = {(兄, 妹), (姐, 弟), (姐, 妹)}

A = {(姐, 妹)}

由于事件B已经发生,所以这时试验的所有可能只有三种,而事件A包含的基本事件只占其中的一种,所以有:

P(A|B) = 1/3,

即在已知至少一个是女孩的情况下,两个都是女孩的概率为1/3。

在这个例子中,如果不知道事件B发生,则事件A发生的概率为P(A) = 1/4

这里P(A) ≠ P(A|B),其原因在于事件B的发生改变了样本空间,使它由原来的S缩减为新的样本空间SB = B。

今天就这样,白了个白~

◆ ◆ ◆  ◆ ◆
麟哥新书已经在京东上架了,我写了本书:《拿下Offer-数据分析师求职面试指南》,目前京东正在举行100-50活动,大家可以用相当于原价5折的预购价格购买,还是非常划算的:

点击下方小程序即可进入购买页面:
数据森麟公众号的交流群已经建立,许多小伙伴已经加入其中,感谢大家的支持。大家可以在群里交流关于数据分析&数据挖掘的相关内容,还没有加入的小伙伴可以扫描下方管理员二维码,进群前一定要关注公众号奥,关注后让管理员帮忙拉进群,期待大家的加入。

管理员二维码:


猜你喜欢

● 麟哥拼了!!!亲自出镜推荐自己新书《数据分析师求职面试指南》● 厉害了!麟哥新书登顶京东销量排行榜!● 笑死人不偿命的知乎沙雕问题排行榜
● 用Python扒出B站那些“惊为天人”的阿婆主!● 你相信逛B站也能学编程吗点击阅读原文,即可参与京东100-50购书活动