统计学基础理论学习(1)
程序员文章站
2022-07-11 12:19:28
...
统计学基础知识
统计学基础知识知识点包括:
1. 数据的集中趋势
在统计学中,集中趋势又叫*趋势,表示一个机率分布的中间值。
常见的几种表示集中趋势的计量包括算数平均数,中位数及众数。
数值平均数:从总体各单位变量值中抽象出具有一般水平的量,这个量不是各个单位的具体变量值,但又要反映总体各单位的一般水平。
众数:是总体中出现次数最多的变量值,在实际工作中有时有它的特殊用途。
众数:将数据按大小顺序排列起来,形成一个数列,居于数列中间位置的那个数据就是中位数。
2. 数据的离散趋势
在统计学上描述观测值偏离中心位置的趋势,反映了所有观测值偏离中心的分布情况。
常见的几种离散趋势的计量包括方差,标准差,偏度和峰度。
方差:是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量。概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。
标准差:在概率统计中最常使用作为统计分布程度上的测量。标准差定义是总体各单位标准值与其平均数离差平方的算术平均数的平方根。
偏度:是统计数据分布偏斜方向和程度的度量,是统计数据分布非对称程度的数字特征。偏度(Skewness)亦称偏态、偏态系数。
峰度:峰度(peakedness;kurtosis)又称峰态系数。表征概率密度分布曲线在平均值处峰值高低的特征数。直观看来,峰度反映了峰部的尖度。
3. 样本和总体
总体:研究对象的整个群体,用N表示
样本:从总体中选取的一部分,用n表示
4. 总体方差
总体方差是研究对象的全量数据中各数值与其算术平均数离差平方和的平均数
用希腊字母σ的平方表示,σ读作“西格玛”,代表总体的标准差。
5. 样本方差
样本方差用来表示总体一部分数据的各数值与其算术平均数离差平方和的平均数
用字符s的平方表示,s代表样本的标准差。
6. 标准差
总体标准差: 总体数据中各数值与其算术平均数离差平方和的平均数的开方
样本标准差: 样本数据中各数值与其算术平均数离差平方和的平均数的开方
7. 随机变量
定义: 一次实验结果的数值性描述,一般用X,Y,Z 表示
根据取值情况的不同,可分为离散型随机变量和连续性随机变量。
离散型随机变量案例:抛硬币
连续性随机变量案例:判断人的身高
8. 概率密度函数
在数学中,连续型随机变量的概率密度函数是一个描述这个随机变量的输出值,在某个确定的取值点附近的可能性的函数。
二项及泊松分布
- 二项分布:
二项分布是离散概率分布的一种。在概率论和统计学中,二项分布是n个独立的是/非试验中成功的次数的离散概率分布,其中每次试验的成功概率为p。这样的单次成功/失败试验又称为伯努利试验。实际上,当n=1 时,二项分布就是伯努利分布,二项分布是显著性差异的二项试验的基础。 - 泊松分布:
泊松分布是离散随机分布的一种; 通常被使用在估算在 一段特定时间/空间内 发生事件 数量的概率。
使用泊松分布需要满足的前提条件:
(1)在两个相同大小/长度的 时间/空间内, 一个事件的发生的概率是相同的。
(2)事件发生于不发生是相互独立的\不受其他事件的发生或者不发生影响。
大数定律
定义:大数定律(law of large numbers),是一种描述当试验次数很大时所呈现的概率性质的定律。通俗地说,这个定理就是,在试验不变的条件下,重复试验多次,随机事件的频率近似于它的概率。偶然中包含着某种必然。
表现形式包括: 切比雪夫大数定理,伯努利大数定律,辛钦大数定理
正态分布
正态分布(Normal distribution),也称“常态分布”,又名高斯分布(Gaussian distribution)。是一个非常常见的连续概率分布。正态分布在统计学上十分重要,经常用在自然和社会科学来代表一个不明的随机变量。
正态曲线呈钟型,两头低,中间高,左右对称因其曲线呈钟形,因此人们又经常称之为钟形曲线。
若随机变量X服从一个数学期望为μ、方差为σ^ 2的正态分布,记为N(μ,σ^2)。其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。当μ = 0,σ = 1时的正态分布是标准正态分布。
图形特征:
(1) 集中性:正态曲线的高峰位于正*,即均数所在的位置;
(2) 对称性:正态曲线以均数为中心,左右对称,曲线两端永远不与横轴相交;
(3) 均匀变动性:正态曲线由均数所在处开始,分别向左右两侧逐渐均匀下降。