欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

第一周《统计学基础》

程序员文章站 2022-07-11 14:54:47
...

示例数据一:23 29 20 32 23 21 33 25

(1) mean 算数平均数:所有数据的平均值 
(23+29+20+32+23+21+33+25)/8=25.75

几何平均数:所有数值的连乘积开项数次方根 
³√(ABC)

加权平均数:所有数值乘以自己的权重后相加/权重的和
(k1A+k2B+k3C)/(k1+k2+k3)

(2) median 中位数:所有数据排序后,正好在中间的那一个或两个。 
排序后:20 21 23 23 25 29 32 33
(23+25)/2 = 24

(3) mode 众数:所有数据中出现次数最多的那个(可以不存在,还可以是多个)
23

示例数据二:65 81 73 85 94 79 67 83 82

(4) range 极差:最大值-最小值
94-65=29

(5) mid-range 中程数:最大值和最小值的平均数
(94+65)/2 = 79.5

示例数据三:6 7 15 36 39 40 41 42 43 47 49(排序后)

四分位数的位置:(n表示项数)
Q1的位置= (n+1) × 0.25 = (11+1)*0.25 =3 对应数值:15
Q2的位置= (n+1) × 0.5  = (11+1)*0.5  =6 对应数值:40
Q3的位置= (n+1) × 0.75 = (11+1)*0.75 =9 对应数值:43

四分位数位置的确定:(基于n-1的方式)
Q1的位置= 1+(n-1)x 0.25 = 1+(11-1)*0.25 =3.5 对应数值:15*0.5+36*0.5=25.5
Q2的位置= 1+(n-1)x 0.5  = 1+(11-1)*0.5  =6   对应数值:40
Q3的位置= 1+(n-1)x 0.75 = 1+(11-1)*0.75 =8.5 对应数值:42*0.5+43*0.5=42.5

注:numpy和pandas都是基于N-1的方式

离散程度

平均差:数据中的每一个数,与算术平均值的差的绝对值的算术平均值。
(1)算术平均数 x'=(1+2+3)/3 = 2
(2)平均差MD = (∑|x-x'|)/n =(|1-2|+|2-2|+|3-2|)/3 = 2/3 

方差:数据里的每一个数与这对数的算术平均值的差的平方和的算术平均,反映的是数据的离散程度。
s²= ((x1-x)^2 +(x2-x)^2 +......(xn-x)^2)/n
(1)先求出平均数(1+2+3+4+5)/5=3
(2)然后求各个数与平均数的差的平方和(1-3)²+(2-3)²+(3-3)²+(4-3)²+(5-3)²=10
(3)最后求方差 10/5=2

标准差:方差的算术平方根
σ= sqrt(((x1-x)^2 +(x2-x)^2 +......(xn-x)^2)/n)

四分位极差:四分位数的第三个,减去第一个,Q = Q3-Q1即得到的值。

其它

异众比率:异众比率指的是总体中非众数次数与总体全部次数之比。

离散系数(变异系数):实质上是标准差相对于算术平均值的比。
离散系数大,说明数据的离散程度也大;离散系数小,说明数据的离散程度也小。

峰态系数(峰度系数):峰度系数是用来反映频数分布曲线顶端尖峭或扁平程度的指标。
峰度大于0表示该总体数据分布与正态分布相比较为陡峭,为尖顶峰;峰度小于0表示该总体数据分布与正态分布相比较为平坦,为平顶峰。

参考文章:
https://mp.weixin.qq.com/s/IG_a_BPAsp4Sm6NxHautIQ
https://jingyan.baidu.com/article/6d704a13540bb528db51cade.html
https://www.jianshu.com/p/ba71c42009ce