欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

概率统计(二)数理统计与描述性统计

程序员文章站 2024-03-25 21:14:04
...

一、数理统计概念

1.基本概念释义

  • 定义
    在数理统计中,称研究对象的全体为总体,通常用一个随机变量表示总体。组成总体的每个基本单元叫个体。从总体X中随机抽取一部分个体X1,X2,…,Xn,称X1,X2,…,Xn为取自X的容量为n的样本。
  • 性质
    样本具有两重性,即当在一次具体地抽样后它是一组确定的数值。但在一般叙述中样本也是一组随机变量,因为抽样是随机的。

2.统计量与抽样

  • 统计推断
    数理统计的任务是采集和处理带有随机影响的数据,或者说收集样本并对之进行加工,以此对所研究的问题作出一定的结论,这一过程称为统计推断
  • 统计量
    在统计推断中,对样本进行加工整理,实际上就是根据样本计算出一些量,使得这些量能够将所研究问题的信息集中起来,这种根据样本计算出的量就是统计量,统计量是样本的某种函数。
  • 抽样分布
    统计量的分布称为抽样分布

3.常用的统计量

  • 样本均值
    样本均值通常用来估计总体分布的均值和对有关总体分布均值的假设作检验。
    样本均值公式:设X1,X2,…,Xn是总体X的一个简单随机样本,则
    概率统计(二)数理统计与描述性统计
  • 样本方差
    通常用样本方差来估计总体分布的方差和对有关总体分布均值或方差的假设作检验。
    样本方差公式:设X1,X2,…,Xn是总体X的一个简单随机样本,则
    概率统计(二)数理统计与描述性统计
  • k阶样本原点矩
    通常用样本的无阶原点矩来估计总体分布的k阶原点矩。
    k阶原点矩是随机变量x“偏离”原点(0,0)的“距离”的k次方的期望值,当k = 1时,相当于样本均值
    k阶样本原点矩公式:设X1,X2,…,Xn是总体X的一个简单随机样本,则
    概率统计(二)数理统计与描述性统计
  • k阶样本中心矩
    k阶中心矩是随机变量x“偏离”其中心的“距离”的k次方的期望值。一般均以其平均数为“中心”。
    当样本量足够大时,1/n与1/(n-1)近似于相等。
    k阶样本中心矩公式:设X1,X2,…,Xn是总体X的一个简单随机样本,则
    概率统计(二)数理统计与描述性统计

二、描述性统计

1.数据集中趋势的度量

  • 平均数
    均值又称算术平均数,适用于数值型数据,不适用于类别数据。
    概率统计(二)数理统计与描述性统计
  • 中位数
    一组数据按顺序排列后,居于中间位置的数。
    中位数描述数据中心位置的数字特征,对于对称分布的数据,均值与中位数比较接近,对于偏态分布的数据,均值与中位数则可能相差很大。
    中位数不受异常值的影响,具有稳健性。
    概率统计(二)数理统计与描述性统计
  • 频数
    指同一观测值在一组数据中出现的次数。
  • 众数
    一组数据中,出现次数最多的那个数(几个数)。
  • 四分位数
    四分位差越大,表示数据离散程度越大。
    四分位数是在一定程度上对极差的一种改进,避免了极端值的干扰,但它对数据差异的反映仍然是不充分的。
    四分位差是一种顺序统计量,适用于定序数据和定量数据,尤其是当用中位数来测度数据集中趋势时。
  • 均值 VS 中位数 VS 众数
    概率统计(二)数理统计与描述性统计
  • Python实现
import numpy as np
import pandas as pd
a = [1,2,4,5,3,12,12,23,43,52,11,22,22,22]
a_mean = np.mean(a)
a_med = np.median(a)
print("a的平均数",a_mean)
print("a的中位数",a_med)

#使用描述统计函数
ser = pd.Series(a)
print(ser.describe())

2.数据离散趋势的度量

  • 方差
    用来计算每一个变量(观察值)与总体均数之间的差异
    方差公式:
    概率统计(二)数理统计与描述性统计
  • 标准差
    样本方差的开方即为样本标准差
    标准差公式:
    概率统计(二)数理统计与描述性统计
  • 极差
    数据越分散,极差越大
    极差公式:R = max(x) - min(x)
  • 四分位差
    样本上、下四分位数之差称为四分位差(或半极差)
    它也是度量样本分散性的重要数字特征,特别对于具有异常值的数据
    四分位差公式:R1 = Q3 - Q1
  • 变异系数
    变异系数是刻画数据相对分散性的一种度量,变异系数只有在平均值不为零时有意义,而且一般适用于平均自大于0的情况,变异系数也被称为标准离差率或单位风险。
    当需要比较两组数据离散程度大小的时候,如果两组数据的测量尺度相差太大,或者数据量纲的不同,变异系数可以消除测量尺度和量纲的影响
    概率统计(二)数理统计与描述性统计
  • Python实现
import numpy as np
a = [1,2,4,5,3,12,12,23,43,52,11,22,22,22]
a_var = np.var(a) #方差
a_std1 = np.sqrt(a_var) #标准差方法1
a_std2 = np.std(a) #标准差方法2
a_mean = np.mean(a) #均值
a_cv = a_std2 / a_mean #变异系数

3.分布特征

请参考https://blog.csdn.net/murphy852/article/details/106904857

4.偏度与峰度

(1)偏度

偏度也称为偏态,是统计数据分布偏斜方向和程度的度量,是统计数据分布非对称程度的数字特征,直观看来就是密度函数曲线尾部的相对长度。
偏度刻画的是分布函数(数据)的对称性,对于均值对称的数据,其偏度系数为0,右侧更分散的数据偏度系数为正,左侧更分散的数据偏度系数为负。
正态分布的偏度为0,两侧尾部长度对称。

  • 左偏
    (1)若以bs表示偏度,bs < 0称分布具有负偏离,也称左偏态;
    (2)此时数据位于均值左边的比位于右边的少,直观表现为左边的尾部相对于右边的尾部要长;
    (3)因为有少数变量值很小,使曲线左侧尾部拖得很长

  • 右偏
    (1)bs > 0称分布具有正偏离,也称右偏态;
    (2)此时数据位于均值右边的比位于左边的少,直观表现为右边的尾部相对于左边的尾部要长;
    (3)因为有少数变量值很小,使曲线右侧尾部拖得很长

  • 偏度系数
    概率统计(二)数理统计与描述性统计

(2)峰度

峰度说明的是分布曲线在平均值处峰值高低的特征数,如果峰度大于3,峰的形状比较尖,比正态分布要陡峭。
峰度刻画的是分布函数的集中和分散程度。
峰度系数:
概率统计(二)数理统计与描述性统计
峰度、偏度与正态分布对比如下:
概率统计(二)数理统计与描述性统计

(3)Python实现

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
data = list(np.random.randn(10000)) #生成标准正态分布的随机数
plt.hist(data,1000,facecolor = 'g',alpha = 0.5)
plt.show()
s = pd.Series(data)
print("偏度系数",s.skew())
print("峰度系数",s.kurt())