欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

商务与经济统计学习 --多个比率的比较、独立性及拟合优度检验

程序员文章站 2024-01-19 15:08:46
...

多个比率的比较、独立性及拟合优度检验

前面介绍了关于一个和两个总体的总体均值、比率和方差的假设检验的统计推断方法
本章进行的假设检验所使用的检验统计量都基于χ2分布,在所有情形中数据都是分类型的 这些χ2检验是多用途的,并由检验下列的应用扩充了假设
P1:检验三个或多个总体比率的相等性
P2:检验两个分类变量的独立性
P3:检验一个总体的概率分布是否服从一个特殊的历史或理论的概率分布

三个或多个总体比率来的相等性的检验

两个总体比率的统计推断方法,其假设检验的结论基于标准正态检验统计量z

这里使用检验统计量χ2,对三个或多个总体比率的相等性进行统计推断

p1——总体1的总体比率
p2——总体2的总体比率
pk——总体k的总体比率
关于k个总体比率相等性的假设陈述如下:
H0:p1=p2=...=pk
Ha: 所有总体比率不全相等
如果样本数据和χ2检验计算结果表明H0没有拒绝,不能断定k个总体比率有差异。然而,如果样本数据和χ2检验计算结果表明H0被拒绝,有统计证据得出k个总体比率不全相等的结论 也就是说 一个或多个总体比率与其他总体比率不相等,可以进一步分析,以得出哪个或哪些总体比率与其他总体比率有显著差异

假设:H0:p1=p2=...=p3 Ha:所有总体比例不全相等

    #观察频数——样本结果
    #              样本1         样本2           样本3              合计
    #   p          69          120              123               312
    #  1-p         56          80               52                188
    #  合计        125          200              175               500

根据原假设H0:p1=p2=p3=312500=0.624为每一类总体比例的总体最佳估计量

在假定H0为真时的期望频数:

eij=i×j

# 原假设为真时:期望频数
#              总体1         总体2           总体3              合计
#   p  125x0.624=78         124.8           109.2              312
#  1-p         47          75.2             65.8                188
#  合计        125          200              175               500

检验统计量χ2

χ2=ij(fijeij)2eij

式中:fij为第i行和第j列的单元格的观察频数,eij代表在假定H0为真时第i行和第j列的单元格的期望频数

注意:在涉及k个总体比率相等性的χ2检验中, 上述检验统计量服从*度为k1χ2分布,其中每个单元格的期望频数都大于或等于5

检验总体比率相等性的检验统计量χ2的计算

#        总体   观察频数(f_ij)     期望频数(e_ij)   差(f_ij - e_ij)  差的平方    差的平方除以期望频数
#  p1     1      69                78             -9              81           1.04
#  p2     2      120               124.8          -4.8            23.04        0.18 
#  p3     3      123               109.2          13.8            190.44       1.74
# 1-p1    1       56                47            9               81         1.72
# 1-p2    2       80                75.2          4.8             23.04        0.31
# 1-p3    3       52                65.8         13.8             190.44       2.89

χ2=7.89 *度为3-1=2 根据p值法, p0.05,因此拒绝H0

多重比较方法

使用χ2检验得到三个总体的总体比率不全相等(H0被拒绝),因此有些总体比率之间存在差异 为了研究总体比率之间存在的差异 先计算三个总体的比率
# 品牌忠诚度的样本比率
# p1=69/125=0.552 
# p2=120/200=0.600
# p3=123/175=0.7029

由于χ2检验表明总体比率不全相等 因此 进行尝试性确定哪些总体比率之间存在差异是合理的 ——采用Marascuilo方法

# 首先计算每对总体的样本比率之差的绝对值
# 总体1和总体2 |p1 - p2|=0.048
# 总体1和总体3 |p1 - p3|=0.1509
# 总体2和总体3 |p2 - p3|=0.1029

k个总体比率的Marascuilo成对比较方法的临界值

CVij=χα2p¯i(1p¯i)ni+p¯j(1p¯j)nj

式中,χα2为显著性水平为α且*度为k1χ2值, p¯ip¯j为总体ij的样本比率,ninj为总体i和总体j的样本容量

利用χ2分布表 k1=31=2的*度和显著性水平0.05,我们有χ02.05=5.991
CV12=5.9910.552(10.552)125+0.6(10.6)200=0.138

CV13=0.1379
CV23=0.1198
# |pi-pj|        CV_ij           如果|pi - pj|>CV_ij,则显著
# 0.048         0.1380            不显著
# 0.1509        0.1379             显著
# 0.1029        0.1198             不显著


# 得出 总体1与总体3之间呈现显著差异  总体3比总体1具有优势

独立性检验

χ2检验的一个重要应用是利用样本数据检验两个分类变量的独立性

从一个总体中抽取样本 并记录两个分类变量的观测值 通过对分类变量k的每一对组合统计回答的个数来汇总数据

检验的原假设是两个分类变量独立,因此这种检验被称为独立性检验

两个分类变量独立性的χ2检验

  1. 建立原假设与备选假设
    H0: (例子:啤酒偏好与性别独立)
    Hα: (例子:啤酒偏好与性别不独立)
  2. 从总体中选择一个随机样本,收集样本中每个个体对两个变量的数据 记录r行和c列的表中的观察频数fij
  3. 假定原假设为真,计算期望频数eij
    1. 如果期望频数eij都大于或等于5,计算检验统计量:
      χ2=ij(fijeij)2eij
  4. 拒绝法则:
    p值法:如果pα,则拒绝H0
    临界值法:如果χ2χα2,则拒绝H0
    χ2分布的*度为(r1)(c1),α为检验的显著性水平

拟合优度检验

使用χ2检验来确定一个被抽样的总体是否服从某个特殊的概率分布
首先考虑总体服从一个历史的多项概率分布情形 并使用拟合优度检验来确定新的样本数据的总体分布在与历史的分布中相比较 是否显示存在改变
然后考虑假设总体服从正态概率分布的情形 理由拟合优度检验来确定样本数据是否显示正态概率分布的假设是适当还是不适当
以上两个检验都被称为拟合优度检验

多项概率分布

多项概率分布式二项概率分布每次试验有三个或多个结果情形的推广

多项概率分布的概率之和等于1

对于多项概率分布,总体中的每一个个体被分配到三个或多个类中的一个或多个类中的一个且仅一个

拟合优度的检验统计量

χ2=i=1k(fiei)2ei
式中,fi为第i类的观察频数,ei为第i类的期望频数,k为类别个数
注意:当所有类别的期望频数都是大于或等于5时,检验统计量服从*度为k1χ2分布

多项概率分布的拟合优度检验

P1:建立原假设和备选假设
H0:总体服从k类中每类都有指定的概率的多项概率分布
Hα:总体不服从k类中每类都有指定的概率的多项概率分布
P2:选择一个随机样本,并记录美衣类别的观察频数fi
P3:假定原假设为真,由此确定每一类别的期望频数ei,ei等于样本容量与各类概率的乘积
P4:如果每一类的期望频数ei都大于或等于5,计算检验统计量
χ2=i=1k(fiei)2ei
P5:拒绝法则:
p值法:如果pα,则拒绝H0
临界值法:如果χ2χα2,则拒绝H0
式中,α为检验的显著性水平,k1为*度

正态分布拟合优度检验

正态分布拟合优度检验也是基于χ2分布的应用。在总体服从正态分布的假设下,将样本数据的若干类别的观察频数同时期望频数进行比较。

正态分布的拟合优度检验

P1:建立原假设和备选假设
H0:
Hα:
P2:抽取一个随机样本,并且
a.计算样本均值和样本标准差
b.定义k个取值区间使得每个区间中的期望频数至少为5——使用等概率区间是很好的方法
c.记录每个确定好的区间的数据值的观察频数
P3:对于步骤2(b)中确定每个区间,计算发生次数的期望频数ei,即样本容量与正态随机变量落入每个区间的概率的乘积
P4:计算检验统计量
χ2=i=1k(fiei)2ei
P5:拒绝法则:
p值法:如果pα,则拒绝H0
临界值法:如果χ2χα2,则拒绝H0
式中,α为检验的显著性水平,*度为kp1,其中p是有样本估计的分布参数的个数 在步骤2(a)中利用样本估计了均值和标准差 因此 p=2 *度为k21=k3

相关标签: 经济学 统计学