t统计量和z统计量 博客分类: 数据挖掘&机器学习
z统计和t统计可以用来检验两个平均数之间差异显著的程度,z适合大样本的情况(样本数大于30),t适合小样本的情况。
z检验的步骤:
第一步:建立虚无假设 H0:μ1 = μ2 ,即先假定两个平均数之间没有显著差异,
第二步:计算统计量Z值,对于不同类型的问题选用不同的统计量计算方法,
1、如果检验一个样本平均数()与一个已知的总体平均数(μ0)的差异是否显著。其Z值计算公式为:
其中:
2、如果检验来自两个的两组样本平均数的差异性,从而判断它们各自代表的总体的差异是否显著。其Z值计算公式为:
其中:
- 是样本1,样本2的平均数;
- S1,S2是样本1,样本2的标准差;
- n1,n2是样本1,样本2的容量。
第三步:比较计算所得Z值与理论Z值,推断发生的概率,依据Z值与差异显著性关系表作出判断。如下表所示:
非常显著 | ||
显著 | ||
<1.96 | >0.05 | 不显著 |
第四步:根据是以上分析,结合具体情况,作出结论。
以下是对Z统计和T统计的计算方法和区别的理解:
z统计是用来衡量样本均值偏离整体均值的方差倍数,就是偏离方差的程度。
根据中心极限定理,总体样本N,每次抽样数n,每次抽样的均值的分布趋近正态分布。也就是随机误差符合正态分布。其分布的数学期望为总体均值μ,方差为总体方差的1/n。
定义符号:
x:样本均值
μ:抽样均值,也等于总体均值
ss:抽样标准差
σ:总体的标准差
s:样本标准差
当我们想知道某次抽样的样本均值μi离总体均值有多少个标准差那么远,可以用如下算式来表示,称
这个值为Z统计:
样本均值-抽样分布均值/抽样分布标准差
这里通常抽样分布标准差不知道,而抽样分布标准差可以用总体标准差表示:
ss=σ/n^1/2
因此z分布可以写成:
这里总体的标准差也往往得不到,因此当抽样样本数大于30的时候
总体标准差可以近似地用样本标准差替代:
当样本数小于30的时候样本就不符合正态分布了,而是符合t分布,
t统计的值和z统计的区别是一个要查z统计值表,另一个是要查t统一值表。