欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

2020.8.10_p4

程序员文章站 2022-07-12 09:35:30
...

p34 4-1 假设检验

2020.8.10_p4

探索性数据分析最重要的是将把数据全貌展现

本章重点:属性与属性之间常见的联系与分析方法

2020.8.10_p4

假设检验:

根据一定的假设条件,从样本推断总体或推断样本与样本之间的方法

做出一个假设,根据已知的分布性质,推断该假设成立的概率有多大

2020.8.10_p4

假设检验方法

原假设符合分布,备择假设不符合分布

选择检验统计量
	统计量,根据数据的均值、方差等性质,构造的转换函数,构造函数的目的是让数据符合已知的分布比较容易解决的格式

显著性水平和相似度的和为1
比如确定了某数据属性有95%概率符合某分布,则其显著性水平为5%
显著性水平一般是人为定的值,值越低,对数据和分布的契合程度就越高

根据计算的统计量以及要比较的分布进行判断
判断思路有两种:根据区间估计方法;计算p值,直接和显著性水平相比较

2020.8.10_p4

抽样某台机器产出的洗衣服是否符合规格

进行假设检验
1、确定原假设和备择假设,原假设应尽可能接近某分布
	原假设 H0:样本是符合...
	备择假设 H1:样本不符合均值500g,标准差2g的正态分布

2、

3、显著性水平:0.05,一旦确定显著性水平,结束域也就确定了95%

4、计算检验统计量,这里是2.23,也就是箭头指向的位置,
   这样就确定了p值,比这个结果更差的概率,从这个点开始到无穷大,计算累积概率,是0.013
   这个是单边的p值,双边检验的p值,是0.026

2020.8.10_p42020.8.10_p4

p34 4-2 卡方检验

假设检验的方法有很多,这些检验的方法区别一般取决于检验统计量的选取上,
卡方检验,T分布检验,F检验
检验流程是一样的,只是检验时使用的统计量不同,应用场景也有差异

T分布检验:用来比较两组样本分布是否一致,比如临床药物检验
F检验常用在方差分析
卡方检验:这里假设-->是否化妆与性别无关

2020.8.10_p4

f表示的是实际值
np理论值分布

比如这里男士化妆实际值是15,而理论值是55

2020.8.10_p4

若p=0.05,则卡方值不大于3.841,而这里计算的卡方值是129.3
结论是:性别与化妆与否有很大关系,原假设是否化妆与性别没有关系就拒绝掉了

卡方检验常用来检验两个因素有没有比较强的联系

p35 4-3 方差检验

2020.8.10_p4

之前实例只是研究一两个样本
若涉及的样本较多,使用方差检验,因其涉及F分布,故也叫F检验

实例:有三组电池,查看其寿命的均值是否有差别,使用方差检验

m组,共n个采样:m就是3,n是15(所有数据量总和)

2020.8.10_p4

一般情况下,SS指的都是平方和

SST(总离差平方和):反映了全部试验数据之间的差异
SSM(组间离差平方和):反映了每组数据均值和总平均值的误差
SSE(组内离差平方和):反映了组内数据和组内平均的随机误差
SST=SSE+SSM

2020.8.10_p42020.8.10_p4

均值是有差异的 并不是没有差异的

p36 4-4 相关系数

相关系数是衡量两组数据变化趋势

相关系数有正相关、负相关和不相关之分

相关系数越大,越接近于1,两组数据的变化趋势越正向同步;
相关系数越小,越接近于-1,两组数据的变化趋势越反向同步;
相关系数趋近于0,则两组数据没有相关关系
常用的相关系数有两种
	1、Pearson correlation coefficient(皮尔逊相关系数)
	分子是两组数据的协方差,分母是两组数据的标准差的积

2020.8.10_p4
2020.8.10_p4

spearman只和名次差有关,和具体的数据关系不大

p37 4-5 线性回归

2020.8.10_p4

因变量与自变量是线性关系,则为线性回归

线性回归常用解法:最小二乘法

2020.8.10_p4

线性回归效果判定,有关键指标和残差不相关

决定系数越接近1,说明回归效果越好

e残差(预测值与实际值差)
DW范围为[0,4]  DW=2 代表残差不相关  接近于4代表残差正相关  接近于0代表残差负相关 好的回归残差不相关

p38 4-6 主成分分析

p40 4-7 编码实现

p41 4-8 交叉分析方法与实现

p42 4-9 分组分析方法与实现

p43 4-10 相关分析与实现

p44 4-11 因子分析与实现

p45 4-12 本章小结

推荐阅读