2020.8.10_p4

程序员文章站 2022-07-12 09:35:30

...

p34 4-1 假设检验

2020.8.10_p4

探索性数据分析最重要的是将把数据全貌展现

本章重点：属性与属性之间常见的联系与分析方法

2020.8.10_p4

假设检验：

根据一定的假设条件，从样本推断总体或推断样本与样本之间的方法

做出一个假设，根据已知的分布性质，推断该假设成立的概率有多大

2020.8.10_p4

假设检验方法

原假设符合分布，备择假设不符合分布

选择检验统计量
	统计量，根据数据的均值、方差等性质，构造的转换函数，构造函数的目的是让数据符合已知的分布比较容易解决的格式

显著性水平和相似度的和为1
比如确定了某数据属性有95%概率符合某分布，则其显著性水平为5%
显著性水平一般是人为定的值，值越低，对数据和分布的契合程度就越高

根据计算的统计量以及要比较的分布进行判断
判断思路有两种：根据区间估计方法；计算p值，直接和显著性水平相比较

2020.8.10_p4

抽样某台机器产出的洗衣服是否符合规格

进行假设检验
1、确定原假设和备择假设，原假设应尽可能接近某分布
	原假设 H0：样本是符合...
	备择假设 H1:样本不符合均值500g,标准差2g的正态分布

2、

3、显著性水平：0.05，一旦确定显著性水平，结束域也就确定了95%

4、计算检验统计量，这里是2.23，也就是箭头指向的位置，
   这样就确定了p值，比这个结果更差的概率，从这个点开始到无穷大，计算累积概率，是0.013
   这个是单边的p值，双边检验的p值，是0.026

2020.8.10_p4

p34 4-2 卡方检验

假设检验的方法有很多，这些检验的方法区别一般取决于检验统计量的选取上，
卡方检验，T分布检验，F检验
检验流程是一样的，只是检验时使用的统计量不同，应用场景也有差异

T分布检验：用来比较两组样本分布是否一致，比如临床药物检验
F检验常用在方差分析
卡方检验：这里假设-->是否化妆与性别无关

2020.8.10_p4

f表示的是实际值
np理论值分布

比如这里男士化妆实际值是15，而理论值是55

2020.8.10_p4

若p=0.05,则卡方值不大于3.841，而这里计算的卡方值是129.3
结论是：性别与化妆与否有很大关系，原假设是否化妆与性别没有关系就拒绝掉了

卡方检验常用来检验两个因素有没有比较强的联系

p35 4-3 方差检验

2020.8.10_p4

之前实例只是研究一两个样本
若涉及的样本较多，使用方差检验，因其涉及F分布，故也叫F检验

实例：有三组电池，查看其寿命的均值是否有差别，使用方差检验

m组，共n个采样：m就是3，n是15(所有数据量总和)

2020.8.10_p4

一般情况下，SS指的都是平方和

SST（总离差平方和）：反映了全部试验数据之间的差异
SSM（组间离差平方和）：反映了每组数据均值和总平均值的误差
SSE（组内离差平方和）：反映了组内数据和组内平均的随机误差
SST=SSE+SSM

2020.8.10_p4

均值是有差异的 并不是没有差异的

p36 4-4 相关系数

相关系数是衡量两组数据变化趋势

相关系数有正相关、负相关和不相关之分

相关系数越大，越接近于1，两组数据的变化趋势越正向同步；
相关系数越小，越接近于-1，两组数据的变化趋势越反向同步；
相关系数趋近于0，则两组数据没有相关关系

常用的相关系数有两种
	1、Pearson correlation coefficient（皮尔逊相关系数）
	分子是两组数据的协方差，分母是两组数据的标准差的积

2020.8.10_p4

spearman只和名次差有关，和具体的数据关系不大

p37 4-5 线性回归

2020.8.10_p4

因变量与自变量是线性关系，则为线性回归

线性回归常用解法：最小二乘法

2020.8.10_p4

线性回归效果判定，有关键指标和残差不相关

决定系数越接近1，说明回归效果越好

e残差(预测值与实际值差)
DW范围为[0,4]  DW=2 代表残差不相关  接近于4代表残差正相关  接近于0代表残差负相关 好的回归残差不相关

2020.8.10_p4

p34 4-1 假设检验

p34 4-2 卡方检验

p35 4-3 方差检验

p36 4-4 相关系数

p37 4-5 线性回归

p38 4-6 主成分分析

p40 4-7 编码实现

p41 4-8 交叉分析方法与实现

p42 4-9 分组分析方法与实现

p43 4-10 相关分析与实现

p44 4-11 因子分析与实现

p45 4-12 本章小结

2020.8.10_p4