2020.8.10_p4
程序员文章站
2022-07-12 09:35:30
...
p34 4-1 假设检验
探索性数据分析最重要的是将把数据全貌展现
本章重点:属性与属性之间常见的联系与分析方法
假设检验:
根据一定的假设条件,从样本推断总体或推断样本与样本之间的方法
做出一个假设,根据已知的分布性质,推断该假设成立的概率有多大
假设检验方法
原假设符合分布,备择假设不符合分布
选择检验统计量
统计量,根据数据的均值、方差等性质,构造的转换函数,构造函数的目的是让数据符合已知的分布比较容易解决的格式
显著性水平和相似度的和为1
比如确定了某数据属性有95%概率符合某分布,则其显著性水平为5%
显著性水平一般是人为定的值,值越低,对数据和分布的契合程度就越高
根据计算的统计量以及要比较的分布进行判断
判断思路有两种:根据区间估计方法;计算p值,直接和显著性水平相比较
抽样某台机器产出的洗衣服是否符合规格
进行假设检验
1、确定原假设和备择假设,原假设应尽可能接近某分布
原假设 H0:样本是符合...
备择假设 H1:样本不符合均值500g,标准差2g的正态分布
2、
3、显著性水平:0.05,一旦确定显著性水平,结束域也就确定了95%
4、计算检验统计量,这里是2.23,也就是箭头指向的位置,
这样就确定了p值,比这个结果更差的概率,从这个点开始到无穷大,计算累积概率,是0.013
这个是单边的p值,双边检验的p值,是0.026
p34 4-2 卡方检验
假设检验的方法有很多,这些检验的方法区别一般取决于检验统计量的选取上,
卡方检验,T分布检验,F检验
检验流程是一样的,只是检验时使用的统计量不同,应用场景也有差异
T分布检验:用来比较两组样本分布是否一致,比如临床药物检验
F检验常用在方差分析
卡方检验:这里假设-->是否化妆与性别无关
f表示的是实际值
np理论值分布
比如这里男士化妆实际值是15,而理论值是55
若p=0.05,则卡方值不大于3.841,而这里计算的卡方值是129.3
结论是:性别与化妆与否有很大关系,原假设是否化妆与性别没有关系就拒绝掉了
卡方检验常用来检验两个因素有没有比较强的联系
p35 4-3 方差检验
之前实例只是研究一两个样本
若涉及的样本较多,使用方差检验,因其涉及F分布,故也叫F检验
实例:有三组电池,查看其寿命的均值是否有差别,使用方差检验
m组,共n个采样:m就是3,n是15(所有数据量总和)
一般情况下,SS指的都是平方和
SST(总离差平方和):反映了全部试验数据之间的差异
SSM(组间离差平方和):反映了每组数据均值和总平均值的误差
SSE(组内离差平方和):反映了组内数据和组内平均的随机误差
SST=SSE+SSM
均值是有差异的 并不是没有差异的
p36 4-4 相关系数
相关系数是衡量两组数据变化趋势
相关系数有正相关、负相关和不相关之分
相关系数越大,越接近于1,两组数据的变化趋势越正向同步;
相关系数越小,越接近于-1,两组数据的变化趋势越反向同步;
相关系数趋近于0,则两组数据没有相关关系
常用的相关系数有两种
1、Pearson correlation coefficient(皮尔逊相关系数)
分子是两组数据的协方差,分母是两组数据的标准差的积
spearman只和名次差有关,和具体的数据关系不大
p37 4-5 线性回归
因变量与自变量是线性关系,则为线性回归
线性回归常用解法:最小二乘法
线性回归效果判定,有关键指标和残差不相关
决定系数越接近1,说明回归效果越好
e残差(预测值与实际值差)
DW范围为[0,4] DW=2 代表残差不相关 接近于4代表残差正相关 接近于0代表残差负相关 好的回归残差不相关
p38 4-6 主成分分析
p40 4-7 编码实现
p41 4-8 交叉分析方法与实现
p42 4-9 分组分析方法与实现
p43 4-10 相关分析与实现
p44 4-11 因子分析与实现
p45 4-12 本章小结
上一篇: python数据分析与挖掘实战---拉格朗日插值法
下一篇: 【算法】剑指 Offer-广度优先遍历
推荐阅读