统计学基础
统计学
一:基础统计
1.1描述统计
统计学本质:通过抽样样本(使用统计方法)推断总体参数(均值/比例/方差/相关)是否成立的概率
1.1.1测量尺度
分类变量:
定类:分类(性别)
定序:分类+排序(对定类变量进行排序:比如电影类型排序)
连续变量:
定距:分类+排序+加减(比如评分0-10 / 温度),没有绝对0点,即0也有意义
定比:分类+排序+加减+乘除(身高,体重,收入)
分类变量:只能用频次统计
连续变量:可以使用频次和均值标准差等
1.1.2均值
算术均值:求和除以n个数
∑
i
=
1
n
a
i
/
n
\sum_{i=1}^n{ai}/n
i=1∑nai/n
几何均值:乘积开n次方根号
使用场景:数据必须是正数,而且在0~1之间,例如:计算增长率的均值
a
1
∗
a
2
∗
.
.
.
n
∗
调
和
均
值
∗
∗
:
数
据
个
数
/
导
数
之
和
\sqrt[n]{a1*a2*...}*调和均值**:数据个数 / 导数之和
na1∗a2∗...
∗调和均值∗∗:数据个数/导数之和
调和均值:数据个数 / 导数之和
使用场景:当下限的频数较高时候,例如:右偏
n
1
n
1
+
1
n
2
+
.
.
.
+
1
n
\frac{n}{\frac{1}{n1}+\frac{1}{n2}+...+\frac{1}{n}}
n11+n21+...+n1n
调整均值:去掉上下限一定比例之后再算数平均(比例的经验值是5%,但是还要看数据量而定)
使用场景:上下限相差比较大的时候
注意:相同一组数据计算均值的大小排序 (算数均值 > 几何均值 > 调和均值)
1.1.3集中趋势
均值:在极差不大的情况下可以使用
中位数:数据之间的差距比较大,不能使用均值的情况下就使用中位数(可以是中间两个数据的均值)
众数:出现频次最高的数据
1.1.4离散趋势
数据的离散程度代表了数据中包含的信息量
极差:通常数据量越大,极差越大(比较两组以上的极差的时候要求各组的样本量相等)
方差:表示各个数据相对于均值的离散程度的指标
标准差:表示各个数据相对于均值的离散程度的指标
总
体
标
准
差
:
∑
i
=
1
n
(
x
−
μ
)
2
n
总体标准差:\sqrt\frac{\sum_{i=1}^n{(x-\mu)^{2}}}{n}
总体标准差:n∑i=1n(x−μ)2
样 本 标 准 差 : ∑ i = 1 n ( x − μ ) 2 n − 1 样本标准差:\sqrt\frac{\sum_{i=1}^n{(x-\mu)^{2}}}{n-1} 样本标准差:n−1∑i=1n(x−μ)2
样本标准差除以n-1,是因为个数越多离散程度越大,所以总体标准差大于样本标准差
案例:
比较两组数据的离散程度,不能直接使用方差/标准差,应该使用离散系数,因为两组系数的样本量和均值不 同,所以直接比较没有意义
离
散
系
数
=
σ
μ
离散系数 = \frac{\sigma}{\mu}
离散系数=μσ
1.2总体推断
1.2.1统计推断理论简介
1.2.1.1抽样误差和标准误
样本推断总体的时候 ,会出现抽样误差,那么如何衡量误差的大小??
答案:标准误可以衡量抽样误差的大小
1.2.1.2t分布
数据符合不同的分布则使用不同的检验方法,例如:正态分布,卡方分布,F分布…
1.2.1.3参数估计
使用样本的统计量去估计总体参数,例如使用样本均值,标准差去估计总体均值,标准差…
点估计:直接使用样本统计量来表示总体参数
区间估计:样本统计量±统计误差
1.2.1.4假设检验
先提出假设,假设总体参数的值或者区间,然后使用参数估计方法去检验这个假设是否成立
1.2.2大数定律和中心极限定理
大数定律:样本n越大,则样本均值越接近总体均值
中心极限理论:当样本量n逐渐趋近于无穷大时,多次抽样中的n个抽样样本的均值的频数分布逐渐趋近于正态分布
1.2.3抽样误差和标准误
抽样误差:由个体变异产生的,抽样造成的样本统计量与总体参数之间的差别
原因:1.抽样:抽样方法导致 2.个体误差:个体数据之间有差异
标准误:表示样本统计量抽样误差的大小
总
体
标
准
误
σ
x
=
σ
n
总体标准误 \sigma_{x} = \frac{\sigma}{\sqrt{n}}
总体标准误σx=n
σ
样 本 标 准 误 S x = S n 样本标准误 S{x} = \frac{S}{\sqrt{n}} 样本标准误Sx=n S
1.2.4t分布
t分布只有一个参数–*度 , *度和样本大小有关,*度越大越趋近于正态分布
t分布特征:
单峰分布,以0为中心,左右对称
*度v越小,则t值越分散,峰值越矮尾部越翘
当v越大越接近于正态分布
Z分数:
用来把t分布转化成(0,1)的Z分布,又称为标准化
应用:用于判断样本值与均值相差多少个单位的标准差
假如异常值判断(样本均值加减3倍标准差)
当Z值绝对值大于3则为异常值,大于5则为极端值
Z
分
数
=
样
本
值
X
−
样
本
均
值
μ
样
本
标
准
差
S
Z分数 = \frac{样本值X-样本均值\mu}{样本标准差S}
Z分数=样本标准差S样本值X−样本均值μ
t分数:
t
分
数
=
样
本
均
值
X
−
总
体
均
值
μ
标
准
误
t分数 = \frac{样本均值X-总体均值\mu}{标准误}
t分数=标准误样本均值X−总体均值μ
1.2.5参数估计
定义:用样本统计量估计总体参数
点估计:直接使用样本统计量代替总体参数
区间估计:表示总体均值有多大的概率(概率值通过指定)会落在这个区间上
1.t分布估计:适用于总体标准差未知且样本量较小
2.z分布估计:适用于样本量较大
$$
t分布估计:
\
样本均值-t_{\alpha/2,v}{S_x}<\mu<样本均值+t_{\alpha/2,v}{S_x}
\
t_{\alpha/2} 表示指定概率\alpha单侧检验的t值
\
v指的是*度,一般等于n-1
\
S_x表示标准误 = \frac{S}{\sqrt{n}}
\
\
z分布估计:
\
\sigma已知:使用总体标准误
\
总体均值\mu-z_{\alpha/2}{\sigma_x}<\mu<总体均值\mu+z_{\alpha/2}{\sigma_x}
\
\sigma未知,但是n较大:使用样本标准误
\
总体均值\mu-z_{\alpha/2}{X_x}<\mu<总体均值\mu+z_{\alpha/2}{X_x}
\
\
置信度:
\
T=1.65 代表95%置信度
\
T=1.98 代表98%置信度
\
T=2.58 代表99%置信度
$$
1.2.6假设检验
假设检验的目的:判断总体和样本的差异是哪种原因导致的
基本思想:小概率反证法,通过P值与显著性水平α(代表H0发生的概率)比较,如果P<α就属于小概率事件,则不接受H0
步骤:
确定H0/H1,以及α
H0:样本统计量和总体参数没有显著性差异(没有相关性)
H1:…有显著性差异(有相关性)
根据变量类型选择检验方法计算统计量(t值,z值,F值,卡方值)
根据统计量去计算P值,然后与α比较
拒绝H0 | 接受H0 | |
---|---|---|
H0真 | 一类错误(弃真错误) | |
H0假 | 二类错误(取伪错误) |
1.3抽样方法
1.3.1抽样的概念和意义
普查:
抽样调查:
非抽样调查:
抽样方法:
有调查对象总体清单:
1.简单随机抽样:样本量小,可对全体调查对象进行编号
2.系统抽样:样本量大,可对全体调查对象进行编号
3.概率与规模成比例二级抽样/分层二级抽样等概率抽样:样本量大,不能对全体抽样对象进行编号
没有调查对象全体清单:
4.区域抽样(醉步):通过住宅地图抽样
5.时间抽样:街头/到场者抽样
6.RDD(随机数字拨号):造出电话号码
1.3.2抽样误差和非抽样误差
抽样误差:科学的抽样可控误差
非抽样误差:人为差错引起的误差,也叫偏差,比如:研究人员(问题定义,访问方法,问卷设计…)/访问员(问答错误,记录错误)/被访者(欺骗误差,无回答误差)
1.3.3抽样过程
明确调查目的–>定义总体/抽样单元–>确认主要目标量的精度–>确定/购置抽样框–>选择抽样方案–>确定样本量–>指定实施细节和步骤
两个基本原则:
1.实现抽样的随机性原则(尽量做到等概率抽样)
2.实现抽样效果最佳原则(成本和效果之间的关系)
1.3.4抽样样式
概率抽样:可计算抽样误差
1.等概率抽样:所有样本单元出现的概率相同
2.不等概率抽样:每个样本单元所出现的概率不同
非概率抽样:不可计算抽样误差
1.方便抽样:街头抽样
2.判断抽样:主观判断选取
3.配额抽样:根据属性或者特征进行按比例抽取
4.滚雪球抽样:裙带/推荐抽样
1.3.5概率抽样类型
1.简单随机抽样
适用场景:总体不大,可对总体进行编号,然后根据编号随机抽取
2.系统抽样(等距抽样)
适用场景:用总人数/抽样人数=间距,先随机一个起始编号,然后起始编号+间距代表第二个人,以此类推
3.PPS抽样:概率与规模成比例抽样
适用场景:有多级抽样单元的大规模抽样,例如:先从一级单元(街区)选出街区,再从二级单元(家庭)中选出家庭/人
4.分层抽样
分层原则:层内差异小,层间差异大
例如:首先根据学历分类,每种学历抽取相同比例的人数
5.区域抽样
适用场景:没有对象清单,使用住宅地图进行抽样(可能抽取的是经常在家的样本)
6.时间抽样
适用场景:不同时间段有不同人流量,则抽取不同比例的人数(需要预估判断所有时间段的总体人流量和预计抽取人数)
7.RDD随机电话号码抽样
适用场景:随机生成不同区域的电话
1.4假设检验的方法
参数检验方法:前提:样本来自的总体需要服从正态分布(k-s检验可以判断),而且需要知道总体(参考)均值
1.t检验:单样本t检验/独立样本t检验/配对样本t检验
使用场景:连续变量,样本之间均值有均值差异,总体之间均值是否也存在差异
2.F检验/方差检验/ANOVA
适用场景:三组及以上的数据之间均值的差异,以及导致差异的因素是什么
数据要求:1.样本各总体服从正态分布,2.样本各总体方差一定要相等(独立样本t检验中也有使用方差齐性检验,但其不要求一定相等)
非参数检验方法:不知道总体分布或者知之甚少,通过样本推断总体,但是不涉及总体参数(μ/σ)的推断
常用单样本非参数检验方法:
1.卡方检验:检验所有类别是否包含相同频率或者与用户指定比例一致
适用场景:当不适用于参数检验的时候,首先应该使用卡方检验
2.二项式检验:检验二分类变量(0,1)的两个类别的观察频率与指定概率是否一致
3.K-S检验:将变量的观察累计分布函数与指定理论分布进行比较(理论分布:正态,均匀,泊松,指数分布等)
适用场景:(许多参数检验需要样本来自的**总体**符合正态分布)做参数检验之前用于检验样本来自的总体是否符合正态分布
4.游程检验:检验某一变量两个值的出现顺序是否随机(也就是两种情况出现的概率是否都是50%)
适用场景:随着时间变化出现的顺序是否随机(连续变量,通过中位数/均值/众数/自定义进行分割成两种类别)
5.独立样本非参数检验:两组不同样本,相互独立
注意:分组变量必须是分类变量(例如:性别),比较变量必须是连续变量(例如:收入)
适用场景:两组独立数据,不服从正态分布的时候,适用非参数检验来判断两组数据在分布(取值)上是否有差异
6.配对样本非参数检验:一组样本,不同时间采集的数据
注意:比较的变量必须是连续变量
适用场景:不服从正态分布的两组配对样本
1.4.1卡方检验SPSS操作
分析–>非参数检验–>旧对话框–>卡方
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jC1sXg7j-1625839333608)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1624795100319.png)]
1.4.2二项式检验SPSS操作
分析–>非参数检验–>旧对话框–>二项
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-iEmxvHVT-1625839333610)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1624795796110.png)]
1.4.3K-S检验SPSS操作
分析–>非参数检验–>旧对话框–>单样本K-S
H0:来自样本的总体分布与设定正态分布(均匀分布/指数分布/泊松分布)无显著性差异(即符合正态分布)
H1: 样本来自的总体不符合设定的正态分布(均匀分布/指数分布/泊松分布)
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-7Rp89Ykv-1625839333612)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1624796178324.png)]
1.4.4游程检验SPSS操作
通常检验随着时间变化产生的两个数值出现顺序是否随机(概率是否50%)
分析–>非参数检验–>旧对话框–>游程
H0:两个数据出现的顺序没有显著性差异(即概率一致50%)
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-M0Lx2gBX-1625839333613)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1624796721887.png)]
1.4.5交叉分析(列联表分析)–>使用卡方检验做的
适用场景:用于两个分类变量的相关性分析
H0:两个分类变量没有显著相关性
SPSS操作:
分析–> 描述统计–>交叉表–>
想要计算学历和收入的关系,需要把收入转换成分类变量:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ihZct2oo-1625839333616)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1624798640011.png)]
结果解读:
1.第一步:看卡方统计结果,看是否有相关性(P<0.05则存在显著相关性)
2.第二步:看相关系数,判断相关系数大小
0.0-0.2 较弱相关
0.2-0.4 弱相关
0.4-0.6 相关性一般
0.6-0.8 强相关
0.8-1.0 较强相关
3.第三步:看频次分布,判断是正相关还是负相关
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qrNCiSMG-1625839333618)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1624798988360.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Gscl0Sol-1625839333620)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1624799102715.png)]
1.4.6t检验
如何选择检验方法?
独立样本t检验>配对样本t检验>单样本t检验
为何独立样本t检验更好?因为独立样本没有时间差,容易控制影响,而配对样本t检验存在时间差,很难控制其他影响
在不足够样本量做独立样本t检验的时候,就做配对样本t检验
单侧检验还是双侧检验?
单侧:用于两个样本比大小
双侧:用于单样本估算总体
单样本t检验/独立样本t检验/配对样本t检验,都是通过样本均值来对总体均值的推断检验
当样本量较小(小于50)服从t分布,适用t检验
当样本较大时候服从正态分布
1.4.6.1单样本均值t检验
检验目的:某个变量的样本均值与给定的总体的已知均值相比,是否存在显著差异
检验过程:
-
提出原假设H0:样本均值和总体均值没有显著性差异
-
选择检验统计量:假设总体服从正态分布(这个是前提),如果知道总体方差,则使用Z分数,如果不知道总体方差则使用t分数
-
通过z分数/t分数,以及*度v,计算出概率P值,然后和显著性水平α进行对比
-
得出结论
1.4.6.2独立样本t检验
检验目的:根据两独立样本的数据,对两个总体均值是否有显著差异进行判断
数据要求:
两样本相互独立
小样本则必须来自正态的总体,大样本默认服从正态分布
检验过程:
-
提出原假设H0:两个样本的总体均值没有显著性差异
-
进行方差齐性检验:计算两组样本的总体方差是否相等(总体方差即是来自样本方差)
方差相等时:计算公式不一致
方差不相等时:计算公式不一致
-
根据t值计算对应的P值,然后和显著性水平α进行对比
-
得出结论
1.4.6.3配对样本t检验
检验目的:
数据要求:
两样本数据必须两两配对,个数和顺序都要相同(比如:相同实验对象在不同时间/不同位置采集的两组数据)
小样本下两总体需要服从正态分布,当样本容量>30的时候且是随机收集数据则可默认为正态分布
检验过程:
- 提出原假设H0:两组样本得均值没有显著性差异
- 每对数据求差值,然后和0进行单样本t检验
- 计算出P值,和α进行比较
- 得出结论
1.4.7t检验SPSS软件操作
分析–>比较平均值–>(单样本/独立样本/成对样本T检验)
1.4.7.1单样本
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-9Y70q0bg-1625839333621)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1624888613710.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-vDGVYvk0-1625839333623)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1624888687196.png)]
1.4.7.2独立样本
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-lmjUMmBx-1625839333625)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1624889456503.png)]
1.4.7.3配对样本
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Grsb183e-1625839333627)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1624889756581.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-C0WbRYMG-1625839333628)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1624890038904.png)]
1.4.8 F检验/方差检验/ANOVA
数据要求:1.正态分布,2.方差相等,3.自变量是分类变量或者连续变量,因变量必须是连续变量
原理:
-
第一步:计算组内,组间,随机因素的数据差异程度
-
第二步:计算组间数据差异程度占观测变量(因变量)数据总差异的比例,与组内差异,随机因素的差异占比之间的大小
观测变量总离差平方和SST = 组间离差平方和SSA + 组内离差平方和SSE
1.4.8.1 方差检验三种应用场景
-
单因素方差检验:一个或多个因变量(这里多个因变量没有意义,因为也是一个个因变量进行比较,不会全部因变量一起比较),自变量只有一个(分类变量,这个分类变量可以分成多组)
检验目的:检验一个因变量在一个分类自变量的两组/三组或者多组类别间的差异
H0:自变量与因变量之间不存在显著性差异/相关(不同人群之间在该连续变量的均值上没有显著差异/相关)
-
多因素方差检验:一个因变量,自变量有多个(既有分类变量也有连续变量)
检验目的:分析一个因变量在两个或多个自变量所形成的组间的差异,其中一个自变量可看作处理变量
H0:多个自变量与因变量之间不存在显著差异/相关
-
重复方差检验:一个因变量,在多个时刻重复测量多次,自变量可有可无
1.4.8.2 方差检验的常用术语
-
因素(Factor):自变量
-
水平(Level):自变量的不同取值,例如:学历分为高中低三种水平
-
单元(Cell):最小试验单元,例如:分析三种学历以及性别对收入的影响,那么单元个数=3(学历个数)*2(性别个数) = 6
-
元素(Element):即受访对象(但是元素个数不一定等于受访对象个数,因为可能重复测量,或者元素以家庭为单位)
一个单元内可以有多个元素/一个元素/没有元素
-
均衡(Balance):若任意因素的各个水平在所有单元格中出现的次数相同,且每个单元格内的元素个数相同则为均衡,否则为不均衡(不均衡则复杂,模型需要做特殊设置)
-
协变量(Covariates):即需要被控制的连续变量类型的自变量(简称控制变量)
-
交互作用(Interaction):多个因素多中水平形成的交叉单元对因变量有显著差异,则认为有交互作用,而且每个单元内必须大于2个元素(原则上大于30个才有统计意义)
-
固定因素(Fixed Factor):该因素的所有水平都在样本中体现,例如:性别分男女都出现在样本中
-
随机因素(Random Factor):该因素的可能取值在样本中没有全部出现,例如:学历只有本科和研究生,所以需要估 计没有出现的水平对因变量的影响
1.4.8.3 两种方差检验示例
第一种:单因素方差检验
检验某一个自变量对因变量的影响,例如:学历对收入的影响
注意:一般如果分析结果是自变量和因变量有显著性差异,但是还需要做两两比较(独立样本t检验)以分析两两之间是否有差异,但是两两比较会有一个弊端:增加了犯第一类错误的概率(因为0.95 ^ n 次方 < 0.95,所以犯一类错误概率就提高了)
第二种:多因素方差检验
检验若干个因素的改变是否会给因变量带来显著影响
双因子:
因素A:辅导课程:三种水平
因素B:院校:三种水平
检验假设:
H01:自变量A对因变量没有影响
H02:自变量B对因变量没有影响
H03:自变量A和自变量B之间没有交互作用,即两种因素不同交互水平对因变量没有影响(一般不考虑三种因素的交互影响)
1.4.8.4 方差检验SPSS操作
1.4.8.4.1单因素方差分析
分析–>比较平均值–>单因素ANOVA检验
示例重默认数据符合正态分布,以及自变量多组之间的方差一致性
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-7iahC1Nk-1625839333629)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625064176777.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-gfr640EY-1625839333630)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625064362741.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-odEG42Sl-1625839333631)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625064433826.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-RflB18wj-1625839333632)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625064587475.png)]
因为方差齐性检验不相等,所以需要看两点:
1.ANOVA结果不需要看了
2.两两比较的LSD方法不能看,只能看塔姆黑尼方法的结果
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qPWkXeZm-1625839333633)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625064801983.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qKCiWab8-1625839333636)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625064977822.png)]
1.4.8.4.2多因素方差分析
分析–>一般线性模型–>单变量
一个因变量,多个自变量
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-upU2OTCo-1625839333637)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625065607835.png)]
模型选项的设置:
全因子模型:即考虑所有自变量的直接效应,还考虑所有分类变量之间的交互作用对因变量的影响
定制模型:可根据需求只考虑部分自变量的直接效应,以及部分分类自变量之间的交互作用
注意:当自变量特别的,尤其是分类自变量,而且样本量很少的时候,就应该使用定制模型,因为自变量太多交互作用就越复杂,数据量少的时候又会出现部分单元里面可能存在没有元素的情况
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-U4yxSkms-1625839333638)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625066315026.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-oNyWdPlq-1625839333639)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625066565562.png)]
二:多指标统计
2.0多变量分析方法的选择
有监督模型具有两大通用目的:
1.分析哪些自变量对因变量存在显著影响
2.通过使用对因变量存在显著影响的自变量,来建立因变量取值的预测模型(回归预测/分类预测模型)
无监督分析方法目的:
1.对人进行分分类
2.对变量/指标分类
3.分析变量与变量之间的测量关系
但是:没有客观的方法去判断无监督模型结果的对错,甚至连判断正确的概率也没有
多变量分析方法的选择:
分析目的 | 有无因变量(目标变量) | 因变量的数据类型 | 解释变量(自变量) | 示例 | 模型名称 |
---|---|---|---|---|---|
<有监督> 使用多个要素来预测,解释,判断(使用数学公式描述由多个原因引起的结果) |
有 | 连续变量 | 连续变量 | 回归分析 / 方差分析 | 回归预测模型 |
同上 | 有 | 连续变量 | 分类变量 | 有虚拟变量的回归分析 / 方差分析 / 联合分析 | 回归预测模型 |
同上 | 有 | 分类变量 | 连续变量 | 判别分析/逻辑回归/probit analysis | 分类预测模型 |
同上 | 有 | 分类变量 | 分类变量 | 对数线性回归 | 分类预测模型 |
<无监督模型> 想要归并相似者 想要用图表解释变量之间的关系 想要概括变量之间的关系 想要知道解释项目之间的相关关系的潜在结构 |
无 | - | 连续变量 | 因子分析(对变量/指标进行分类)/聚类分析(对人进行分类/对变量/指标进行分类) | |
同上 | 无 | - | 分类变量 | 对应分析(对人进行分类)/多维尺度法(对人进行分类) |
其他分析 | 加入潜在变量的因果关系分析模型 | 结构方程模型 |
---|---|---|
其他分析 | 基于多个候补方案的一对一比较评价模型 | 层次分析法(例:综合评价) |
其他分析:
1.当模型中需要加入潜在变量(即通过多个客观指标测量的抽象概念就是潜变量),或者需要考虑多个变量之间的因果关系时,可选择结构方程模型/路径模型/协方差分析等
2.综合评价:通过多个指标对多个评价对象进行排名,可选择层次分析/因子分析等
2.1相关分析
2.1.1相关关系分类
连续变量之间的相关关系–>皮尔逊相关系数(一般用 r 表示)
定序变量之间的相关关系–>GMMA相关系数
定类变量之间的相关关系–>Lambda相关系数
定类变量和连续变量之间的相关关系–>ETA相关系数
2.1.2常用方法
散点图
计算相关关系
2.1.3几种相关分析方法理论介绍
1.皮尔逊相关系数:用于参数估计,样本来自总体的数据分布服从正态分布
好处:消除两个连续变量的量纲的影响,即如果一个数据A100以内,一个是B1000万,那么皮尔逊公式可以消除AB量纲的影响,不会因为B的数量级造成B的影响更大
∑
i
=
1
n
(
A
i
−
A
)
‾
−
(
B
i
−
B
‾
)
(
∑
i
=
1
n
(
A
i
−
A
‾
)
2
)
(
∑
i
=
1
n
(
B
i
−
B
‾
)
2
)
\frac{\sum_{i=1}^n{(A_i-\overline{A)} - (B_i-\overline{B})}}{\sqrt{(\sum_{i=1}^n(A_i-\overline{A})^2)(\sum_{i=1}^n(B_i-\overline{B})^2)}}
(∑i=1n(Ai−A)2)(∑i=1n(Bi−B)2)
∑i=1n(Ai−A)−(Bi−B)
2.Spearman等级相关系数:非参数估计,对变量分布没有要求
用于测量两个定序变量的相关系数
3.Kendall’s tau-b等级相关系数:非参数估计,对变量的分布没有要求
用于测量两个定序变量的相关系数
2.1.4相关系数场景
1.双变量相关系数:衡量两个变量之间的相关性大小
2.偏相关系数:存在第三个变量对XY相关性的影响,所以需要使用控制变量法来衡量XY的相关性大小
3.典型相关分析:又叫规则相关分析,用来分析两组变量整体的相关性,两组变量的个数可以不同
2.1.5相关分析的SPSS操作
分析–>相关–>双变量/偏相关/典型相关性
1.双变量相关系数
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-C0fNSQrx-1625839333640)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625282403907.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-iXOcdRRP-1625839333641)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625282594173.png)]
2.偏相关
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-BN6A2z4q-1625839333642)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625282948271.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-7tUxy4kc-1625839333644)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625283031637.png)]
2.2回归分析(线性回归/非线性回归)
2.2.1回归分析的分类
普通回归分析:因变量和自变量都是连续变量
含有哑变量的回归分析:因变量是连续变量,自变量有连续变量也有分类变量(哑变量也叫虚拟变量)
Logistic回归分析:因变量是分类变量
根据自变量个数 | 根据因变量类型 | 根据自变量和因变量的类型 |
---|---|---|
一元回归 | 连续变量的回归 | 线性回归 |
多元回归 | 分类变量的回归 | 非线性回归 |
2.2.2回归方法选择
目的:当需要使用数学模型解释因变量和自变量的关系时就使用回归分析
1.判断哪些自变量对因变量有影响(不要求R方值>0.8)
2.选择对因变量有显著影响的自变量来建立预测的数学模型(必须要求R方值>=0.8)
2.2.3回归分析过程
1.回归分析前提判断:
线性趋势:使用散点图判断,如果是线性关系则采用线性回归,否则不能使用线性回归
独立性:因变量Y的取值相互独立,之间没有联系,反映到模型中就是要求残差间相互独立,不存在自相关,否则应采用自回归模型
正态性:自变量的任何一个线性组合,因变量Y都要服从整体分布,反映到模型中要求残差需要服从正态分布
方差齐性:自变量任何一个线性组合,因变量Y的方差均相同,反映到模型中要求残差的方差齐性
多元线性回归的步骤:
步骤 | 步骤 | 方法 |
---|---|---|
1 | 确定变量 | 自变量:根据前人研究成果以及个人经验 因变量:根据需求 |
2 | 确定变量关系 | 首先:通过每一个自变量和因变量分别画散点图确认是线性还是非线性 其次:通过卡方检验/t检验/方程检验或相关分析法,挨个分析每个备选的自变量与因变量之间是否存在显著的相关性,将与因变量明显没有相关性的自变量剔除掉,不加入后期模型中 |
3 | 建立回归方程 | 1.线性方程 2.非线性方程(二次/三次/指数/对数/S型增长曲线等) |
4 | 对模型进行全方位检验 | 1.多重共线性检验:检验自变量之间知否存在相关性较高,如果有则需要剔除,只保留一个相关性最高的自变量(方法有:相关分析法,VIF/容忍度) 2.模型拟合优度检验: 方差检验:检验自变量与因变量是否存在显著影响 判定系数(R方):R方越大表示自变量对因变量的解释n能力越高 残差检验:用于回归分析前提判断中,有残差正态性检验,DW检验,异方差检验 自变量参数检验:参数估计方法-普通最小二乘法和极大似然估计MLF |
5 | 预测 | 通过自变量和建立的模型进行因变量预测 |
2.2.4回归分析前的SPSS操作
2.2.4.1选择自变量
目的:分析影响收入的因素,建立预测模型
因变量:收入
备选自变量:年龄(连续)/工作年限(连续)/学历(分类)/性别(分类)
第一步:判断年龄是否可以作为自变量
1.使用年龄和收入画散点图,但是看不出相关性
2.判断相关关系,分析–>相关–>双变量 , 得出皮尔逊相关系数和双尾概率P,P<0.05,即说明年龄和收入有显著相关性
3.根据相关关系判断年龄自变量可以使用
第二步:判断工作年限是否可以作为自变量
同年龄的判断步骤相同,找到皮尔逊相关系数和概率P值<0.05,判断工作年限是否满足自变量要求
第三步:判断学历/性别(分类变量和因变量的相关关系)
1.先画散点图,一般看不出相关性
2.分析–>统计描述–>交叉表–>统计–>ETA相关系数(判别分类变量和连续变量的相关性)
2.2.4.2虚拟变量的转换
目的:因为分类变量无法直接参与回归模型中的加减乘除运算(分类变量在其他模型也一样不能做加减乘除)
方法:把原始分类全部转换成0/1的数值,类似于矩阵法
例如学历:
方式一:ONE-HOT
学历 | 高中 | 本科 | 研究生 |
---|---|---|---|
虚拟变量E1(代表高中) | 1 | 0 | 0 |
虚拟变量E2(代表本科) | 0 | 1 | 0 |
虚拟变量E3(代表研究生) | 0 | 0 | 1 |
方式二:N-1
即使用一中水平当成参考值,假如有3个水平,那么就会创建N-1=3-1=2个虚拟变量
学历 | 高中(对照组) | 本科 | 研究生 | 方程 |
---|---|---|---|---|
使用高中作为参考 | 高中:y = ax | |||
虚拟变量E1(代表本科) | 0 | 1 | 0 | 本科:y=ax+a1 |
虚拟变量E2(代表研究生) | 0 | 0 | 1 | 研究生:y=ax + a2 |
虚拟变量转换SPSS操作
转换–>重新编码为不同变量
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-TWHKWEtF-1625839333645)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625306856783.png)]
2.2.5线性回归SPSS操作
分析–>回归–>线性
需要把转换后的全部虚拟变量放进自变量中(因为自变量只允许连续变量/0,1的虚拟变量)
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-VJYxmmle-1625839333646)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625308177411.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-7GinClXe-1625839333647)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625308237700.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-L6nmsyeo-1625839333648)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625308279359.png)]
结果解读:
1.拟合优度检验:R方值 和 方差检验F值
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-URAyceqi-1625839333649)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625308614250.png)]
2.参数显著性检验
根据每个自变量t值对应的概率P值是否小于0.05,当P<0.05,则说明该自变量对因变量存在显著影响/显著相关
然后通过标准化系数判断每个自变量对因变量影响程度的大小
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-NnYsOs56-1625839333650)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625309209060.png)]
3.共线性检验
看VIF值>10则说明自变量之间存在共线性,如果存在共线性则需要选择逐步回归法消除共线性的影响
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6mJEoYAq-1625839333651)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625309330327.png)]
4.残差检验-是否服从正态分布
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-RkcKykln-1625839333652)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625309457148.png)]
5.残差检验-是否存在自相关性
当DW=2,则不存在自相关性
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-0RthSY4D-1625839333653)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625309580719.png)]
使用步进法:剔除对因变量没有显著影响的自变量(例如:年龄和性别)
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-tnqoiTpP-1625839333654)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625309799704.png)]
结果解读:
只保留工作年限和两个学历,但是学历是一个整体,所以这个模型就有缺陷,需要强制使用所有学历
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-MRRhSwRA-1625839333656)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625310014473.png)]
模型方程:y = 34.601+6.021x 工作年限 - 62.647x学历1 - 36.379x学历2
强制使用所有学历:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-pm1a3qsy-1625839333657)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625310352209.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-hbqkgeJf-1625839333657)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625310428215.png)]
结果解读:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-y9n5456I-1625839333658)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625310644685.png)]
模型公式:y = 22.629 + 6.087x工作年限 - 51.637x学历1 - 25.174x学历2 + 16.717x学历4 + 28.459x学历5
2.2.6非线性回归
求解方式:
1.线性转换(把非线性方程转成线性方程):因为非线性方程的拟合方法和参数初始值设置均会导致求出的结果并非全局最优解
2.直接建立非线性方程,求解非线性模型
注意:
1.参数初始值设置:通过猜测或者前人的研究成果来选择,一般会重复多次,最终选择R方值最大的
2.拟合方法的选择:第一种是SQP(默认选择) , 但是其适合简单模型,第二种是LM
2.2.7非线性回归SPSS操作
1.画散点图,判断是否符合线性模型/非线性模型
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-CvgNxDJB-1625839333659)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625311857516.png)]
2.建立曲线模型
分析–>回归–>曲线估计
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-00JvhedS-1625839333660)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625311990778.png)]
结果解读:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-2YmNWW5h-1625839333661)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625312197972.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-QWaaijFL-1625839333663)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625312339802.png)]
方程: y = e^x
3.建立非线性方程
分析–>回归–>非线性
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-3SbmVDDT-1625839333664)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625312740696.png)]
结果解读:
看迭代次数和结果,说明参数a=1 b=1 是最优解
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-F9FA7DYn-1625839333665)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625312834905.png)]
2.3因子/主成分分析(属于无监督分析方法)
主成分分析只是因子分析里的其中一种提取因子的方法(分析–>降维–>因子–>提取–>方法中可以选择使用主成分)
2.3.1因子分析的目的和使用场景
直接目的:
-
降维
为什么要降维? 因为变量之间可能存在相关性/相似性,相似性越高,其重叠的信息越多,所以需要降维处理
使用场景:
-
降维后综合分析:
通过多指标降维之后得出一个综合指数,最后按照综合指数进行排名
-
效度校验:探索性因子分析(效度检验即有效性检验)
想要在心理尺度的许多变量之间,归纳出相似的东西
例如:通过20个客观指标(显变量),去判断幸福指数(潜变量) , 这里使用效度检验的是这20个指标对幸福指数的检验的有效性,哪些指标可以代表幸福指数,然后把有效的指标保留下来再进行降维
-
降维后做其他分析:消除变量之间的相关性/共线性
例如:回归分析中需要消除自变量之间的多重共线性(上面回归分析的操作上是用逐步回归法消除变量之间的共线性的)
2.3.2因子分析前提
样本量:
-
样本量与变量数的比例大于5:1 , 即行:列 大于 5:1
-
总样本量不得少于100,原则上越大越好
各变量之间必须有相关性/相似性(因为若无相关性就没有必要做因子分析,这是因子分析的目的)
- KMO统计量: 0.9最佳,0.7尚可,0.6较差,0.5以下放弃
- Bartlett球形检验:若相关矩阵为单位矩阵,则因子分析无效(根据P值<0.05)
2.3.3因子旋转
旋转目的:
- 因为有部分变量无法清晰的归类于哪一个因子(维度),所以需要因子旋转,把变量更好的划分
- 消除提取的因子之间的相关性
选择方法:
-
正交旋转:最常用,因为正交之后因子之间就没有相关性了
- 方差最大正交旋转
- 一般正交旋转
-
斜交旋转:斜交旋转之后因子之间还会存在较弱的相关性
- promax旋转:
- oblimin旋转:
2.3.4因子的解释和得分计算
因子的解释即因子命名:如何把多个变量归为一个变量,之后如何对这个因子进行命名解释
因子得分计算:因为降维之后的维度需要有数据,才能用于降维之后的其他分析(注意:降维之后做其他分析则不再使用降维之前的数据做)
F
=
Z
R
−
1
A
F
:
因
子
得
分
矩
阵
(
n
人
∗
m
因
子
,
已
经
进
行
标
准
化
)
Z
:
变
量
的
标
准
化
得
分
矩
阵
(
n
人
∗
p
个
变
量
)
R
−
1
:
相
关
矩
阵
的
逆
矩
阵
A
:
旋
转
后
的
因
子
载
荷
矩
阵
F = ZR^{-1}A \\ F:因子得分矩阵(n人*m因子 ,已经进行标准化) \\ Z:变量的标准化得分矩阵(n人*p个变量) \\ R^{-1}:相关矩阵的逆矩阵 \\ A:旋转后的因子载荷矩阵
F=ZR−1AF:因子得分矩阵(n人∗m因子,已经进行标准化)Z:变量的标准化得分矩阵(n人∗p个变量)R−1:相关矩阵的逆矩阵A:旋转后的因子载荷矩阵
2.3.5因子分析SPSS操作
分析–>降维–>因子
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-xFKlp3qL-1625839333666)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625404072371.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-GLlvWY5f-1625839333667)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625404105512.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-emb0lgo1-1625839333668)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625404289246.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Xt2Zcr1Q-1625839333669)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625404378387.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-3cO67hGA-1625839333670)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625404512640.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-mNoeLHU4-1625839333671)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625404625981.png)]
2.3.6 SPSS结果解读
-
KMO值一般0.7以上尚可做因子分析
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-gj1cQ091-1625839333671)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625404791001.png)]
-
看累计方差贡献率,筛选因子数量
如果是做综合评价则需要大于80%
如果是做效度检验或其他分析则60%以上即可
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-nR8nPzyU-1625839333672)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625405356970.png)]
-
旋转前看因子代表哪些变量
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-1OlIs0Ie-1625839333673)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625405778863.png)]
-
旋转后看因子代表哪些变量
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-7GacT0hV-1625839333674)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625405847574.png)]
5.假如做效度检验,则如何判断?
判断标准:
-
每个变量有且只有一个因子载荷值大于0.5,如果所有因子载荷值都小于0.5,则说明该变量不具有收敛效度,即不可以和其他变量放在一起,需要剔除
-
变量在两个或以上的因子载荷值同时大于0.5,则说明该变量不具有区分效度,即无法划分该变量属于哪个维度,需要剔除
-
某变量单独成为一个因子,即该变量无法和任何变量划分为同一维度,则不具有收敛效应,也应该剔除掉
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Uv05n01A-1625839333676)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625406468525.png)]
6.标准化前的因子得分计算方式
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-a6jtSZvh-1625839333676)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625406957163.png)]
-
7.标准化之后的因子得分
已经更新在数据表上了
标准化之后的数据列复合(0,1)的正态分布
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qwEUA33e-1625839333678)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625407042164.png)]
8.总得分如何计算?(用法:用于综合评价排序)
f = (因子1未标准化的值 * 因子1的方差贡献率 + 因子2未标准化的值 * 因子2的方差贡献率+…) / 总贡献率
除以总贡献率的目的时为了保证权重的和=1
根据总因子得分f进行排名
2.4 logistic回归(有监督模型)
2.4.1 logistic回归应用场景(分类预测)
属于非参数检验法,可以做分类预测(二分类/无序多分类/有序多分类)
目标变量(因变量) | 解释变量(自变量,可以是分类/连续变量,且分类变量无需手动转成虚拟变量,因为可以自动转换) |
---|---|
重度用户和轻度用户区别 | 用户年龄,性别,收入 |
使用产品A和使用产品B用户得区别 | 用户年龄,性别,收入 |
2.4.2 logistic回归的原理
二分类中因变量的取值只能是0/1 , 而P值代表因变量=1的时候的概率值
l
n
(
P
1
−
P
)
=
β
0
+
β
1
X
1
+
β
2
X
2
+
ϵ
ln(\frac{P}{1-P}) = β0+β1X1+β2X2+\epsilon
ln(1−PP)=β0+β1X1+β2X2+ϵ
二分类:因变量取值0/1
无序多分类:因变量取值1/2/3… , 没有哪个序号表示更大或者更小
无序多分类实际上是取一个分类作为对照组,其他每一个分类都和对照组进行多个二元逻辑回归
有序多分类:因变量取值1/2/3…,这里有高低之分(例如:年龄/收入等)
有序多分类实际上也是多个二元逻辑回归,例如: 1/(2,3) , (1,2)/3 … 按照从左到右切割成两个组(n-1个二元回归)
2.4.3 二元逻辑回归SPSS操作
分析–>回归–>二元Logistic回归
因变量必须是0/1取值的二分类变量
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-RqW7S7GF-1625839333679)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625490271144.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-KybB4pQz-1625839333680)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625490533034.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-4PUjHu9N-1625839333681)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625490634863.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Hi9MJASG-1625839333682)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625490709903.png)]
结果解读:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-uDMyquSi-1625839333682)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625490992790.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ieOVP1Rr-1625839333684)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625491397281.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-vKdhYuym-1625839333684)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625491576191.png)]
判断自变量对因变量的影响:
显著性P<0.05则自变量对因变量有显著影响
根据Wald值看自变量的因变量影响的大小
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-FWnPka7t-1625839333685)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625493353347.png)]
由于上述结果存在性别和其他学历对因变量没有影响的原因,所以需要使用 向前:瓦尔德 的方式,剔除没有影响的自变量:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ktChJb5l-1625839333687)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625493460160.png)]
第二次结果解读:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-fqGYZkXv-1625839333687)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625493747086.png)]
再来一次强制使用学历:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-36ZbYBnz-1625839333688)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625493814318.png)]
第三次结果解读:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-96ydXjWT-1625839333690)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625493972356.png)]
优势比 OR 值大于1 表示该自变量会增加因变量取1的概率发生(即退休的概率),反之会降低其发生的概率:
优势比 = P / (1-P) , P代表因变量取值为1的概率
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-M1QTqqUV-1625839333691)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625494227323.png)]
最后一步:方程解读:
借用上面的图:
ln(P/(1-P)) = -20.735+0.329 * 年龄 - 0.754 * 学历1 - 0.508 * 学历2 - 2.055 * 学历3 - 1.765 * 学历4
根据上面公式计算出是否退休的概率,数据已经在SPSS的数据列了:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-chiCAwo6-1625839333692)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625495172711.png)]
2.4.4 无序多分类(无序多元逻辑回归)SPSS操作
分析–>回归–>多元Logistic回归
因变量是无序多分类类型(1/2/3/4/5)
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-VmIlVLbQ-1625839333692)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625496637741.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-w03drqkU-1625839333693)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625496916440.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-qcnnfVoW-1625839333695)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625497015678.png)]
结果解读:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-L5MlhqSu-1625839333696)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625497103990.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-cSVZxV9p-1625839333696)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625497213775.png)]
下面是两个二元逻辑回归,所以结果需要写两条方程:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Huvbd9qg-1625839333698)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625497470214.png)]
注意:上面结果中存在对因变量没有影响的自变量,但是又没有步进法等方式自动剔除,所以需要手动剔除
手动剔除:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-MtRaVkeu-1625839333699)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625497678989.png)]
最后保存的数据:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-A1zeq8C1-1625839333700)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625497736159.png)]
2.4.5 有序多分类(有序多元逻辑回归)SPSS操作
分析–>回归–>有序回归
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-pX440P3K-1625839333701)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625576651385.png)]
平行线检验:用于判断是否可以建立有序多分类
建立有序多分类的前提:无论在因变量哪个位置切割进行的二元逻辑回归,自变量对因变量的影响是不变的
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-FQz9JG2u-1625839333702)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625576876919.png)]
结果解读:
1.看平行线检验结果:H0原假设就是无论如何切割,自变量对因变量的影响是相同的
所以:如果P>0.05,则原假设成立
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-v7S9Gfn2-1625839333703)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625577232671.png)]
2.看哪些自变量对因变量有影响
性别和婚姻对因变量没有影响,手动剔除再做一次检验
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-MsSIejHY-1625839333704)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625577385155.png)]
3.剔除性别和婚姻之后的结果:
平行线检验任然ok
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-Tr0u9VgE-1625839333705)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625577462013.png)]
最终模型解读:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-nJu5uPbk-1625839333706)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625577781252.png)]
因为切割了4次,所以需要建立四个模型
模型1:ed=1
ln(p/(1-p)) = -2.494+0.003 * 收入 - 0.032 * 年龄 (这个p代表学历为1 的概率)
模型2:ed=1,2
ln(p/(1-p)) = -1.110+0.003 * 收入 - 0.032 * 年龄 (这个p代表学历为1,2 的概率)
模型3:ed=1,2,3
ln(p/(1-p)) = -0.193+0.003 * 收入 - 0.032 * 年龄 (这个p代表学历为1,2,3 的概率)
模型4:ed=1,2,3,4
ln(p/(1-p)) = 1.649+0.003 * 收入 - 0.032 * 年龄 (这个p代表学历为1,2,3,4 的概率)
预测结果:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-9ZM6eIrv-1625839333708)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625578315573.png)]
2.5时间序列分析(属于回归分析的一种)
按照时间顺序,寻找规律,预测将来的走势!
2.5.1 时间序列的原理和方法
纯时间序列方法:
移动平均:用最近几项数据均值进行预测
简单指数平滑法:用最近几项数据的加权均值进行预测(每个数据增加一个权重再算均值)
趋势调整的指数平滑法:简单指数平滑法+趋势估算
趋势季节调整的指数平滑法:在简单指数平滑法+趋势估算+季节因子
ARIMA:把上面的因素考虑在内,建立综合模型
因果时间序列方法:
Multivariate ARIMA:这个模型可以判断格兰杰应该关系是否成立,所以叫因果时间序列
格兰杰因果关系成立的三个前提:
1. AB两个时间存在相关关系
2. 原因A必须发生在结果B之前
3. 排除其他干扰因素(没有A会不会导致B,或者A+C=B?)
2.5.2 ARIMA模型(Autoregressive Integrated Moving Average 向量自回归差分移动平均模型)
ARIMA模型建立的前提:时间序列必须是平稳序列
什么是平稳序列?
平稳性主要是指时间序列的所有统计性质都不会随着时间的推移而发生变化
1. 均值和方差不随时间变化
2. 自相关系数(通过特定的时间偏移得到两份数据,新数据和原数据的皮尔逊相关系数就是自相关系数)只与时间间隔有关,与所处的时间点没有关系
如何判断平稳?
单位根PDF来判断是否平稳
不平稳怎么办?
可以通过差分进行转换(一阶差分:根据时间排序,当前时间的数据-前一个时间的数据的差值,组成的序列)
如果一阶差分还是不平稳,可以在一阶差分的数据上再做差分(结果就是二阶差分),一般三阶差分都会平稳了
2.5.3 ARIMA模型适用场景
该模型适用于连续性的数据变量预测
既适用于平稳序列也适用于非平稳序列
该模型需要考虑两个重要因素:
趋势:随时间变化呈现的规律现象
季节性:会根据固定周期呈现周期性循环变化
2.5.4 ARIMA中的AR模型(向量自回归模型)
向量自回归指的是自己预测自己
通过时间间隔之后的数据当成自变量,例如:过去一个月为自变a,过去两个月为自变量b…
原数据作为因变量,和自变量a/b建立的二元一次线性方程,去预测未来的数据
AR模型的优劣势:
优势:可以预测出较准确的周期性/季节性
劣势:对波峰波谷的数据较差(特别是有趋势的数据)
2.5.5 消除不平稳性(不平稳指的是有向上或者向下的趋势变化的数据)
通过差分的方法
如果一阶差分还不行,那么可以使用二阶差分,或者三阶差分(在一阶差分的基础上再做差分)
时间 | 原始数据 | 间隔一个时间单位的数据 | 差分序列 |
---|---|---|---|
t | 10 | 20 | 10-20 |
t-1 | 20 | 30 | 20-30 |
t-2 | 30 | 40 | 30-40 |
t-3 | 40 | - | - |
2.5.6 如何判断数据的周期/季节的大小
通过自相关系数 ACF 可以判断数据的周期
自相关系数图的时间拐点 * 4 = 周期大小
2.5.7 如何消除季节性的影响(就是周期的波峰波谷)
通过移动平均法可以消除数据的季节性造成的波峰波谷的影响
2.5.8 ARIMA模型如何选择
ARIMA模型分类:
AR模型:自相关系数拖尾,偏自相关系数截尾
MA模型:系相关系数截尾,偏自相关系数拖尾
ARMA模型:自相关系数和偏自相关系数都是拖尾
自相关系数:ACF
偏自相关系数:PACF
如何看图判断是拖尾还是结尾:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-fz0zPY1L-1625839333709)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625584756119.png)]
2.5.9 SPSS操作
2.5.9.1 数据准备:
-
自定义时间(因为SPSS不能识别yyyy/mm/dd这样的格式)
-
方式:数据–>定义日期和时间
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-iC1jDgw5-1625839333709)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625750016859.png)]
2.5.10 自相关性(ACF)和偏自相关(PACF)
分析–>时间序列预测–>自相关
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-3Y9L9iLv-1625839333710)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625750866793.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-TVIxxCvL-1625839333711)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625751091116.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-1oU8UTgo-1625839333712)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625751150965.png)]
2.5.11 序列图
目的:看数据的趋势,是否有向上/向下的趋势
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-My34SNfF-1625839333713)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625751400468.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-gjMqBOlU-1625839333714)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625751491787.png)]
2.5.12 频谱分析
目的:分析数据的震动频率和震动幅度,类似声波那样
用法:第二种判断数据的周期性 方法
2.5.13 普通ARIMA模型SPSS操作
分析–>时间序列预测–>创建穿透模型
- 自变量和模型选择
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-khnLCAz9-1625839333715)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625753892879.png)]
-
统计
目的:选择哪些指标来判断模型的好坏
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6VjEDrgX-1625839333716)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625754025551.png)]
-
图
目的:选择常用于分析的图
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-hwZzgjez-1625839333717)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625754108629.png)]
-
保存
目的:可以把预测的数据保存到文件中,也可以保存模型文件,下次使用可以直接打开
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-HWUvqhgq-1625839333719)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625754278143.png)]
-
选项
目的:选择预测的范围到哪个日期
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-GsemR2Ik-1625839333720)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625754572714.png)]
2.5.14 普通ARIMA模型的结果解读(这里系统使用的是指数平滑法)
-
模型(除了系统选择的模型,还有其他模型吗?)
从模型解释中可以得出结果:数据具有趋势性,但是额米有明显季节性
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-fkhVVCxu-1625839333721)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625754809466.png)]
所有模型+模型解释:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-jJyUtiQU-1625839333722)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625754882271.png)]
-
判断模型好坏
杨-博克斯(Ljung-Box) Q检验,显著性越大说明模型越好
H0:模型可以很好的拟合原始数据
所以:P>0.05则模型拟合效果可以接受,P值越大模型越好
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-lSCMVanx-1625839333723)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625755365813.png)]
-
图的预测和拟合值
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-EmuBgYkF-1625839333723)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625755489456.png)]
2.5.15 强制使用ARIMA模型
在条件选项中选择仅限ARIMA模型
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-U6HlFgYt-1625839333725)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625755655567.png)]
2.5.16 强制使用ARIMA模型的结果解读
-
参数(P I Q )
P:代表滞后性
I:代表多少阶差分
Q:
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-FgnlIHQU-1625839333726)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625755980189.png)]
-
对比两种模型的效果
数据1/2:使用ARIMA模型更好
数据3:使用霍尔特模型更好
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-FNMWK13N-1625839333727)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625756094671.png)]
-
ARIMA模型的方程解读(使用第二次结果的数据)
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-7HbrbaZ9-1625839333727)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625756135060.png)]
Market1 模型_1 的方程: Yt = 8.579 + 0.999 * Yt-1 + 0.633 * Yt-12 (这里t-12 是因为季节性是以12个月为一个周期)
-
图
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-QXypUAt2-1625839333728)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625756486137.png)]
-
预测值的查看
目的:选择了在数据中保存了设置预测时间的预测值
上面操作的时候就是选择了预测从最大日期1995年12月 到 1996年12月的数据,所以结果如下
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-2eCM5Wkc-1625839333729)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625756824542.png)]
2.5.17 还有一种选择:是否考虑季节性
目的:假如上面两次结果对比之后,找出更好的模型,然后再尝试一下不考虑季节性再对比效果
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-fCOPSo6d-1625839333730)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625756609772.png)]
2.5.18 因果关系ARIMA的SPSS操作
分析–>时间序列预测–>创建时间因果模型
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-e7Iiqpvw-1625839333731)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625836860806.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-m8Lnb6xy-1625839333732)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625837382228.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-yKL0jpFQ-1625839333733)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625837511933.png)]
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-ZaFK090F-1625839333734)(C:\Users\93095\AppData\Roaming\Typora\typora-user-images\1625837593176.png)]
目的:选择常用于分析的图
[外链图片转存中…(img-hwZzgjez-1625839333717)]
-
保存
目的:可以把预测的数据保存到文件中,也可以保存模型文件,下次使用可以直接打开
[外链图片转存中…(img-HWUvqhgq-1625839333719)]
-
选项
目的:选择预测的范围到哪个日期
[外链图片转存中…(img-GsemR2Ik-1625839333720)]
2.5.14 普通ARIMA模型的结果解读(这里系统使用的是指数平滑法)
-
模型(除了系统选择的模型,还有其他模型吗?)
从模型解释中可以得出结果:数据具有趋势性,但是额米有明显季节性
[外链图片转存中…(img-fkhVVCxu-1625839333721)]
所有模型+模型解释:
[外链图片转存中…(img-jJyUtiQU-1625839333722)]
-
判断模型好坏
杨-博克斯(Ljung-Box) Q检验,显著性越大说明模型越好
H0:模型可以很好的拟合原始数据
所以:P>0.05则模型拟合效果可以接受,P值越大模型越好
[外链图片转存中…(img-lSCMVanx-1625839333723)]
-
图的预测和拟合值
[外链图片转存中…(img-EmuBgYkF-1625839333723)]
2.5.15 强制使用ARIMA模型
在条件选项中选择仅限ARIMA模型
[外链图片转存中…(img-U6HlFgYt-1625839333725)]
2.5.16 强制使用ARIMA模型的结果解读
-
参数(P I Q )
P:代表滞后性
I:代表多少阶差分
Q:
[外链图片转存中…(img-FgnlIHQU-1625839333726)]
-
对比两种模型的效果
数据1/2:使用ARIMA模型更好
数据3:使用霍尔特模型更好
[外链图片转存中…(img-FNMWK13N-1625839333727)]
-
ARIMA模型的方程解读(使用第二次结果的数据)
[外链图片转存中…(img-7HbrbaZ9-1625839333727)]
Market1 模型_1 的方程: Yt = 8.579 + 0.999 * Yt-1 + 0.633 * Yt-12 (这里t-12 是因为季节性是以12个月为一个周期)
-
图
[外链图片转存中…(img-QXypUAt2-1625839333728)]
-
预测值的查看
目的:选择了在数据中保存了设置预测时间的预测值
上面操作的时候就是选择了预测从最大日期1995年12月 到 1996年12月的数据,所以结果如下
[外链图片转存中…(img-2eCM5Wkc-1625839333729)]
2.5.17 还有一种选择:是否考虑季节性
目的:假如上面两次结果对比之后,找出更好的模型,然后再尝试一下不考虑季节性再对比效果
[外链图片转存中…(img-fCOPSo6d-1625839333730)]
2.5.18 因果关系ARIMA的SPSS操作
分析–>时间序列预测–>创建时间因果模型
[外链图片转存中…(img-e7Iiqpvw-1625839333731)]
[外链图片转存中…(img-m8Lnb6xy-1625839333732)]
[外链图片转存中…(img-yKL0jpFQ-1625839333733)]
[外链图片转存中…(img-ZaFK090F-1625839333734)]
下一篇: 统计学基础之一:集中趋势、样本和方差