欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

《白话统计学》读书笔记

程序员文章站 2022-07-11 09:46:23
...

变异

  1. 在没办法知道宏观总体变化的情况下,我们通过自己能够得到的具体抽查样本来预测宏观总体是什么样子的。
  2. 统计学上的四个基本参数
  • 样本与总体:即具体的抽样是样本。用来预测的宏观群体是**总体
  • 样本统计量与总体参数: 通过样本计算出来的结果为样本统计量宏观总体的实际结果为**总体参数
  1. 抽样误差
    不同的样本统计量之间的差异为抽样误差

比如计算身高的时候,如果进行十次抽样,可以得到十个平均身高,那么在这10个平均身高之间的差异就是抽样误差。
由于抽样误差的存在,如果用样本统计量估计总体参数,则肯定会有一定的偏差,所以估计总体参数时需要考虑这种偏差大小,即可用置信区间来估计总体参数。对于置信区间的解释是,这个置信区间包含了总体参数。
现实生活中我们不可能通过多次抽样进行抽样误差的估计,因此可以通过一次抽样来计算抽样误差的大小,这就是标准误
如果标准误小,则说明抽样误差小,这就意味着样本很稳定,对总体的代表性好

概率分布

  1. 累计分布概率密度
  • 按照作图来说的话,累计分布纵坐标是0-100%。随着程度的加深。最后到了100%。而概率密度而言,则是相对于累计分布每个点的速度(斜率),其曲线下面积代表了累计分布指数。

关于统计资料的几点思考

1.寻找cutoff值的几种方法

  • 利用专业知识和实际经验
  • 利用广义可加模型结合专业来划分
library(mgcv)
fit = gam(hyper~s(age),data = fil, family = binomial)
summary(fit)
plot(fit, se = T)
  • 利用ROC曲线进行划分
library(pROC)
rr = roc(fl$y, fl$x)
plot(r, print, thres = T, print.auc = T)
  • 使用最大选择秩统计量来划分
library(maxstat)
c = maxstat.test(y~x,dataset, pmethod = "HL")
plot(c)
###如果结局是生存资料的话
c = maxstat.tes(Surv(time, status) ~x , dataset, smethod = "LogRank", pmethod ="HL")
  • 利用分类树来划分
library(rpart)
c = rpart(y~x, dataset, method = "class")
plot(c, branch = 0)
text(c, use, n = T, fancy = T, col = "blue")
  • 聚类进行划分
  1. 关于哑变量
  • 对于分类变量而言,计算之前统计关系的时候,默认的会看成等级关系。但是实际上并不是等级的关系。因此需要用设置哑变量。

所谓的哑变量,就是把原来的一个多分类变量转换为多个二分类变量。

如何正确的展示你的数据
  1. 使用Z值比较数据

Z值(标准化)的计算公式为(x - 均值)/标准差。数据一旦标准化,就都成了以0为均数,以1为标准差的标准正态分布。

  • Z值的两种用途
    1. 比较不同单位的指标。通过Z值的转换比较不同单位那个大那个小。
    2. 判断异常值。一般而言,在标准分布中大于3倍的数据可以定义为异常值。(只适用于正态分布,偏态不行)
  1. 中心化, 每个原始数据减去其均数后得到的值为中心化
  2. 离均差、方差和标准差—变异的度量
  • 均数可以反应一个样本的平均水平。但是不能反应不同样本之前的变异程度。
  • 离均差代表每个样本距离均值的大小。但是离均差有正有负没办法比较,因此需要进行平方这就是离均差平方。离均差平方相加即可得到离均差平方和。由于平方和会随着数据的增多变大不方便理解,因此用平方和除以样本数则为方差。由于之前是经过平方算出来的结果。因此对方差进行开方得到标准差
中心极限法则

中心极限法则的理论含义是:假定有一个总体数据,如果从改总体中多次抽样,那么理论上,每次抽样所得的统计量(均数)以总体参数(均数)应该差别不大,大致围绕在总体参数为中心,并且呈正态分布。
通过中心极限发现我们发现,如果每次抽取的样本量越大的时候,越容易得到接近总体参数的统计量。

假设检验

在假设检验中容易出现的是两种错误,一类错误及二类错误。目前习惯上把I型错误设为0.05,把II型错误设为0.1或0.2
power(把握度/功效) = 1 - II类错误。

置信区间估计

理论上来讲,95%置信区间的意思是,如果从一个总体中重复多次抽取不同的样本,对每一个样本都可以计算一个95%置信区间。那么我们期望会有95%的置信区间包含总体参数。

1.置信区间和P的关系

  • 一般来说,样本量越大,计算的置信区间越窄,精度越高,此时P值也会越小。
  1. 标准误

如果我们要对一个总体进行多次抽样,每一次抽样都可以得到一个均值,然后再计算着几个均值之间的标准差,那这个标准差就是标准误。它反映的是每次抽样样本之前的差异。如果标准误小,则反映了多次重复抽样得到的统计量差别不大。

3.利用bootstrap法估计置信区间

library(boot)
beta = function(formula, data, indices){
d = data[indices,]
fit  = lm(formula, data = d)
return(fit$coef[2]
}
result = boot(data = fl, statisic = beta, R = 100, formula = y~x)
boot.ci(result)