欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

统计学学习笔记-第一周

程序员文章站 2022-04-27 12:59:00
...

主要通过阅读贾俊平编写的《统计学》和网上统计学视频,及查看相关网络资料整理,为统计学学习第一周的学习笔记。

一、主要学习内容

1. 统计学基本概念

1.1.统计方法类别

统计学是收集、处理、分析、解释数据并从数据中得出结论多数据科学。统计不是万能多,它不能解决你所面临的问题,但可帮你分析数据,并从中得出某种结论,但对统计结论的进一步解释,则需要专业知识。
数据分析所用多方法可分为描述性统计方法和推断统计方法。
(1) 描述统计:数据收集、处理、汇总、图表描述、概括与分析等统计方法。
(2) 推断统计:利用样本数据来推断总体特征的统计方法。

1.2 . 统计数据类型

对不同类型数据要用不同统计方法处理分析,因此区分数据类型很重要。
(1) 分类、顺序和数值型数据:按采用计量尺度不同分类。

  • 分类数据
    只能归于某一类别的非数字型数据,用文字表述。如,人口按性别粉男女,对于统计出来,对于分类数据,可以用数字代码表示类别,比如1和0分别表示男和女。
    通常计算各组频率或频数,计算其众数和异众比例,进行列联表分析和x2检验等。

  • 顺序数据
    只能归于某一有序类别的非数字型数据。分类别且有序,如产品分为一等品、二等品、三等品、次等品等;对某事态度可分为非常同意、同意、保持中立、不同意、非常不同意等,同样,顺序数据也可以用数字代码来表示。
    计算中位数和四分位差,计算登记相关系数等;

  • 数值型数据
    按数字尺度测量观察值,为具体数值。
    计算统计量,参数估计和检验等

(2) 观测数据和实验数据:按统计数据多收集方法分类。

  • 观测数据
    通过调查或观测收集到 大数据,是没有对事物人为控制的条件下得到的。

  • 实验数据
    在实验中控制实验现象而收集到多数据。

(3)截面数据和时间序列数据:按被描述对象与时间关系,将统计数据分为截面数据和时间序列数据。

  • 截面数据
    在相同或近似相同时间点上收集的数据,这类数据通常是在不同的空间获得的,用于描述现象在某一时刻的变化情况。

  • 时间序列数据
    在不同时间收集到的数据,这类数据是按时间序列收集到的,用于描述现象随时间变化的情况。

1.3. 基本概念

(1) 总体和样本量
总体:包含所研究多全部数据的集合。总体根据所包含单位数目是否可数分为有限总体和无限总体。通常情况下,统计上多总体是一组观测数据,而不是一群人或一些物品的集合,因此每次收取一个单位,并不影响下一次的抽样结果,因此每次抽取是独立的。
样本:从总体中抽取多一部分元素的集合,目的是根据样本提供的信息推断总体的特征。
(2) 参数和统计量
参数:用来描述总体特征的概括性数字度量,是研究者想要了解的总体多某种特征值,如总体平均数、总体标准差等。
统计量:描述样本特征的概括性数字度量。是根据样本数据计算出来的一个量,由于抽样是随机的,因此统计量是样本多函数。如样本平均数、样本标准差等。抽样的目的就是要根据样本统计量去估计总体参数。
(3) 变量分类变量,顺序变量,数值型变量

2. 数据的搜集

2.1. 数据的来源

间接来源:原始数据信息已存在,我们只是加工、整理去使用的数据,一般也称为二手资料。搜集方便,数据采集快,成本低,但针对性不够
使用二手资料要注意,要了解背景,标注出处:
(1) 资料谁收集
(2) 为什么目的收集
(3) 数据怎么搜集
(4) 什么时候搜集的
直接来源:通过调查或实验获得一手资料

2.2. 调查方法

概率抽样和非概率抽样

3. 数据的图表展示

数据经过预处理以后可以根据分析结果,选择合适的图形进行展现。数据的预处理是在对数控分类或分组之前所做多必要处理,内容包括数据的审核,筛选、排序等。

  1. 线形图:趋势
  2. 条形图:分布,频数与频率
  3. 饼图:占比,频数与排序
  4. 环形图:占比,多个占比分布
  5. 茎叶图:分布,但不能表示中位数距离和散布情况
  6. 箱线图:离散程度与集中程度(最小值,箱子底部 上四分位,中位数,下四分位,箱子顶部,最大值)
  7. 散点图:两个变量之间多关系
  8. 气泡图:多变量数据展示,三个变量之间关系
  9. 雷达图:多个变量关系,显示或对比多变量多数值总和,研究样本之间多相似度

二、 python实践(箱线图)

箱形图(英文:Box plot),又称为盒须图、盒式图、盒状图或箱线图,是一种用作显示一组数据分散情况资料的统计图。因型状如箱子而得名。在各种领域也经常被使用,常见于品质管理。不过作法相对较繁琐。
箱形图于1977年由美国著名统计学家约翰·图基(John Tukey)发明。它能显示出一组数据的最大值、最小值、中位数、及上下四分位数。
统计学学习笔记-第一周
箱形图有5个参数:
下限,表示最小值;
下四分位数,又称“第一四分位数”,等于该样本中所有数值由小到大排列后第25%的数字;
中位数,又称“第二四分位数”等于该样本中所有数值由小到大排列后第50%的数字;
上四分位数,又称“第三四分位数”等于该样本中所有数值由小到大排列后第75%的数字;
上限,表述最大值。
python代码实践:
1997年我国几个主要城市各月份多平均相对湿度数据如下(单位:%),试绘制箱线图,并分析各城市平均相对湿度的分布特征。
统计学学习笔记-第一周
实现过程:

  1. 安装Anaconda
  2. 运行Anaconda
    统计学学习笔记-第一周
  3. 执行过程截图
    统计学学习笔记-第一周
  4. 具体代码
#首先导入基本的绘图包
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

#添加数据
plt.style.use("ggplot")
plt.rcParams['axes.unicode_minus'] = False
plt.rcParams['font.sans-serif']=['SimHei'] 

#新建一个空的DataFrame
df=pd.DataFrame()

 #添加数据,最后显示数据表格
df["北京"]=[49,41,47,50,55,57,69,74,68,47,66,56]
df["长春"]=[70,68,50,39,56,54,70,79,66,59,59,57]
df["南京"]=[76,71,77,72,68,73,82,82,71,75,82,82]
df["郑州"]=[57,57,68,67,63,57,74,71,67,53,77,65]
df["武汉"]=[77,75,81,75,71,74,81,73,71,72,78,82]
df["广州"]=[72,80,80,84,83,87,86,84,81,80,72,75]
df["成都"]=[79,83,81,79,75,82,84,78,75,78,78,82]
df["昆明"]=[65,65,58,61,58,72,84,74,77,76,71,71]
df["兰州"]=[51,41,49,46,41,43,58,57,55,45,53,52]
df["西安"]=[67,67,74,70,58,42,62,55,65,65,73,72]
df
 #用matplotlib来画出箱型图
plt.boxplot(x=df.values,labels=df.columns,whis=1.5)
plt.show()

5 执行结果
统计学学习笔记-第一周
6 结果分析

  • 从中位数位置看:西安各月份湿度分布比较对称,北京、长春、南京、武汉、广州、成都湿度大部分数据都分布在中位数到上四分位以上;郑州、昆明和兰州相反
  • 从箱子长短看,武汉,广州和成都全年各月湿度分布相对比较集中
  • 西安有个脱离群体的异常值
相关标签: 统计 pyhthon