统计学学习笔记-第一周
主要通过阅读贾俊平编写的《统计学》和网上统计学视频,及查看相关网络资料整理,为统计学学习第一周的学习笔记。
一、主要学习内容
1. 统计学基本概念
1.1.统计方法类别
统计学是收集、处理、分析、解释数据并从数据中得出结论多数据科学。统计不是万能多,它不能解决你所面临的问题,但可帮你分析数据,并从中得出某种结论,但对统计结论的进一步解释,则需要专业知识。
数据分析所用多方法可分为描述性统计方法和推断统计方法。
(1) 描述统计:数据收集、处理、汇总、图表描述、概括与分析等统计方法。
(2) 推断统计:利用样本数据来推断总体特征的统计方法。
1.2 . 统计数据类型
对不同类型数据要用不同统计方法处理分析,因此区分数据类型很重要。
(1) 分类、顺序和数值型数据:按采用计量尺度不同分类。
-
分类数据
只能归于某一类别的非数字型数据,用文字表述。如,人口按性别粉男女,对于统计出来,对于分类数据,可以用数字代码表示类别,比如1和0分别表示男和女。
通常计算各组频率或频数,计算其众数和异众比例,进行列联表分析和x2检验等。 -
顺序数据
只能归于某一有序类别的非数字型数据。分类别且有序,如产品分为一等品、二等品、三等品、次等品等;对某事态度可分为非常同意、同意、保持中立、不同意、非常不同意等,同样,顺序数据也可以用数字代码来表示。
计算中位数和四分位差,计算登记相关系数等; -
数值型数据
按数字尺度测量观察值,为具体数值。
计算统计量,参数估计和检验等
(2) 观测数据和实验数据:按统计数据多收集方法分类。
-
观测数据
通过调查或观测收集到 大数据,是没有对事物人为控制的条件下得到的。 -
实验数据
在实验中控制实验现象而收集到多数据。
(3)截面数据和时间序列数据:按被描述对象与时间关系,将统计数据分为截面数据和时间序列数据。
-
截面数据
在相同或近似相同时间点上收集的数据,这类数据通常是在不同的空间获得的,用于描述现象在某一时刻的变化情况。 -
时间序列数据
在不同时间收集到的数据,这类数据是按时间序列收集到的,用于描述现象随时间变化的情况。
1.3. 基本概念
(1) 总体和样本量
总体:包含所研究多全部数据的集合。总体根据所包含单位数目是否可数分为有限总体和无限总体。通常情况下,统计上多总体是一组观测数据,而不是一群人或一些物品的集合,因此每次收取一个单位,并不影响下一次的抽样结果,因此每次抽取是独立的。
样本:从总体中抽取多一部分元素的集合,目的是根据样本提供的信息推断总体的特征。
(2) 参数和统计量
参数:用来描述总体特征的概括性数字度量,是研究者想要了解的总体多某种特征值,如总体平均数、总体标准差等。
统计量:描述样本特征的概括性数字度量。是根据样本数据计算出来的一个量,由于抽样是随机的,因此统计量是样本多函数。如样本平均数、样本标准差等。抽样的目的就是要根据样本统计量去估计总体参数。
(3) 变量分类变量,顺序变量,数值型变量
2. 数据的搜集
2.1. 数据的来源
间接来源:原始数据信息已存在,我们只是加工、整理去使用的数据,一般也称为二手资料。搜集方便,数据采集快,成本低,但针对性不够
使用二手资料要注意,要了解背景,标注出处:
(1) 资料谁收集
(2) 为什么目的收集
(3) 数据怎么搜集
(4) 什么时候搜集的
直接来源:通过调查或实验获得一手资料
2.2. 调查方法
概率抽样和非概率抽样
3. 数据的图表展示
数据经过预处理以后可以根据分析结果,选择合适的图形进行展现。数据的预处理是在对数控分类或分组之前所做多必要处理,内容包括数据的审核,筛选、排序等。
- 线形图:趋势
- 条形图:分布,频数与频率
- 饼图:占比,频数与排序
- 环形图:占比,多个占比分布
- 茎叶图:分布,但不能表示中位数距离和散布情况
- 箱线图:离散程度与集中程度(最小值,箱子底部 上四分位,中位数,下四分位,箱子顶部,最大值)
- 散点图:两个变量之间多关系
- 气泡图:多变量数据展示,三个变量之间关系
- 雷达图:多个变量关系,显示或对比多变量多数值总和,研究样本之间多相似度
二、 python实践(箱线图)
箱形图(英文:Box plot),又称为盒须图、盒式图、盒状图或箱线图,是一种用作显示一组数据分散情况资料的统计图。因型状如箱子而得名。在各种领域也经常被使用,常见于品质管理。不过作法相对较繁琐。
箱形图于1977年由美国著名统计学家约翰·图基(John Tukey)发明。它能显示出一组数据的最大值、最小值、中位数、及上下四分位数。
箱形图有5个参数:
下限,表示最小值;
下四分位数,又称“第一四分位数”,等于该样本中所有数值由小到大排列后第25%的数字;
中位数,又称“第二四分位数”等于该样本中所有数值由小到大排列后第50%的数字;
上四分位数,又称“第三四分位数”等于该样本中所有数值由小到大排列后第75%的数字;
上限,表述最大值。
python代码实践:
1997年我国几个主要城市各月份多平均相对湿度数据如下(单位:%),试绘制箱线图,并分析各城市平均相对湿度的分布特征。
实现过程:
- 安装Anaconda
- 运行Anaconda
- 执行过程截图
- 具体代码
#首先导入基本的绘图包
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
#添加数据
plt.style.use("ggplot")
plt.rcParams['axes.unicode_minus'] = False
plt.rcParams['font.sans-serif']=['SimHei']
#新建一个空的DataFrame
df=pd.DataFrame()
#添加数据,最后显示数据表格
df["北京"]=[49,41,47,50,55,57,69,74,68,47,66,56]
df["长春"]=[70,68,50,39,56,54,70,79,66,59,59,57]
df["南京"]=[76,71,77,72,68,73,82,82,71,75,82,82]
df["郑州"]=[57,57,68,67,63,57,74,71,67,53,77,65]
df["武汉"]=[77,75,81,75,71,74,81,73,71,72,78,82]
df["广州"]=[72,80,80,84,83,87,86,84,81,80,72,75]
df["成都"]=[79,83,81,79,75,82,84,78,75,78,78,82]
df["昆明"]=[65,65,58,61,58,72,84,74,77,76,71,71]
df["兰州"]=[51,41,49,46,41,43,58,57,55,45,53,52]
df["西安"]=[67,67,74,70,58,42,62,55,65,65,73,72]
df
#用matplotlib来画出箱型图
plt.boxplot(x=df.values,labels=df.columns,whis=1.5)
plt.show()
5 执行结果
6 结果分析
- 从中位数位置看:西安各月份湿度分布比较对称,北京、长春、南京、武汉、广州、成都湿度大部分数据都分布在中位数到上四分位以上;郑州、昆明和兰州相反
- 从箱子长短看,武汉,广州和成都全年各月湿度分布相对比较集中
- 西安有个脱离群体的异常值
下一篇: 求高手,关于网址正提取则