统计学 - 数据描述
前言
数据总是杂乱而大量的,我们需要快速抓住其特征,以此在脑海中形成一个实在的观念。我们看一个人,首先看外貌、形态、穿着,然后是举止、品格。对于数据也是一样,要先用一些指标来描述。
标准差
考虑一个数列关于其平均数的散布常常是有益的,这种散布我们用标准差 (SD 或者 std,standard deviation) 来度量。标准差指出了数列中的数离它们的平均数有多远,或者数列的项的相对于平均数的波动程度是否大(高逼格的叫法是离散程度)。公式中数值 (皆为实数),其平均值 (算术平均值) 为 ,标准差为 。写成公式:
粗略地,(约)的项在区间 之间,而的项在之间(证明略)。
方差
其含义是每个值相对于平均值的距离的平均值。它反映了数据的波动情况,或者高逼格一点叫“离散程度”。这里是总体方差,对应的,我们有样本方差。样本方差可能很不同于总体方差。比如当数据为 1,1,1,10,10,10,总体方差为 20.25,而你恰好抽取 1,1,1,样本方差为 0,误差很大。
经过一点简单的代数运算,我们可以得到方差的另一种形式:
利用 Python 计算标准差和方差:
import numpy as np
a1 = np.array([9,9,10,10,10,12])
a1.std() # 标准差
a1.var() # 方差
均方根
均方根 (RMS, root mean square) ,顾名思义,就是数列各项的值的平方和的平方根。
均方根误差
均方根主要应用在物理学中,这里不多说(我也不懂物理),我们主要用它的兄弟:均方根误差 (RMSE, root mean square error) 来描述两个数列的“相合程度”。 表示另一个数列的项。那么:
显然,均方根误差越小,两个数列越接近。
均方误差
均方误差 (MSE, mean squared error) 也就是均方根误差的平方。
利用 Python 计算:
from sklearn.metrics import mean_squared_error
import math
MSE = mean_squared_error([1,2],[1,4])
RMSE = math.sqrt(MSE)
后记
在线性回归模型中,我们可以用均方误差表示模型的 fit 程度。在机器学习中,这被称为“损失函数” (cost function),使得函数值最小的解,就是最终训练的结果。
平均数、最大值、最小值比较简单,不解释。
转载于:https://www.jianshu.com/p/f94afb128e90
上一篇: 数据描述性统计整理
下一篇: 统计学习二:数据的描述性统计