R语言-summary()函数的用法解读

程序员文章站 2022-06-18 21:53:55

summary()：获取描述性统计量，可以提供最小值、最大值、四分位数和数值型变量的均值，以及因子向量和逻辑型向量的频数统计等。结果解读如下：1. 调用：calllm(formula = dstval...

summary()：获取描述性统计量，可以提供最小值、最大值、四分位数和数值型变量的均值，以及因子向量和逻辑型向量的频数统计等。

结果解读如下：

1. 调用：call

lm(formula = dstvalue ~ month + recentval1 + recentval4 + recentval6 + recentval8 + recentval12, data = traindata)

当创建模型时，以上代码表明lm是如何被调用的。

2. 残差统计量：residuals

             min           1q        median         3q         max 
          -4806.5    -1549.1     -171.8      1368.7     6763.3

残差第一四分位数（1q）和第三分位数（q3）有大约相同的幅度，意味着有较对称的钟形分布。

3. 系数：coefficients

                                estimate     std. error       t value     pr(>|t|)    
       (intercept)      1.345e+06    5.659e+05     2.377     0.01879 *  
       month             8.941e+02    2.072e+02    4.316     3.00e-05 ***

分别表示：估值标准误差 t值 p值

intercept：表示截距

month：影响因子/特征

estimate的列：包含由普通最小二乘法计算出来的估计回归系数。

std. error的列：估计的回归系数的标准误差。

p值估计系数不显著的可能性，有较大p值的变量是可以从模型中移除的候选变量。

t 统计量和p值：从理论上说，如果一个变量的系数是0，那么该变量是无意义的，它对模型毫无贡献。

然而，这里显示的系数只是估计，它们不会正好为0。

因此，我们不禁会问：从统计的角度而言，真正的系数为0的可能性有多大？这是t统计量和p值的目的，在汇总中被标记为t value和pr(>|t|)。

其中，我们可以直接通过p值与我们预设的0.05进行比较，来判定对应的解释变量的显著性，我们检验的原假设是：该系数显著为0；若p<0.05，则拒绝原假设，即对应的变量显著不为0。

可以看到month、recentval4、recentval8都可以认为是在p为0.05的水平下显著不为0，通过显著性检验；intercept的p值为0.26714，不显著。

4. multiple r-squared和adjusted r-squared

这两个值，即r^{2}，常称之为“拟合优度”和“修正的拟合优度”，指回归方程对样本的拟合程度几何，这里我们可以看到，修正的拟合优度=0.8416，表示拟合程度良好，这个值当然是越高越好。

当然，提升拟合优度的方法很多，当达到某个程度，我们也就认为差不多了。

具体还有很复杂的判定内容，有兴趣的可以看看：http://baike.baidu.com/view/657906.htm

5. f-statistic

f-statistic，是我们常说的f统计量，也成为f检验，常常用于判断方程整体的显著性检验，其值越大越显著；其p值为p-value: < 2.2e-16，显然是<0.05的，可以认为方程在p=0.05的水平上还是通过显著性检验的。

简单总结：

t检验：检验解释变量的显著性；

r-squared：查看方程拟合程度；

f检验：是检验方程整体显著性。

如果是一元线性回归方程，t检验的值和f检验的检验效果是一样的，对应的值也是相同的。

补充：在r语言中显示美丽的数据摘要summary统计信息

总结数据集

## skim summary statistics
##  n obs: 150 
##  n variables: 5 
## 
## variable type: factor 
##   variable missing complete   n n_unique                       top_counts
## 1  species       0      150 150        3 set: 50, ver: 50, vir: 50, na: 0
##   ordered
## 1   false
## 
## variable type: numeric 
##       variable missing complete   n mean   sd min p25 median p75 max
## 1 petal.length       0      150 150 3.76 1.77 1   1.6   4.35 5.1 6.9
## 2  petal.width       0      150 150 1.2  0.76 0.1 0.3   1.3  1.8 2.5
## 3 sepal.length       0      150 150 5.84 0.83 4.3 5.1   5.8  6.4 7.9
## 4  sepal.width       0      150 150 3.06 0.44 2   2.8   3    3.3 4.4
##       hist
## 1 ▇▁▁▂▅▅▃▁
## 2 ▇▁▁▅▃▃▂▂
## 3 ▂▇▅▇▆▅▂▂
## 4 ▁▂▅▇▃▂▁▁

选择要汇总的特定列

## skim summary statistics
##  n obs: 150 
##  n variables: 5 
## 
## variable type: numeric 
##       variable missing complete   n mean   sd min p25 median p75 max
## 1 petal.length       0      150 150 3.76 1.77 1   1.6   4.35 5.1 6.9
## 2 sepal.length       0      150 150 5.84 0.83 4.3 5.1   5.8  6.4 7.9
##       hist
## 1 ▇▁▁▂▅▅▃▁
## 2 ▂▇▅▇▆▅▂▂

处理分组数据

可以处理已使用分组的数据dplyr::group_by。

## skim summary statistics
##  n obs: 150 
##  n variables: 5 
##  group variables: species 
## 
## variable type: numeric 
##       species     variable missing complete  n mean   sd min  p25 median
## 1      setosa petal.length       0       50 50 1.46 0.17 1   1.4    1.5 
## 2      setosa  petal.width       0       50 50 0.25 0.11 0.1 0.2    0.2 
## 3      setosa sepal.length       0       50 50 5.01 0.35 4.3 4.8    5   
## 4      setosa  sepal.width       0       50 50 3.43 0.38 2.3 3.2    3.4 
## 5  versicolor petal.length       0       50 50 4.26 0.47 3   4      4.35
## 6  versicolor  petal.width       0       50 50 1.33 0.2  1   1.2    1.3 
## 7  versicolor sepal.length       0       50 50 5.94 0.52 4.9 5.6    5.9 
## 8  versicolor  sepal.width       0       50 50 2.77 0.31 2   2.52   2.8 
## 9   virginica petal.length       0       50 50 5.55 0.55 4.5 5.1    5.55
## 10  virginica  petal.width       0       50 50 2.03 0.27 1.4 1.8    2   
## 11  virginica sepal.length       0       50 50 6.59 0.64 4.9 6.23   6.5 
## 12  virginica  sepal.width       0       50 50 2.97 0.32 2.2 2.8    3   
##     p75 max     hist
## 1  1.58 1.9 ▁▁▅▇▇▅▂▁
## 2  0.3  0.6 ▂▇▁▂▂▁▁▁
## 3  5.2  5.8 ▂▃▅▇▇▃▁▂
## 4  3.68 4.4 ▁▁▃▅▇▃▂▁
## 5  4.6  5.1 ▁▃▂▆▆▇▇▃
## 6  1.5  1.8 ▆▃▇▅▆▂▁▁
## 7  6.3  7   ▃▂▇▇▇▃▅▂
## 8  3    3.4 ▁▂▃▅▃▇▃▁
## 9  5.88 6.9 ▂▇▃▇▅▂▁▂
## 10 2.3  2.5 ▂▁▇▃▃▆▅▃
## 11 6.9  7.9 ▁▁▃▇▅▃▂▃
## 12 3.18 3.8 ▁▃▇▇▅▃▁▂

指定统计信息和类

可以用户使用与该skim_with()功能组合的列表来指定自己的统计信息。

## skim summary statistics
##  n obs: 150 
##  n variables: 5 
## 
## variable type: numeric 
##       variable iqr  mad
## 1 sepal.length 1.3 1.04

以上为个人经验，希望能给大家一个参考，也希望大家多多支持。如有错误或未考虑完全的地方，望不吝赐教。

R语言-summary()函数的用法解读

1. 调用：call

2. 残差统计量：residuals

3. 系数：coefficients

4. multiple r-squared和adjusted r-squared

5. f-statistic

简单总结：

总结数据集

选择要汇总的特定列

处理分组数据

指定统计信息和类

java怎么把负数转正数（r语言lag函数用法）

java怎么把负数转正数（r语言lag函数用法）

pow函数（数学次方）在c语言的用法，两种编写方法实例（计算1/1-1/2+1/3-1/4+1/5 …… + 1/99 - 1/100 的值）

go语言的panic和recover函数用法实例

C语言中va（可变函数参数）的另一种用法与危险事项

实际项目开发过程中常用C语言函数的9大用法

全面解读C#编程中的析构函数用法

R语言的xtabs函数实例讲解

Go语言里的new函数用法分析

举例详解Go语言中os库的常用函数用法

R语言-summary()函数的用法解读

1. 调用：call

2. 残差统计量：residuals

3. 系数：coefficients

4. multiple r-squared和adjusted r-squared

5. f-statistic

简单总结：

总结数据集

选择要汇总的特定列

处理分组数据

指定统计信息和类

java怎么把负数转正数（r语言lag函数用法）

java怎么把负数转正数（r语言lag函数用法）

pow函数（数学次方）在c语言的用法，两种编写方法实例（ 计算1/1-1/2+1/3-1/4+1/5 …… + 1/99 - 1/100 的值）

go语言的panic和recover函数用法实例

C语言中va（可变函数参数） 的另一种用法与危险事项

实际项目开发过程中常用C语言函数的9大用法

全面解读C#编程中的析构函数用法

R语言的xtabs函数实例讲解

Go语言里的new函数用法分析

举例详解Go语言中os库的常用函数用法

pow函数（数学次方）在c语言的用法，两种编写方法实例（计算1/1-1/2+1/3-1/4+1/5 …… + 1/99 - 1/100 的值）

C语言中va（可变函数参数）的另一种用法与危险事项