欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

R-统计及可视化学习笔记(描述性统计量)

程序员文章站 2024-03-25 21:10:10
...

参考:生物信息学最佳实践-基础篇

 

目录

数据获取

一、箱线图

二、直方图

三、累积分布函数图


 


数据获取

使用summary()函数得到一个data frame的描述性统计量,以R中内置的Edgar Anderson's Iris Data进行展示。

# 查看常用的描述统计量
summary(iris)

R-统计及可视化学习笔记(描述性统计量)

 


 

一、箱线图

# 使用箱线图展示某一列数据的分布情况
boxplot(iris$Sepal.Length)

R-统计及可视化学习笔记(描述性统计量)

箱线图怎样分析

箱线图(盒图、箱盒图)

R-统计及可视化学习笔记(描述性统计量)

如上图所示,箱线图由五个数值点构成,分别是最小观察值(下边缘),25%分位数(Q1),中位数,75%分位数(Q3),最大观察值(上边缘)

箱线图里的极大值(上边缘值)并非最大值,极小值(下边缘值)也并非最小值。

如果数据存在离群点(异常值),超出最大或最小观察值,此时离群点将以“圆点”形式进行展示。

 

小结

(1)箱线图是针对连续型变量的,解读时应重点关注平均水平、波动程序和异常值。

(2)当箱子被压得很扁,或有很多异常情况时,试着做对数变换。

(3)当只有一个连续型变量时,并不适合画箱线图,更常选择直方图。

(4)箱线图最有效的使用途径是做比较,配合一个或多个定性数据,画分组箱线图。

 


 

二、直方图

# 使用直方图展示某一列数据的分布情况
hist(iris$Sepal.Length)

R-统计及可视化学习笔记(描述性统计量)


 

三、累积分布函数图

# 绘制简单的累积分布函数图展示某一列数据分布情况
plot(ecdf(iris$Sepal.Length))

R-统计及可视化学习笔记(描述性统计量)