R-统计及可视化学习笔记(描述性统计量)
程序员文章站
2024-03-25 21:10:10
...
目录
数据获取
使用summary()函数得到一个data frame的描述性统计量,以R中内置的Edgar Anderson's Iris Data进行展示。
# 查看常用的描述统计量
summary(iris)
一、箱线图
# 使用箱线图展示某一列数据的分布情况
boxplot(iris$Sepal.Length)
箱线图(盒图、箱盒图) 如上图所示,箱线图由五个数值点构成,分别是最小观察值(下边缘),25%分位数(Q1),中位数,75%分位数(Q3),最大观察值(上边缘) 箱线图里的极大值(上边缘值)并非最大值,极小值(下边缘值)也并非最小值。 如果数据存在离群点(异常值),超出最大或最小观察值,此时离群点将以“圆点”形式进行展示。
小结 (1)箱线图是针对连续型变量的,解读时应重点关注平均水平、波动程序和异常值。 (2)当箱子被压得很扁,或有很多异常情况时,试着做对数变换。 (3)当只有一个连续型变量时,并不适合画箱线图,更常选择直方图。 (4)箱线图最有效的使用途径是做比较,配合一个或多个定性数据,画分组箱线图。 |
二、直方图
# 使用直方图展示某一列数据的分布情况
hist(iris$Sepal.Length)
三、累积分布函数图
# 绘制简单的累积分布函数图展示某一列数据分布情况
plot(ecdf(iris$Sepal.Length))
上一篇: 【转】Java的算数运算符、关系运算符、逻辑运算符、位运算符 博客分类: Java java 操作符
下一篇: 公钥 私钥 证书 挑战码 Base64 SHA1 博客分类: 网络通信接口安全 公钥私钥数字证书数字签名Base64
推荐阅读