欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

R语言笔记——创建数据集(一)

程序员文章站 2022-03-22 23:41:16
...

基本概念

数据集通常是由数据构成的一个矩形数组,行表示观测,列表示向量。(不同行业对于数据集的行和列叫法不同)

数据结构

R 中有许多用于存储数据的结构,包括标量、向量、数组、数据框和列表。
R 可以处理的数据类型(模式)包括数值型、字符型、逻辑型(TRUE/FASLE)、复数型(虚数)和原生型(字节)。

向量(vector)

向量是用于存储数值型/字符型或逻辑型数据的一维数组。
R语言笔记——创建数据集(一)
R语言笔记——创建数据集(一)
R语言笔记——创建数据集(一)

矩阵(matrix)

矩阵是一个二维数组,每个元素都拥有相同的类型(模式)。

基本用法

通过matrix()函数创建矩阵,一般使用格式为:mymatrix <- matrix(data, nrow, ncol, byrow, dimnames)

  • data:包含了矩阵的元素
  • nrow和ncol:指定矩阵行和列的维数
  • byrow:矩阵应当按行填充(byrow=TRUE)还是按列填充(byrow=FALSE)
  • dimnames:是分配给行和列名称

R语言笔记——创建数据集(一)
R语言笔记——创建数据集(一)

矩阵下标的用法

我们可以使用下标和方括号来选择矩阵中的行、列或元,X[i,]指矩阵x的第i行,x[,j]表示矩阵中的第j列,x[i,j]表示矩阵中的第i行第j列的元素。

R语言笔记——创建数据集(一)

数组(array)

数组和矩阵类似,但是维度可以大于2。数组可以通过array()函数创建,形式如下:
myarray <- array(data,dimensions,dimnames)

  • data:表示数组中的元素
  • dimensions:数组的维数,是一个数值型向量
  • dimnames:各维度中名称标签列表

R语言笔记——创建数据集(一)
R语言笔记——创建数据集(一)

数据框(dataframe)

创建数据框

数据框的数据类型与矩阵类似,但其各列的数据类型可以不相同。数据框可以通过函数data.frame()创建:
mydata <- data.frame(col1,col2,col3,……)
其中的列向量col1、col2、col3等可为任何类型(如字符型、数值型或逻辑型)
R语言笔记——创建数据集(一)

提取数据框中的元素

方法一:索引

R语言笔记——创建数据集(一)
方法二:$ 符号
R语言笔记——创建数据集(一)

detach()函数和attach()函数

1.detach()函数
detach()函数是将数据框从搜索路径中移除,但它不会对数据框本身做任何处理。应该例行加在代码里,这是一个良好的代码习惯。
2.attach()函数
attach()函数是将数据框添加到R的搜索路径中。
R语言笔记——创建数据集(一)

cbind()函数和rbind()函数

cbind: 根据列进行合并,即叠加所有列,m列的矩阵与n列的矩阵cbind()最后变成m+n列,合并前提:cbind(a, c)中矩阵a、c的行数必需相符。

rbind: 根据行进行合并,就是行的叠加,m行的矩阵与n行的矩阵rbind()最后变成m+n行,合并前提:rbind(a, c)中矩阵a、c的列数必需相符。

列表

列表是一些对象的有序集合。列表允许你整合若干(可能无关)的对象到单个对象的名下。例如:某个列表中可能是若干向量、矩阵、数据框,甚至其他列表的组合。
可以使用list()函数创建列表:
mylist <- list(object1,object2,……)

综合实例

实例1:数据框

请创建如下数据
name    sex       date
1 刘涛 Female 2000-01-02
2 张硕   Male 2001-12-12
3 海岩   Male 2003-10-1
> name <- c("刘涛","张硕","海岩")
> sex <- c("Female","Male","Male")
> date <- c("2000-01-02","2001-12-12","2003-10-12")
> df <- data.frame(name,sex,date)
> df
	将“海岩”的值修改为“海燕”
> df$name[3] <- "海燕"
> df
	将第3行第2列的值修改为“Female”
> df[3,2] <- "Male"
> df

实例2:图形处理

使用R语言基础包中的graphics包中的boxplot函数绘制箱线图
1)	读取数据集data4_1.csv,要求采用相对路径
2)	使用data4_1数据集中的4-9列绘制箱线图,boxplot函数
3)	使用points()和apply()绘制均值点,col=”black”,cex=1,pch=3
> x <- read.csv('D:/data4_1.csv')
> x <- read.csv('./data4_1.csv')
> data <- x[4:9]
> boxplot(data,xlab="指标",ylab="指标值",col=cm.colors(6))
> means <- apply(data,2,mean)
> points(means,col="black",cex=1,pch=3)

R语言笔记——创建数据集(一)
下次用到再补充!函数太多,一时半会儿整理不完。不断学习中。

相关标签: R r语言