欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

R语言—数据输入

程序员文章站 2022-07-14 21:04:49
...
谋事在人,成事在天,不求尽如人意,但求无愧于心!

       R可从键盘、文本文件、Microsoft Excel和Access、流行的统计软件、特殊格式的文件、多种关系型数据库管理系统、专业数据库、网站和在线服务中导入数据。因此本节整理了R(RStudio)中数据输入的集中方式。

R语言—数据输入

1.键盘输入数据

      例如,创建一个含有三个变量:age(数值型) 、gender(字符型)和weight(数值型),名为mydata的数据框,然后通过mydata<-edit(mydata)或者fix(mydata)调用文本编辑器,键入数据,最后保存结果。

fix(mylist)
> mydata <- data.frame(age=numeric(0), gender=character(0), weight=numeric(0)) 
#age=numeric(0)的赋值语句将创建一个指定模式但不含实际数据的变量
> mydata
[1] age    gender weight
<0 行> (或0-长度的row.names)
> mydata<-edit(mydata)
#函数edit()事实上是在对象的一个副本上进行操作的,需要将其赋值到一个目标,才能保存输入的数据! 
> fix(mydata)

R语言—数据输入


       通过键盘输入数据的方式,在处理小数据集的时候比较方便有效,但是对于较大的数据集,就需要从已有的文本文件、Excel电子表格、统计软件或数据库中导入数据。

2.读取文本文件

可以使用read.table()函数从带分隔符的文本文件中导入数据。该函数可读入一个表格格式的文件并将其保存为一个数据框。表格的每一行分别出现在文件中每一行。其语法如下:
mydataframe <- read.table(file, options)
其中,file是一个带分隔符的ASCII文本文件,options是控制如何处理数据的选项。表2-2列出了常见的选项。

选 项
描 述
header 表示文件第一行是否包含有逻辑型的变量名
sep 分开数据的分隔符 ,默认是 sep="",这表示了一个或多个空格、制表符、换行或回车。使用 sep=",“来读取用逗号来分隔行内数据的文件,使用 sep=”\t"来读取使用制表符来分割行内数据的文件
row.names 用于指定一个或者多个行标记符的可选参数
col.names 如果数据文件第一行不包含变量名(header=FALSE),则可用col.names去指定一个包含变量名的字符向量,若header=FALSE以及col.names选项被忽略,变量则会被命名为V1、V2 ……
na.strings 用于表示缺失值的字符向量 ,例如:na.strings=c("-9","?") 在读取数据的时候把-9和?值转换成NA
colClasses 可选的分配到每一列的类向量,比如, colClasses=c(“numeric”, “numeric”, “character”, “NULL”, “numeric”)把前两列读取为数值型变量,把第三列读取为字符型向量,跳过第四列,把第五列读取为数值型向量。如果数据有多余五列,colClasses 的值会被循环。当你在读取大型文本文件的时候,加上 colClasses 选项可以可观地提升处理的速度
quote 用于对有特殊字符的字符串划定界限的字符串,默认值是(")或者(’)
skip 读取数据前跳过的行的数目 ,该选项在跳过头注释的时候较有用
stringsAsFactors 一个逻辑变量,标记处字符向量是否需要转化成因子,默认值是TRUE ,除非它被colClasses覆盖,处理大型文本文件设置成stringsAsFactors=FALSE可以提升处理速度
text 一个指定文字进行处理的字符串,若设置了text,file应该被留空

内容较多,容我慢慢更新,Goodnight!!!

3.导入Excel文件

6.导入SPSS数据

7.导入SAS数据

8.导入Stata数据

9.导入NetCDF数据

10.导入HDF5数据

11.访问数据库管理系统

12.Stat/Transfer导入数据


特别注明:本文属于学习笔记,不是以盈利为目的,整理的笔记中,若有构成侵权的地方,请联系作者删除,谢谢合作!