欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  IT编程

R语言导入导出数据的几种方法汇总

程序员文章站 2022-08-16 08:36:13
导出:对于某一数据集导出文件的方法导出例子:write.csv(data_1,file = "d:/1111111111.csv")其中data_1是你的数据集,file是你的存储路径和要存储的名字导...

导出:

对于某一数据集导出文件的方法

导出例子:write.csv(data_1,file = "d:/1111111111.csv")

其中data_1是你的数据集,file是你的存储路径和要存储的名字 

导入:

1  使用键盘输入数据

     (1) 创建一个空数据框(或矩阵),其中变量名和变量的模式需与理想中的最终数据集一致;

       (2)针对这个数据对象调用文本编辑器,输入你的数据,并将结果保存回此数据对象中。

       在下例中,你将创建一个名为mydata的数据框,它含有三个变量:age(数值型)、gender(字符型)和weight(数值型)。然后你将调用文本编辑器,键入数据,最后保存结果。

       >mydata<-data.frame(age=numeric(0),gender=character(0),weight=numeric(0))

       >mydata<-edit(mydata)

2 从带分隔符的文本文件中导入数据

        你可以使用read.table()从带分隔符的文本文件中导入数据。此函数可读入一个表格格式
的文件并将其保存为一个数据框。其语法如下:

  mydataframe<-read.table(file.header=logical_value,sep="delimiter",row,names="name")

       其中,file是一个带分隔符的ascii文本文件,header是一个表明首行是否包含了变量名的逻辑值(true或false),sep用来指定分隔数据的分隔符,row.names是一个可选参数,用以指定一个或多个表示行标识符的变量。

请注意,参数sep允许你导入那些使用逗号以外的符号来分隔行内数据的文件。你可以使用sep="\t"读取以制表符分隔的文件。此参数的默认值为sep="",即表示分隔符可为一个或多个空格、制表符、换行符或回车符.

默认情况下,字符型变量将转换为因子。我们并不总是希望程序这样做(例如处理一个含有被调查者评论的变量时)。有许多方法可以禁止这种转换行为。其中包括设置选项stringsasfactors=false,这将停止对所有字符型变量的此种转换。另一种方法是使用选项colclasses为每一列指定一个类,例如logical(逻辑型)、numeric(数值型)、character
(字符型)、factor(因子)。

函数read.table()还拥有许多微调数据导入方式的追加选项。

3 导入  excle数据

       读取一个excel文件的最好方式,就是在excel中将其导出为一个逗号分隔文件(csv),并使用前文描述的方式将其导入r中。在windows系统中,你也可以使用rodbc包来访问excel文件。

电子表格的第一行应当包含变量/列的名称。

首先,下载并安装rodbc包。

你可以使用以下代码导入数据:

>install.packages("rodbc")
library(rodbc)
channel<-odbcconnectexcel("myfile.xls")
mydataframe<-sqlfetch(hannel,"mysheet")
odbcclose(channel)

这里的myfile.xls是一个excel文件,mysheet是要从这个工作簿中读取工作表的名称,channel是一个由odbcconnectexcel()返回的rodbc连接对象,mydataframe是返回的数据框

       注意:excel2007使用了一种名为xlsx的文件格式,实质上是多个xml文件组成的压缩包。xlsx包可以用来读取这种格式的电子表格。在第一次使用此包之前请务必先下载并安装好。包中的函数read.xlsx()可将xlsx文件中的工作表导入为一个数据框。其最简单的调用格式是read.xlsx(file,n),其中file是excel2007工作簿的所在路径,n则为要导入的工作表序号。

library(xlsx)
workbook<-"c:/mywoehbook.xlsx"
mydataframe<-read.xlsx(workbook,1)

从位于c盘根目录的工作簿myworkbook.xlsx中导入了第一个工作表.

4 从网页抓取数据

   在web数据抓取(webscraping)的过程中,用户从互联网上提取嵌入在网页中的信息,并将其保存为r中的数据结构以做进一步的分析。完成这个任务的一种途径是使用函数readlines()下载网页,然后使用如grep()和gsub()一类的函数处理它。对于结构复杂的网页,可以使用rcurl包和xml包来提取其中想要的信息。

5  导入spss数据

    spss数据集可以通过foreign包中的函数read.spss()导入到r中,也可以使用hmisc包中的spss.get()函数。函数spss.get()是对read. spss()的一个封装,它可以为你自动设置后者的许多参数,让整个转换过程更加简单一致,最后得到数据分析人员所期望的结果。

首先,下载并安装hmisc包(foreign包已被默认安装):

>install.packages("hmisc")
>library(hmisc)
>mydatframe<-spss.get("mydata.sav",use.value.lables="true")

这段代码中,mydata.sav是要导入的spss数据文件,use.value.labels=true表示让函数将带有值标签的变量导入为r中水平对应相同的因子,mydataframe是导入后的r数据框。

6导入sas数据

   r中设计了若干用来导入sas数据集的函数,包括foreign包中的read.ssd()和hmisc包中的sas.get()。遗憾的是,如果使用的是sas的较新版本(sas 9.1或更高版本),你很可能会发现这些函数并不能正常工作,因为r尚未跟进sas对文件结构的改动。个人推荐两种解决方案。

你可以在sas中使用proc export将sas数据集保存为一个逗号分隔的文本文件,并使用下叙述的方法将导出的文件读取到r中:

sas程序:

 proc export data=mydata

  outfile="mydata.csv"

  dbms=csv

run;

r程序:

mydata<-read.table("mydata.csv",header=true,sep=",")

7 导入stata数据

> library(foreign)
> mydata<-read.dta("mydata.dta")

这里,mydata.dta是stata数据集,mydataframe是返回的r数据框.

8导入netcdf数据

unidata项目主导的开源软件库netcdf(network common data form,网络通用数据格式)定
义了一种机器无关的数据格式,可用于创建和分发面向数组的科学数据。netcdf格式通常用来存储地球物理数据。ncdf包和ncdf4包为netcdf文件提供了高层的r接口。ncdf包为通过unidata的netcdf库(版本3或更早)创建的数据文件提供了支持,而且在windows、macos x和linux上均可使用。ncdf4包支持netcdf 4或更早的版本,但在windows上尚不可用。

考虑如下代码:

R语言导入导出数据的几种方法汇总

在本例中,对于包含在netcdf文件mynetcdffile中的变量myvar,其所有数据都被读取并保存到了一个名为myarray的r数组中。

9导入hdf5数据

    hdf5(hierarchical data format,分层数据格式)是一套用于管理超大型和结构极端复杂数据集的软件技术方案。hdf5包能够以那些理解hdf5格式的软件可以读取的格式,将r对象写入到一个文件中。这些文件可以在之后被读回r中。这个包是实验性质的.

10访问数据库管理系统

     r中有多种面向关系型数据库管理系统(dbms)的接口,包括microsoftsql server、microsoftaccess、mysql、oracle、postgresql、db2、sybase、teradata以及sqlite。使用r来访问存储在外部数据库中的数据是一种分析大数据集的有效手段(参见附录g),并且能够发挥sql和r各自的优势。

1. odbc接口

     在r中通过rodbc包访问一个数据库也许是最流行的方式,这种方式允许r连接到任意一种拥有odbc驱动的数据库,其实几乎就是市面上的所有数据库。

第一步是针对你的系统和数据库类型安装和配置合适的odbc驱动——它们并不是r的一部分。如果你的机器尚未安装必要的驱动,上网搜索一下应该就可以找到。针对选择的数据库安装并配置好驱动后,请安装rodbc包。你可以使用命令install.packages("rodbc")来安装它。

rodbc包中的主要函数列于表2-2中。 

R语言导入导出数据的几种方法汇总

rodbc包允许r和一个通过odbc连接的sql数据库之间进行双向通信。这就意味着你不仅可以读取数据库中的数据到r中,同时也可以使用r修改数据库中的内容。假设你想将某个数据库中的两个表(crime和punishment)分别导入为r中的两个名为crimedat和pundat的数据框,可以通过如下代码完成这个任务:

library(rodbc)
myconn<-odbcconnect("mydsn",uid="rob",pwd="aardvark")
crimedat<-sqlfetch(myconn,crime)
pundat<-sqlquery(myconn,"select*from punishment")
close(myconn)

这里首先载入了rodbc包,并通过一个已注册的数据源名称(mydsn)和用户名(rob)以及密码(aardvark)打开了一个odbc数据库连接。连接字符串被传递给sqlfetch,它将crime表复制到r数据框crimedat中。然后我们对punishment表执行了sql语句select并将结果保存到数据框pundat中。最后,我们关闭了连接。函数sqlquery()非常强大,因为其中可以插入任意的有效sql语句。这种灵活性赋予了你选择指定变量、对数据取子集、创建新变量,以及重编码和重命名现有变量的能力。

总结

到此这篇关于r语言导入导出数据的文章就介绍到这了,更多相关r语言导入导出数据内容请搜索以前的文章或继续浏览下面的相关文章希望大家以后多多支持!