欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

基于R相关性检验小结

程序员文章站 2022-04-03 19:34:05
...

本文仅根据自己实际论文情况做的总结。

1、数据处理

本次选择数据较多,主要为国内股票指数和CRB指数,因此会有日期上的不同,以及休息日不同,所以用merge()函数合并匹配数据。

参考文章:使用R中merge()函数合并数据

2、相关性矩阵计算

#读取数据
> data=read.csv('D:/论文/撰写阶段/常用/匹配完未计算收益率数据.csv')
#计算相关性矩阵
> cor_matr = cor(data)

这里碰见几次错误

> Error in cor(data) : 'x'必需为数值

解决方法:按照之前的实际情况,缺失值有这个可能。这次数据比较多,大致看了没问题,最后在excel表格上<设置单元格格式>,全部改为数值,错误得到解决。

3、显著性检验

使用的Hmisc包,既可以检验显著性,还可以计算相关性。

#安装Humisc包
> install.packages("Hmisc")
#载入包
> library(Hmisc)
#计算相关性,进行相关性检验
> rcorr(as.matrix(data))

理论总结:因论文实际数据原因,做数据波动性处理后,计算了显著性,老师表示显著性结果不高,建议用收益率数据再次计算。在这个过程中,捋清楚头绪,显著性的计算跟后面我是否采用收益率数据关系不大,这点对写论文和实际工作有帮助。

同时实际相关性较低时,不代表显著性低,可视为<高显著性下的低相关性关系>,在这种情况下,仍旧可以继续进行研究。

同时,用原数据中的收盘价进行计算的结果,整体情况要好于波动率情况下的计算结果。

参考文章为使用R进行相关性分析,还有一些可视化分析,因论文不需要就没有使用,文章里面有更详细描述和讲解。

4、数据输出

一般数据输出用函数write.csv()即可,但是这里用的Hmisc包当中的rcorr()命令,这个命令输出结果除了相关性,还有数据数量和显著性结果,也就是在一个结果中包含三张表格,这种情况无法直接输出到csv文件当中。
(具体表格情况如该图)
基于R相关性检验小结
输出方法:

#选择输出结果a中相关性表格r
> cor_a=a[['r']]
> write.csv(cor_a,file='C:/Users/Administrator/Desktop/同期相关性.csv')

至此结果成功输出为csv文件。

相关标签: 数据分析