基于R相关性检验小结
程序员文章站
2022-04-03 19:34:05
...
本文仅根据自己实际论文情况做的总结。
1、数据处理
本次选择数据较多,主要为国内股票指数和CRB指数,因此会有日期上的不同,以及休息日不同,所以用merge()函数合并匹配数据。
参考文章:使用R中merge()函数合并数据
2、相关性矩阵计算
#读取数据
> data=read.csv('D:/论文/撰写阶段/常用/匹配完未计算收益率数据.csv')
#计算相关性矩阵
> cor_matr = cor(data)
这里碰见几次错误
> Error in cor(data) : 'x'必需为数值
解决方法:按照之前的实际情况,缺失值有这个可能。这次数据比较多,大致看了没问题,最后在excel表格上<设置单元格格式>,全部改为数值,错误得到解决。
3、显著性检验
使用的Hmisc包,既可以检验显著性,还可以计算相关性。
#安装Humisc包
> install.packages("Hmisc")
#载入包
> library(Hmisc)
#计算相关性,进行相关性检验
> rcorr(as.matrix(data))
理论总结:因论文实际数据原因,做数据波动性处理后,计算了显著性,老师表示显著性结果不高,建议用收益率数据再次计算。在这个过程中,捋清楚头绪,显著性的计算跟后面我是否采用收益率数据关系不大,这点对写论文和实际工作有帮助。
同时实际相关性较低时,不代表显著性低,可视为<高显著性下的低相关性关系>,在这种情况下,仍旧可以继续进行研究。
同时,用原数据中的收盘价进行计算的结果,整体情况要好于波动率情况下的计算结果。
参考文章为:使用R进行相关性分析,还有一些可视化分析,因论文不需要就没有使用,文章里面有更详细描述和讲解。
4、数据输出
一般数据输出用函数write.csv()即可,但是这里用的Hmisc包当中的rcorr()命令,这个命令输出结果除了相关性,还有数据数量和显著性结果,也就是在一个结果中包含三张表格,这种情况无法直接输出到csv文件当中。
(具体表格情况如该图)
输出方法:
#选择输出结果a中相关性表格r
> cor_a=a[['r']]
> write.csv(cor_a,file='C:/Users/Administrator/Desktop/同期相关性.csv')
至此结果成功输出为csv文件。
下一篇: FREEBSD下运行调试asterisk