R语言 UTF-8各种问题的解决方案
程序员文章站
2022-06-18 21:39:53
r语言在碰到读utf-8文件,或者处理utf-8数据时总是会遇到各种各样的问题,本姑娘也是在碰了n多次壁,被气得吐血好多次之后,终于对这类总结出了一些解决办法:1. 读utf-8文件,例如utf-8格...
r语言在碰到读utf-8文件,或者处理utf-8数据时总是会遇到各种各样的问题,本姑娘也是在碰了n多次壁,被气得吐血好多次之后,终于对这类总结出了一些解决办法:
1. 读utf-8文件,例如utf-8格式的csv:
最好的处理办法就是:
a1=read.table('c:\\test11.csv',sep=',',fileencoding = 'utf-8',header = f)
如果使用如下方法可能会出错(全是血泪教训啊):
a2=read.csv('c:\\test11.csv',fileencoding = 'utf-8',header = f) a2=read.csv('c:\\test11.csv',encoding = 'utf-8',header = f)
2. 如何在r里把一个数据转化为utf-8格式:
因为我在r里写了一段程序,需要把数据转化为json格式,通过上面的方法读进来的数据是没有问题,但是数据再r里并不是utf-8格式存储的,所以tojson()时报了如下错误:
unable to escape string. string is not utf8
后来发现r里有一个函数可以把数据转为utf8格式:enc2utf8()
> a='小源' > encoding(a)#查看a的编码格式 [1] "unknown" > b=enc2utf8(a) > encoding(b) [1] "utf-8"
3. 如何source一个utf-8格式的r文件:
source一个utf8编码保存的r脚本,在windows下(linux由于默认编码就是utf8,直接source就可以)
source('test.r',encoding = 'utf-8')
补充:mac系统csv乱码_r语言写入utf-8格式csv乱码解决办法
中文编码方式有gbk(gb2312)和utf-8两种。
由于区域设置问题,在windows系统下,excel程序默认用gbk格式读取csv文件。
因此会导致乱码。
如下图所示:
解决的办法是用tidyverse包中的write_excel_csv()函数。
下面上代码:
library(tidyverse) x <- c('好好地', '针对是棒极啦', '哈好好好好好爱吼吼吼啊', '啊') y <- c(1, 2, 3, 4) z <- c('haha', 'hehe', 'hoho', 'lala') xyz_tbl <- tibble(x,y,z) read_csv(file = 'data1.csv', ) #乱码 write.csv(xyz_tbl,'data_old.csv',row.names = t,fileencoding='utf-8') #再次乱码 write_csv(xyz_tbl, 'data.csv') #解决问题 write_excel_csv(xyz_tbl, 'data_ex.csv') #以上文件用r读取都没问题 read_csv(file = 'data.csv') read_csv(file = 'data_ex.csv') read_csv(file = 'data_old.csv')
原数据
以上为个人经验,希望能给大家一个参考,也希望大家多多支持。如有错误或未考虑完全的地方,望不吝赐教。