R语言 UTF-8各种问题的解决方案

程序员文章站 2022-06-18 21:39:53

r语言在碰到读utf-8文件，或者处理utf-8数据时总是会遇到各种各样的问题，本姑娘也是在碰了n多次壁，被气得吐血好多次之后，终于对这类总结出了一些解决办法：1. 读utf-8文件，例如utf-8格...

r语言在碰到读utf-8文件，或者处理utf-8数据时总是会遇到各种各样的问题，本姑娘也是在碰了n多次壁，被气得吐血好多次之后，终于对这类总结出了一些解决办法：

1. 读utf-8文件，例如utf-8格式的csv：

最好的处理办法就是：

a1=read.table('c:\\test11.csv',sep=',',fileencoding = 'utf-8',header = f)

如果使用如下方法可能会出错（全是血泪教训啊）：

a2=read.csv('c:\\test11.csv',fileencoding = 'utf-8',header = f)
a2=read.csv('c:\\test11.csv',encoding = 'utf-8',header = f)

2. 如何在r里把一个数据转化为utf-8格式：

因为我在r里写了一段程序，需要把数据转化为json格式，通过上面的方法读进来的数据是没有问题，但是数据再r里并不是utf-8格式存储的，所以tojson()时报了如下错误：

unable to escape string. string is not utf8

后来发现r里有一个函数可以把数据转为utf8格式：enc2utf8()

> a='小源'
> encoding(a)#查看a的编码格式
[1] "unknown"
> b=enc2utf8(a)
> encoding(b)
[1] "utf-8"

3. 如何source一个utf-8格式的r文件：

source一个utf8编码保存的r脚本，在windows下（linux由于默认编码就是utf8，直接source就可以）

source('test.r',encoding = 'utf-8')

补充：mac系统csv乱码_r语言写入utf-8格式csv乱码解决办法

中文编码方式有gbk(gb2312)和utf-8两种。

由于区域设置问题，在windows系统下，excel程序默认用gbk格式读取csv文件。

因此会导致乱码。

如下图所示：

R语言 UTF-8各种问题的解决方案

解决的办法是用tidyverse包中的write_excel_csv()函数。

下面上代码：

library(tidyverse)
x <- c('好好地', '针对是棒极啦', '哈好好好好好爱吼吼吼啊', '啊')
y <- c(1, 2, 3, 4)
z <- c('haha', 'hehe', 'hoho', 'lala')
xyz_tbl <- tibble(x,y,z)
        read_csv(file = 'data1.csv', )
#乱码
write.csv(xyz_tbl,'data_old.csv',row.names = t,fileencoding='utf-8')
#再次乱码
write_csv(xyz_tbl, 'data.csv')
#解决问题
write_excel_csv(xyz_tbl, 'data_ex.csv')
#以上文件用r读取都没问题
read_csv(file = 'data.csv')
read_csv(file = 'data_ex.csv')
read_csv(file = 'data_old.csv')

R语言 UTF-8各种问题的解决方案

原数据

R语言 UTF-8各种问题的解决方案

data.csv

R语言 UTF-8各种问题的解决方案

data_ex.csv

R语言 UTF-8各种问题的解决方案

data_old.csv

以上为个人经验，希望能给大家一个参考，也希望大家多多支持。如有错误或未考虑完全的地方，望不吝赐教。

R语言 UTF-8各种问题的解决方案

1. 读utf-8文件，例如utf-8格式的csv：

2. 如何在r里把一个数据转化为utf-8格式：

3. 如何source一个utf-8格式的r文件：

下面上代码：

R语言问题解决：不存在叫‘xxx’这个名字的程辑包

[R语言]数据可视化的最佳解决方案：ggplot2

基于R语言xlsx安装遇到的问题及解决方案

基于R语言中的各种更新方法分享

Vue项目中各种常见的痛点问题及解决方案

R语言多线程运算操作(解决R循环慢的问题)

R语言解决安装ggplot2报错的问题