鈥榟 鈥淒等csv乱码怎么解决???
程序员文章站
2022-07-12 21:19:54
...
打开csv文件我就慌了,我做文本分析,最后居然要处理的文本里这么多乱码,关键是某些单词的部分由于乱码而确实,如hom,少了个e,这还怎么分析。
我首先一顿百度猛如虎,查找了如下几个办法,感觉最让人看到希望的是这一条:
#!/usr/bin/env python
# -*- encoding: utf-8 -*-
'''
@Author : {Jack Zhao}
@Time : 2019/11/11 13:26
@Contact : {aaa@qq.com}
@Desc : 测试
'''
from io import StringIO
import pandas as pd
# Read the csv file into a StringIO object
sio = StringIO()
with open('../data/test.csv', 'r', encoding='unicode-escape') as f:
for line in f:
print(line)
line = line.encode('latin1').decode('utf8')
print(line)
sio.write(line)
sio.seek(0) # Reset file pointer to the beginning
# Call read_csv, passing the StringIO object
df = pd.read_csv(sio, encoding="utf8")
没有任何卵用
下面第二次尝试:
x = b"it\\xe2\\x80\\x99s time to eat"
x = x.decode('unicode-escape').encode('latin1').decode('utf8')
print(x) # it’s time to eat
并没有什么卵用
上述说的都是Unicode字符编码的问题,但我不是很懂,反正没效果就对了。
解决办法:
Notepad++打开csv文件-》Ctrl+A全选,修改为ANSI编码-》再修改为UTF-8 BOM编码/UTF-8编码-》另存为
转变结果如下图:
这样就不会影响分析了(注意home变的完整了)。
然后操作https://blog.csdn.net/weixin_40539952/article/details/102994822
上一篇: python实现将m3u8格式转换为mp4视频格式
下一篇: Tomcat启动乱码
推荐阅读