欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

鈥榟 鈥淒等csv乱码怎么解决???

程序员文章站 2022-07-12 21:19:54
...

鈥榟 鈥淒等csv乱码怎么解决???

打开csv文件我就慌了,我做文本分析,最后居然要处理的文本里这么多乱码,关键是某些单词的部分由于乱码而确实,如hom,少了个e,这还怎么分析。

我首先一顿百度猛如虎,查找了如下几个办法,感觉最让人看到希望的是这一条:
 

#!/usr/bin/env python

# -*- encoding: utf-8 -*-

'''
@Author  :   {Jack Zhao}

@Time    :   2019/11/11 13:26

@Contact :   {aaa@qq.com}

@Desc    :  测试
'''

from io import StringIO
import pandas as pd
# Read the csv file into a StringIO object
sio = StringIO()
with open('../data/test.csv', 'r', encoding='unicode-escape') as f:
    for line in f:
        print(line)
        line = line.encode('latin1').decode('utf8')
        print(line)
        sio.write(line)
sio.seek(0)    # Reset file pointer to the beginning

# Call read_csv, passing the StringIO object
df = pd.read_csv(sio, encoding="utf8")

没有任何卵用

下面第二次尝试:
 

x = b"it\\xe2\\x80\\x99s time to eat"
x = x.decode('unicode-escape').encode('latin1').decode('utf8')
print(x)     # it’s time to eat

并没有什么卵用

上述说的都是Unicode字符编码的问题,但我不是很懂,反正没效果就对了。

解决办法:

Notepad++打开csv文件-》Ctrl+A全选,修改为ANSI编码-》再修改为UTF-8 BOM编码/UTF-8编码-》另存为

转变结果如下图:

鈥榟 鈥淒等csv乱码怎么解决???

这样就不会影响分析了(注意home变的完整了)。

然后操作https://blog.csdn.net/weixin_40539952/article/details/102994822

相关标签: 乱码