python utf8格式文件转ansi格式的坑
程序员文章站
2022-03-31 10:28:07
...
最近在写python大作业的微信爬虫,遇到了一个问题,用csv.writer(),writer.writerow()方法向CSV文件写入数据后,在Excel中打开时中文是乱码。经查阅各种技术文章了解到需要进行转码,按照教程写了相应的代码,但是还是运行就报错,最后在某个犄角旮旯发现了解决办法,就发出来,希望不会有更多的人掉进这个坑里。
代码如下:
def utf8_to_ansi():
fp_ansi = open('./输出.csv','wb') #转码后输出的文件
fp_utf8 = open('./_result.csv','rb') #待转码的文件
data = ""
data = fp_utf8.read()
data = data.decode('utf-8') #以二进制格式读入的数据需要先转码(转为内部码)才可以继续转换
data = data.encode('mbcs',errors = 'ignore') #关键,将内部码再次编码
fp_ansi.write(data) #写入文件
fp_ansi.close()
fp_utf8.close()
代码不长,但是这个过程中的errors = 'ignore’很关键,加上这句话就会自动忽略无法编码的字符,否则遇到不能编码成ascii的字符就会抛异常干掉程序
需要的原因:部分utf8编码的字符无法转换为ascii,只能丢弃