欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

[python] utf8 bom编码处理

程序员文章站 2022-05-25 22:57:35
...

utf8 bom编码处理

  • decode字符传乱码: 原因是从Facebook下载的csv文件是utf8 bom编码的, 直接decode(‘utf-8’)会出现’\ufeff’; 应该decode(‘utf-8-sig’)
    • 原本以为是文件内容导致的问题,debug之后,发现文件开头有’\ufeff’; 不知道这个是什么东西,墨迹了一会儿之后,尝试Google了才有答案;豁然开朗了
data_str = file.read().decode('utf-8-sig')
datas = data_str.split('\n')
reader = csv.DictReader(datas)