Python采用readline()方式读取txt,出现字符编码的相关问题
程序员文章站
2022-04-11 17:21:07
...
python里面字符的编码方式很多,一不小心就搞错了
尝试从txt里读取一个爬取的英文小故事,并用nltk库对词进行筛选。读取的方式是readline函数,结果再文章末尾出现了报错:
UnicodeDecodeError: 'gbk' codec can't decode byte 0x9d in position 33: illegal multibyte sequence
后来想了下,干脆改成utf-8编码试一试,结果更惨……直接就在第一句话被暴毙了
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xa1 in position 283: invalid start byte
最后找了很久,尝试了一个如下的编码,终于解决了问题:
with open(file, encoding='ISO-8859-1' ) as fin:
希望能够帮到更多的人吧