欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

Python采用readline()方式读取txt,出现字符编码的相关问题

程序员文章站 2022-04-11 17:21:07
...

python里面字符的编码方式很多,一不小心就搞错了

尝试从txt里读取一个爬取的英文小故事,并用nltk库对词进行筛选。读取的方式是readline函数,结果再文章末尾出现了报错:
 

UnicodeDecodeError: 'gbk' codec can't decode byte 0x9d in position 33: illegal multibyte sequence

后来想了下,干脆改成utf-8编码试一试,结果更惨……直接就在第一句话被暴毙了
 

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xa1 in position 283: invalid start byte

最后找了很久,尝试了一个如下的编码,终于解决了问题:

 

 with open(file, encoding='ISO-8859-1' ) as fin:

希望能够帮到更多的人吧