欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

scrapy中文字符问题

程序员文章站 2022-03-24 19:58:28
...

问题描述

在scrapy spider的解析函数中,有时候通过如下两种方式获得的html数据中中文字符出现类似于\\u3010\\u6bdb\\u91cc这种格式的字符。

respone.text

或者

response.body.decode(response.encoding)

该字符串产生的问题是因为将unicode类型的数据转换为了str类型。在后续的处理中,中文字符只展示编码后的情况。

解决方法

html = response.body.decode(response.encoding)
html = html.encode().decode('unicode_escape')

通过上述方法,中文字符可以正常显示。

相关标签: scrapy 中文字符