python scrapy爬虫框架

程序员文章站 2022-05-06 20:32:50

...

http://scrapy-chs.readthedocs.io/zh_CN/0.24/intro/tutorial.html

scrapy 提取html的标签内容

from scrapy.selector import Selector

selector = Selector(response)
ul = selector.xpath('//ul[@class="movieList"]')

要获取class包含test的所有div，比如<div class="test website"></div>

把上述xpath的参数修改为 "div[contains(@class,'test')]" 即可。

参考：http://blog.csdn.net/iefreer/article/details/20745065

相关标签： js java python linux html

解决Python 爬虫URL中存在中文或特殊符号无法请求的问题