Python使用scrapy抓取网站sitemap信息的方法

程序员文章站 2022-05-01 11:44:06

...

本文实例讲述了Python使用scrapy抓取网站sitemap信息的方法。分享给大家供大家参考。具体如下：

import re
from scrapy.spider import BaseSpider
from scrapy import log
from scrapy.utils.response import body_or_str
from scrapy.http import Request
from scrapy.selector import HtmlXPathSelector
class SitemapSpider(BaseSpider):
 name = "SitemapSpider"
 start_urls = ["http://www.domain.com/sitemap.xml"]
 def parse(self, response):
  nodename = 'loc'
  text = body_or_str(response)
  r = re.compile(r"(])(.*?)(%s>)"%(nodename,nodename),re.DOTALL)
  for match in r.finditer(text):
   url = match.group(2)
   yield Request(url, callback=self.parse_page)
 def parse_page(self, response):
    hxs = HtmlXPathSelector(response)
    #Mock Item
  blah = Item()
  #Do all your page parsing and selecting the elemtents you want
    blash.divText = hxs.select('//div/text()').extract()[0]
  yield blah

希望本文所述对大家的Python程序设计有所帮助。

声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn核实处理。

Python使用scrapy抓取网站sitemap信息的方法

Python多进程方式抓取基金网站内容的方法分析

Python 抓取微信公众号账号信息的方法

C#使用WebClient登录网站并抓取登录后的网页信息实现方法

Python实现抓取百度搜索结果页的网站标题信息

Python多进程方式抓取基金网站内容的方法分析

python实现根据用户输入从电影网站获取影片信息的方法

使用C# CefSharp Python采集某网站简历并且自动发送邀请短信的方法

python使用BeautifulSoup分析网页信息的方法

使用Python自动化破解自定义字体混淆信息的方法实例

C#使用WebClient登录网站并抓取登录后的网页信息实现方法