欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

scrapy-简书文章内容的爬取

程序员文章站 2022-05-02 20:28:04
...

一、设置请求头

  我使用的是Safari浏览器,右键可以直接找到有关页面的请求标头的信息。
  将请求标头的信息写入到settings.py文件中,如下:

DEFAULT_REQUEST_HEADERS = {
  'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
  'Accept-Language': 'en',
  'referer': 'www.jianshu.com',
  'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/602.3.12 (KHTML, like Gecko) Version/10.0.2 Safari/602.3.12'
}

二、爬取代码

  • 2.1在执行爬取操作的时候我们会对网页的内容进行分析,可以使用scrapy shell url的方式,在命令行中就可以进行网页的内容进行提取。
import scrapy

class toscrapyJianshu(scrapy.Spider):
    name = 'toscrapeJianshu'
    start_urls = [
        'http://www.jianshu.com/p/0587c1ce6f2d',
    ]

    def parse(self, response):
        content =  response.css('div.show-content')
        pArr = content.css('p::text').extract()
        for p in pArr:
            yield  {'content':p}

三、执行爬虫

  我使用的是pycharm,直接在pycharm的命令行中执行scrapy crawl toscrapeJianshu -o jianshu.json,可以执行这个小爬虫并输出为json文件。