scrapy-简书文章内容的爬取

程序员文章站 2022-05-02 20:28:04

...

一、设置请求头

我使用的是Safari浏览器，右键可以直接找到有关页面的请求标头的信息。
将请求标头的信息写入到settings.py文件中，如下：

DEFAULT_REQUEST_HEADERS = {
  'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
  'Accept-Language': 'en',
  'referer': 'www.jianshu.com',
  'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/602.3.12 (KHTML, like Gecko) Version/10.0.2 Safari/602.3.12'
}

二、爬取代码

2.1在执行爬取操作的时候我们会对网页的内容进行分析，可以使用scrapy shell url的方式，在命令行中就可以进行网页的内容进行提取。

import scrapy

class toscrapyJianshu(scrapy.Spider):
    name = 'toscrapeJianshu'
    start_urls = [
        'http://www.jianshu.com/p/0587c1ce6f2d',
    ]

    def parse(self, response):
        content =  response.css('div.show-content')
        pArr = content.css('p::text').extract()
        for p in pArr:
            yield  {'content':p}

三、执行爬虫

我使用的是pycharm,直接在pycharm的命令行中执行scrapy crawl toscrapeJianshu -o jianshu.json,可以执行这个小爬虫并输出为json文件。

上一篇： python2.x实现人民币转大写人民币

下一篇：新消费趋势,大千超市借“新零售+社群经济”蜕变

scrapy-简书文章内容的爬取

一、设置请求头

二、爬取代码

三、执行爬虫

Python3实现爬取简书首页文章标题和文章链接的方法【测试可用】

python 自动化 selenium 爬取极简壁纸好看的图片

使用Python爬虫爬取小红书完完整整的全过程

Scrapy：在Scrapy中使用selenium来爬取简书全站内容，并存储到MySQL数据库中

Python3实现爬取简书首页文章标题和文章链接的方法【测试可用】

Scrapy加Selenium爬取简书

scrapy-简书文章内容的爬取

selenium+python如何爬取简书网站

怎么让爬虫智能的爬取网页的文章内容

使用Python爬虫爬取小红书完完整整的全过程