欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

scrapy爬虫

程序员文章站 2022-05-06 19:05:19
...

安装

pip install scrapy
运行时可能会出现No module named win32api
此时安装pip install pypiwin32

手动创建爬虫小程序

# coding:utf-8

import scrapy

class MySpider(scrapy.Spider):
    name = "myspider"
    start_urls=["http://www.baidu.com"]
    allowed_domaims="http://www.baidu.com"
  def parse(self, response):
    print response
运行过程:
scrapy runspider 文件名称

自动创建()

scrapy startproject demo_auto
自动创建spider文件
scrapy genspider 文件名 url采集地址
运行方式:
scrapy crawl 爬虫的name

模块化

|-- myspider/    #爬虫项目主目录
|-- scrapy.cfg  # 爬虫项目主配置信息文件
|-- myspider/   # 爬虫应用程序目录
    |-- __init__.py # 包声明文件
    |-- items.py    # 数据定义文件~定义需要采集的数据,封装成类型
    |-- middleware.py       # 爬虫采集中间件
    |-- pipeline.py         # 管道文件:负责数据入库
    |-- settings.py         # 应用程序配置信息文件
    |-- spiders/                # 爬虫程序所在目录


  settings配置文件
  ROBOTSTXT_OBEY=TRUE
  表示遵循robots协议