scrapy爬虫
程序员文章站
2022-05-06 19:05:19
...
安装
pip install scrapy
运行时可能会出现No module named win32api
此时安装pip install pypiwin32
手动创建爬虫小程序
# coding:utf-8
import scrapy
class MySpider(scrapy.Spider):
name = "myspider"
start_urls=["http://www.baidu.com"]
allowed_domaims="http://www.baidu.com"
def parse(self, response):
print response
运行过程:
scrapy runspider 文件名称
自动创建()
scrapy startproject demo_auto
自动创建spider文件
scrapy genspider 文件名 url采集地址
运行方式:
scrapy crawl 爬虫的name
模块化
|-- myspider/ #爬虫项目主目录
|-- scrapy.cfg # 爬虫项目主配置信息文件
|-- myspider/ # 爬虫应用程序目录
|-- __init__.py # 包声明文件
|-- items.py # 数据定义文件~定义需要采集的数据,封装成类型
|-- middleware.py # 爬虫采集中间件
|-- pipeline.py # 管道文件:负责数据入库
|-- settings.py # 应用程序配置信息文件
|-- spiders/ # 爬虫程序所在目录
settings配置文件
ROBOTSTXT_OBEY=TRUE
表示遵循robots协议
上一篇: JSTL使用总结(1) 核心标签库
下一篇: JSTL使用总结(1) 核心标签库