Scrapy爬虫基础框架及实例演示
安装scrapy
安装 scrapy 之前需安装了window版的 Anaconda python,我的安装版本是
Anaconda3-5.1.0-Windows-x86_64.exe
①: DOS命令行输入:
conda install scrapy
②:下载完成输入 scrapy
,出现以下页面说明scrapy安装成功
注: 若需要卸载scrapy,命令为:pip uninstall scrapy
使用 scrapy 框架创建爬虫项目
Scrapy爬虫工程首先要通过 DOS命令行 创建工程,然后再使用Pycharm打开工程
①:创建一个爬虫文件的工作目录,我的是:D:\work\scrapyWorkSpace
②:在 DOS 命令行中切换至该目录:
d: cd D:work/scrapyWorkSpace
③:创建一个爬虫项目 ScrapyProject
scrapy startproject ScrapyProject
④:切换至这个目录:
cd ScrapyProject
⑤:创建爬虫名 examplespider ,并指定访问的 url地址(地址随便写,可以用pycharm打开再修改)
scrapy genspider examplespider example.com
注:步骤②~⑤如下图所示:
⑥:使用pycharm打开工程,注意打开文件夹为最外层的工程名文件夹 ScrapyProject
⑦:在 spiders/examplespider.py 文件中修改需要爬虫的url地址及parse方法,验证爬虫是否可用
如下图所示:
⑧:启动Spider,有两种方式启动
(1)在DOS命令行启动 Spider
scrapy crawl 爬虫名
scrapy crawl examplespider
出现以下页面说明启动成功(部分截图,爬虫是可用的:
(2)在pycharm中直接启动爬虫Spider ,需要通过脚本启动,步骤如下:
在最外层的项目文件名下创建执行文件 run.py ,内容如下:
from scrapy.cmdline import execute execute("scrapy crawl examplespider".split())
测试爬虫连接:
如图所示:
在 parse() 方法中设置断点测试
右击 Debug 运行run.py文件
若Debug测试成功,说明顺利进入 parse() 方法,爬虫顺利运行,如下如所示:
本文地址:https://blog.csdn.net/and52696686/article/details/108245659