python实战笔记之(12):Scrapy框架安装
一、什么是Scrapy
Scrapy是Python开发的一个快速、高层次的屏幕抓取和web抓取框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛,可以用于数据挖掘、监测和自动化测试。
Scrapy吸引人的地方在于它是一个框架,任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类,如BaseSpider、sitemap爬虫等,最新版本又提供了web2.0爬虫的支持。
二、直接安装
下面介绍在Windows下安装Scrapy的过程。
在Windows下安装Scrapy框架是非常麻烦的,需要安装许多依赖库,万一有一个依赖库没有安装好就会导致安装失败。安装过程可以分为以下几步:
1.安装wheel
pip install wheel
第一步需要安装wheel,安装好wheel库之后,你就可以安装一些wheel文件,通过这些wheel文件完成其他库的安装。因为我已经安装过了,所以会显示以下内容。
2. 安装lxml
第二步需要安装lxml,通过这个链接http://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml,可以找到很多不同版本的wheel文件,由于我使用的是python3.6,所以就下载了下面这个文件。
直接点击就可以下载,下载完成后找到该文件,右键-->属性-->安全,把对象名称,也就是文件路径copy下来,然后在CMD窗口输入“pip install copy的路径”就可以了。
3.PyOpenssl
第三步需要安装PyOpenssl,通过链接https://pypi.python.org/pypi/pyOpenSSL#downloads,进入pypi网站,点击“Download files”,然后点击下载wheel文件即可。
接着,同样把文件路径(包括文件名称)复制下来,在CMD输入“pip install copy的路径”进行安装。
4.安装Twisted
第四步需要安装Twisted框架,这是一个异步框架,Scrapy的核心就是基于Twisted框架。同样地,访问http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted,下载对应版本的wheel文件。
下面依然是复制文件路径,并用pip进行安装。
5.安装Pywin32
接下来需要安装Pywin32文件,它是python和win32在运行过程中兼容的一个库。访问https://sourceforge.net/projects/pywin32/files/pywin32/Build%20220/,打开之后会看到一个下载列表,这里点击下载3.6版本。
下载完成会看到一个exe文件,运行之,依次点击下一步,然后点击完成。
6.安装Scrapy
安装完依赖库之后,最后一步安装Scrapy框架就Ok了。
pip install scrapy
7.测试Scrapy
最后对安装完的Scrapy框架进行测试,比如新建一个“hello”项目:输入“scrapy startproject hello”:
根据提示依次输入:
cd hello
scrapy genspider baidu www.baidu.com
然后它给我们创建了一个spider:
接下来我们输入“scrapy crawl baidu”,运行一下这个spider,如果运行过程没有出错的话,就说明Scrapy框架安装没问题。
三、Anaconda平台下的安装
Anaconda是一个科学计算环境,它里面给我们提供了许多库。如果装有Anaconda,就可以用“conda”命令安装Scrapy。
用conda安装是非常简单的,只需要输入“conda install scrapy”就可以了,出现提示后输入“y”。