欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

利用scrapy爬取网页数据的初级实践

程序员文章站 2022-04-22 13:08:50
...

一、搭建python开发环境

点击查看python环境搭建教程链接

二、安装scrapy框架

python基本环境搭建好后,打开cmd进入安装目录(我的安装目录为python)下的Script目录:

利用scrapy爬取网页数据的初级实践

 并建议将该文件夹路径加入系统环境变量,否则可能影响后面利用scrapy创建项目的步骤:

利用scrapy爬取网页数据的初级实践

1、安装wheel
pip install wheel

2、安装lxml

pip install lxml

利用scrapy爬取网页数据的初级实践

3、安装pyopenssl

pip install pyopenssl

利用scrapy爬取网页数据的初级实践

4、安装Twisted

pip install Twisted

利用scrapy爬取网页数据的初级实践

5、安装pywin32

pip install pywin32

利用scrapy爬取网页数据的初级实践

6、安装scrapy

pip install scrapy

利用scrapy爬取网页数据的初级实践

在cmd输入scrapy,可查看当前scrapy版本信息, 安装成功。

利用scrapy爬取网页数据的初级实践

 三、利用scrapy爬取第一段网站数据

在安装环*新建一个工作目录(我的工作目录为PyWork),同样用cmd进入该目录,并且输入:

scrapy startproject tutal

其中tutal为项目名,可更改。

利用scrapy爬取网页数据的初级实践

 此时将在你的工作目录中生成文件名为tutal的项目文件

利用scrapy爬取网页数据的初级实践

 再次在cmd中输入:

scrapy genspider csdn_spider csdn.net

该操作会在上图spider文件夹中生成csdn_spider.py,其中csdn_spider为该爬虫项目名,csdn.net为要爬取数据的域名。

用IDE打开csdn_spider.py文件,将start_url变量中的链接修改为https://www.csdn.net/https://download.csdn.net/

# -*- coding: utf-8 -*-
import scrapy


class CsdnSpiderSpider(scrapy.Spider):
    name = 'csdn_spider'
    allowed_domains = ['csdn.net']
    start_urls = ['https://www.csdn.net/','https://download.csdn.net/']

    #爬取上面两个页面的逻辑
    def parse(self, response):
        filename = response.url.split('/')[-2] + ".html"
        with open(filename, 'wb') as fp:
            fp.write(response.body)

最后一步,运行项目。

在cmd中输入

scrapy crawl csdn_spider

查看运行结果

利用scrapy爬取网页数据的初级实践

爬取的数据以html格式的文件存储在项目根目录下:

利用scrapy爬取网页数据的初级实践

到此,第一个简单的爬取网页数据的爬虫代码运行完成。