利用scrapy爬取网页数据的初级实践
程序员文章站
2022-04-22 13:08:50
...
一、搭建python开发环境
二、安装scrapy框架
python基本环境搭建好后,打开cmd进入安装目录(我的安装目录为python)下的Script目录:
并建议将该文件夹路径加入系统环境变量,否则可能影响后面利用scrapy创建项目的步骤:
1、安装wheel
pip install wheel
2、安装lxml
pip install lxml
3、安装pyopenssl
pip install pyopenssl
4、安装Twisted
pip install Twisted
5、安装pywin32
pip install pywin32
6、安装scrapy
pip install scrapy
在cmd输入scrapy,可查看当前scrapy版本信息, 安装成功。
三、利用scrapy爬取第一段网站数据
在安装环*新建一个工作目录(我的工作目录为PyWork),同样用cmd进入该目录,并且输入:
scrapy startproject tutal
其中tutal为项目名,可更改。
此时将在你的工作目录中生成文件名为tutal的项目文件
再次在cmd中输入:
scrapy genspider csdn_spider csdn.net
该操作会在上图spider文件夹中生成csdn_spider.py,其中csdn_spider为该爬虫项目名,csdn.net为要爬取数据的域名。
用IDE打开csdn_spider.py文件,将start_url变量中的链接修改为https://www.csdn.net/和https://download.csdn.net/:
# -*- coding: utf-8 -*-
import scrapy
class CsdnSpiderSpider(scrapy.Spider):
name = 'csdn_spider'
allowed_domains = ['csdn.net']
start_urls = ['https://www.csdn.net/','https://download.csdn.net/']
#爬取上面两个页面的逻辑
def parse(self, response):
filename = response.url.split('/')[-2] + ".html"
with open(filename, 'wb') as fp:
fp.write(response.body)
最后一步,运行项目。
在cmd中输入
scrapy crawl csdn_spider
查看运行结果
爬取的数据以html格式的文件存储在项目根目录下:
到此,第一个简单的爬取网页数据的爬虫代码运行完成。
推荐阅读
-
利用 scrapy-splash 对京东进行模拟点击并进行数据爬取
-
scrapy 中如何爬取json数据,并解决加载慢的问题
-
Python下使用Scrapy爬取网页内容的实例
-
如何在scrapy中集成selenium爬取网页的方法
-
【Python Scrapy 爬虫框架】 5、利用 pipelines 和 settings 将爬取数据存储到 MongoDB
-
Django结合使用Scrapy爬取数据入库的方法示例
-
使用scrapy做爬虫遇到的一些坑:爬虫使用scrapy爬取网页返回403错误大全以及解决方案
-
Python中Cookies爬取网页数据的方法
-
【推荐】oc解析HTML数据的类库(爬取网页数据)_html/css_WEB-ITnose
-
9.6 笔记:scrapy爬取的数据存入MySQL,MongoDB