网络爬虫之scrapy的基本实现
程序员文章站
2022-05-06 18:47:33
...
前言
该来的还是要来的,作为网络爬虫,通用的requests库、beautifulsoup库还有常用的selenium库是非常优秀的,他们可以帮助我们解决绝大部分问题的。对于我们个人使用而言,学会这些,基本是够用了。但是哦,使用框架的爬虫可以帮助我们更高效的解决问题,所以…我们今天来看下scrapy的基础使用…
准备工作
- 安装scrapy库
pip install scrapy -i https://pypi.tuna.tsinghua.edu.cn/simple
- 创建一个项目(这里创建一个通用图书爬虫项目)
scrapy startproject book_spider
- 创建一个爬虫
scrapy genspider a69novel 69shu.com
开始实践
此时我们就创建了一个完整的项目了,在这之前,先给大家看一下这个项目的目录树
.
├── book_spider
│ ├── __init__.py
│ ├── items.py
│ ├── middlewares.py
│ ├── pipelines.py
│ ├── settings.py
│ └── spiders
│ ├── __init__.py
│ └── a69novel.py
└── scrapy.cfg
接下来我们开始书写69shu.com网址的爬虫,为了只是做一个演示,对该网站中的一本小说进行爬取下载(ps:杀鸡用牛刀),这里选用校花的贴身高手
叭(ps:笑哭),我们开始针对不同的py文件进行编写。
- item.py文件
用来定义一个容器,这里我们定义四个字段
分别用来存储小说名、小说章节、小说章节内容、小说章节id值novel_name = scrapy.Field() novel_chapter =scrapy.Field() novel_content = scrapy.Field() _id = scrapy.Field()
- a69novel.py文件
这是一个爬虫文件,,由我们刚刚创建的爬虫命令生成的模板文件,这里我们需要对他进行改写。
-
首先,我们需要创建一个item实例,导入刚刚创建好的对象
from book_spider.items import BookSpiderItem_A69Novel item = BookSpiderItem_A69Novel()
-
接下来使用xpath获取内容,这里需要注意一点,由于文本内容需要点进去才可以看到,我们需要定义一个内容解析方法,具体如下:
def parse_content(self, response): item = BookSpiderItem_A69Novel() item['_id'] = response.xpath('//td[@valign="top"]/h1/text()').extract() item['novel_name'] = response.xpath('//div[@class="weizhi"]//a[3]/text()').extract_first() item['novel_chapter'] = response.xpath('//td[@valign="top"]/h1/text()').extract() item['novel_content'] = response.xpath('//div[@class="yd_text2"]/text()').extract() yield item
-
针对我们的解析方法,我们需要做如下处理,将解析的url地址传给上述的内容解析方法
def parse(self, response): temp_link = response.xpath('//div[@class="mu_contain"][2]/ul/li/a/@href').extract() for url in temp_link[:-1]: yield scrapy.Request( str(url), callback=self.parse_content )
到这里其实我们已经实现了一个简单的爬虫,但是我们的数据没有保存啊,来接下来,我们在settings.py
中打开ITEM_PIPELINES
,让数据传递到 pipelines
让我们做下一步处理,当然,在这里大家可以自己设置USER_AGENT啥的。
ITEM_PIPELINES = {
'book_spider.pipelines.BookSpiderPipeline': 300,
}
在pipelines
中我们做如下操作即可
from pymongo import MongoClient
import re
import json
cliect = MongoClient()
db = cliect['book_spider']
class BookSpiderPipeline(object):
def process_item(self, item, spider):
if spider.name == 'a69novel':
collection = db['a69novel']
# 去除多余字符和空字符
temp = [re.sub('\r|\n|(\xa0\xa0\xa0\xa0)', '', str(i)) for i in item['novel_content']]
t = [i for i in temp if i != '']
content = ''
for i in t[1:]:
content += i
id = re.findall('\d+', item['_id'][0])[0]
novel_chapter = re.sub('\d+\.', '', item['novel_chapter'][0])
item['_id'] = id
item['novel_content'] = content
item['novel_chapter'] = novel_chapter
collection.insert(dict(item))
print('ok')
return item
最后一步,运行爬虫
scrapy crawl a69novel
耐心等待一下,效果就出来了哦
附源码地址,欢迎大家来玩
上一篇: 一天一个面试题之——反射
下一篇: scrapy爬虫实例(1)