爬虫(23)scrapy集成selenium+redis简介
文章目录
第二十一章 scrapy集成selenium
1. selenium爬取简书案例
今天讲一讲自动化测试工具Selenium如何集成在srapy中。
1.1 项目目标
当数据是通过加载得到的,或者复杂的数据难于爬取,就用到selenium。简书就是这种,难爬取。
详情页里面有文章的内容,还有评论。
评论下面还有文章被收录的专题:
如果你的文章写的好,就会被有的人收录到自己的专题里面,这样可以增加文章的曝光度。
我们今天要讲的是如何在Scrapy中集成selenium。爬虫逻辑我们可以从普通的selenium爬虫去写。我们的目标是:
进入详情页面,在评论区收录专题里,如果有“展开更多”,我们点击一下,然后翻到下一篇。如果没有“展开更多”,我们进 入详情页面后,直接翻到下一篇,我们就做这样一个动作。我们先通过selenium做,然后再把逻辑集成到scrapy当中。
1.2 先通过selenium
我们先创建一个py文件,命名为demo23:
from selenium import webdriver
driver = webdriver.Chrome()
url = 'https://www.jianshu.com/p/a645f85e50ea'
driver.get(url)
运行测试一下:
浏览器被打开了,而且进入了详情页。
下面我们做一个动作,点击“展开更多”。
我们需要导入一系列方法,用来设置页面等待,因为要等展开更多按钮加载成功后才能做点击动作。下面一行代码导入By方法,后面可以定位目标。最后一行做条件等待。
from selenium.webdriver.support.ui import WebDriverWait
# 导入这个方法后面用来设置显示等待
from selenium.webdriver.common.by import By
# 导入这个方法后面用来做定位
from selenium.webdriver.support import expected_conditions as EC
# 导入这个方法用来设置条件等待
下面我们看一下按钮的位置:
我们可以看到按钮是在一个class="H7E3vT"的div标签里面。于是我们可能会马上用xpath定位,但是这个class="H7E3vT"是特别的,告诉大家,这个值是动态的,也就是说这次能够找到,下次就找不到了,因为值已经动态变化了。
所以,我们要用位置来定位(position)。以前在讲xpath的时候讲过(查找某个特定的节点或者包含某个指定的值的节点)。
我们可以这样定义翻页元素:
我们用这种方法来定位“展开更多”按钮。
通过观察我们发现,“展开更多”按钮在第二个section标签的div标签的最后一个div标签里面。我们通过位置来寻找这个按钮所在的标签。代码:
from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
# 导入这个方法后面用来设置显示等待
from selenium.webdriver.common.by import By
# 导入这个方法后面用来定位
from selenium.webdriver.support import expected_conditions as EC
# 导入这个方法用来设置条件等待
driver = webdriver.Chrome()
url = 'https://www.jianshu.com/p/a645f85e50ea'
driver.get(url)
# 设置显示等待,“展开更多”按钮。
WebDriverWait(driver,6).until(
EC.element_to_be_clickable((By.XPATH,'//section[position()=2]/div/div[last()]'))
)
最后一行代码,本来定位div正规的写法应该是div[postion()=1]/div[last()]。
但是由于第一个div的位置只有一个div标签,所以可以省略不写。
为了确保点到按钮,我们可以写一个循环不停的点击。
while True:
try:
more_btn = driver.find_element_by_xpath('//section[position()=2]/div/div[last()]')
more_btn.click()
except: # 报异常的时候退出循环(当按钮被点开后,再点击就会报错)
break
下面为了方便观察,我们获取一下收藏的专题:
这些数据都在第一个div标签的a标签里面。
# 获取收藏专题
subjects = driver.find_elements_by_xpath('//section[position()=2]/div/a')
for subject in subjects:
print(subject.text)
我们运行一下:
这些数据是拿到了。
不过“展开更多”按钮好像没有点开。我怀疑是页面没有拉到最下面,所以没有点住,所以做如下处理,注意看注释:
import time
from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
# 导入这个方法后面用来设置显示等待
from selenium.webdriver.common.by import By
# 导入这个方法后面用来定位
from selenium.webdriver.support import expected_conditions as EC
# 导入这个方法用来设置条件等待
from selenium.webdriver.common.keys import Keys
# 导入这个方法用来翻页
driver = webdriver.Chrome()
url = 'https://www.jianshu.com/p/a645f85e50ea'
driver.get(url)
# 设置显示等待,“展开更多”按钮。
WebDriverWait(driver,6).until(
EC.element_to_be_clickable((By.XPATH,'//section[position()=2]/div/div[last()]'))
)
driver.maximize_window() # 窗口最大化
scroll_btn = driver.find_element_by_xpath('/html')
scroll_btn.send_keys(Keys.PAGE_DOWN)
# 滚动调点击50次
for i in range(30):
scroll_btn = driver.find_element_by_xpath('//html[@lang="en"]')
scroll_btn.send_keys(Keys.PAGE_DOWN)
time.sleep(0.2)
# 操作点击”展开更多按钮“。
while True:
try:
more_btn = driver.find_element_by_xpath('//section[position()=2]/div/div[last()]')
more_btn.click()
except: # 报异常的时候退出循环(当按钮被点开后,再点击就会报错)
break
# 获取收藏专题
subjects = driver.find_elements_by_xpath('//section[position()=2]/div/a')
for subject in subjects:
print(subject.text)
运行一下,成功打开页面,也一直翻页到最下面,但是“展开更多”按钮还是没有被打开。
我数算了一下,当点击pagedown 到17下的时候,窗口刚好停留在“展开更多”按钮的位置,于是设置range(17)。这次果然点开了。但是这样也太麻烦了。当“展开更多”按钮在可视范围内就能点到,不在的话就点不到。我们使用另一种方法
target = driver.find_element_by_xpath("//section[position()=2]/h3[position()=1]") # "被以下专题收入,发现更多相似内容"标签
driver.execute_script("arguments[0].scrollIntoView();", target) # 将”被以下专题收入,发现更多相似内容“标签拖到可见元素去
这次点开了。
当然,还有另外一种办法,用js的方法点击:
driver.execute_script('arguments[0].click();',more_btn) # js的方法点击
运行
被点开了。再看一下这个逻辑:
import time
from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
# 导入这个方法后面用来设置显示等待
from selenium.webdriver.common.by import By
# 导入这个方法后面用来定位
from selenium.webdriver.support import expected_conditions as EC
# 导入这个方法用来设置条件等待
from selenium.webdriver.common.keys import Keys
# 导入这个方法用来翻页
driver = webdriver.Chrome()
url = 'https://www.jianshu.com/p/a645f85e50ea'
driver.get(url)
# 设置显示等待,“展开更多”按钮。
WebDriverWait(driver,6).until(
EC.element_to_be_clickable((By.XPATH,'//section[position()=2]/div/div[last()]'))
)
driver.maximize_window() # 窗口最大化
# target = driver.find_element_by_xpath("//section[position()=2]/h3[position()=1]") # "被以下专题收入,发现更多相似内容"标签
# driver.execute_script("arguments[0].scrollIntoView();", target) # 将”被以下专题收入,发现更多相似内容“标签拖到可见元素去
# 操作点击”展开更多按钮“。
while True:
try:
more_btn = driver.find_element_by_xpath('//section[position()=2]/div/div')
driver.execute_script('arguments[0].click();',more_btn) # js的方法点击
# more_btn.click()
except: # 报异常的时候退出循环(当按钮被点开后,再点击就会报错)
break
# 获取收藏专题
subjects = driver.find_elements_by_xpath('//section[position()=2]/div/a')
for subject in subjects:
print(subject.text)
也拿到了所有的“收藏专题”
D:\Python38\python.exe D:/work/爬虫/Day23/demo23.py
简文拾贝
一思诗文集
人物
【头号玩家公会】
简书热文制造局
想法
圣殿骑士团plus
散文
哲思
Process finished with exit code 0
2. selenium集成到scrapy
下面我们要实现的功能就是,通过scrapy,先进入列表页,然后依次点开每篇文章进入详情页,然后如果有“展开更多”就点击一下展开,如果没有就进入下一篇的详情页。我们实现这么一个动作。
我们发现这样的功能需要跟进url翻页,用crawlspider比较好。
2.1 创建crawlspider项目
创建scrapy项目:
D:\work\爬虫\Day23>scrapy startproject janshu
New Scrapy project 'janshu', using template directory 'd:\python38\lib\site-packages\scrapy\templates\proj
ect', created in:
D:\work\爬虫\Day23\janshu
You can start your first spider with:
cd janshu
scrapy genspider example example.com
创建spider项目:
D:\work\爬虫\Day23>cd janshu
D:\work\爬虫\Day23\janshu>scrapy genspider -t crawl js jianshu.com
Created spider 'js' using template 'crawl' in module:
janshu.spiders.js
D:\work\爬虫\Day23\janshu>
2.2 设置项目
下面我们做一下简单设置:
LOG_LEVEL = 'WARNING'
ROBOTSTXT_OBEY = False
DEFAULT_REQUEST_HEADERS = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.104 Safari/537.36',
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
'Accept-Language': 'en',
}
进入js项目,把起始url改动一下,把第一篇文章的详情页的url作为起始url。
start_urls = ['https://www.jianshu.com/p/9ee83c58af2a']
2.3 逻辑实现
那么下面的逻辑怎么写呢?我们先在列表页面找下一篇的url相关的标签:
如果我们点击这个url(其实是一部分,如果点击,浏览器会补全:https://www.jianshu.com/p/872f10d1e1ec)直接回进入这篇文章的详情页。
下面我们在Rule里面进行正则表达式的匹配:
# https://www.jianshu.com/p/872f10d1e1ec 下一页的url
rules = (
Rule(LinkExtractor(allow=r'.*/p/\W+'), callback='parse_item', follow=True),
)
2.3.1 scrapy的工作环节
下面我们如何把selenium集成到scrapy呢?我们用一幅图来解释一下scrapy的工作环节:
我们之前做的是不通过Scrapy直接发起请求,是右边那条路线。现在我们想要通过selenium,在scrapy里面如果打开了下载中间件,下载中间件会拦截这个请求,可以在下载中间件里面集成selenium,由selenium发起请求。之前默认返回None,现在需要返回一个response。
下面我们直接打开middlewares文件:
from scrapy import signals
# useful for handling different item types with a single interface
from itemadapter import is_item, ItemAdapter
class JanshuDownloaderMiddleware:
def process_request(self, request, spider):
return None
2.4 定义JanshuDownloaderMiddleware
我们可以自己定义,也可以使用已经有的DownloaderMiddlewares,这里我们把没有用的方法都删除了,只留下了我们这个项目需要用的方法 def process_request(self, request, spider):。
默认返回了一个None。我们下面把之前在Demo23里面的代码都复制到middlewares里面去。
定义一个init方法,把浏览器驱动放进去。
class JanshuDownloaderMiddleware:
def __init__(self):
self.driver = webdriver.Chrome()
下面我们通过process_request方法拦截请求,不同的返回值会产生不一样的结果。正常的情况下会返回None。如果要通过这个方法来拦截请求,这个返回的方法就要改变成response对象,就代表拦截了一个请求,就返回了一个自己的通过selenium 发起的请求的response对象。本来我们应该把这个请求发给爬虫程序来处理,然后返回一个response。但是这里不需要发送了,因为已经得到一个请求结果了。
下面我们把之前写好的点击逻辑复制到process_request方法中来,注意几个地方的写法需要改动一下,把所有用到driver的地方改成self.driver,把url改成request.url。再导入一个response模块用来把得到的数据封装成response对象。
from scrapy.http.response.html import HtmlResponse
下面要设置返回值response
response = HtmlResponse(request.url,body=self.driver.page_source,request=request,encoding='utf-8')
其中的参数,第一个request.url是发起请求的url;第二个body=self.driver.page_source是拿到网页源码;第三个request=request传递给pipelines来存储数据;最后一个是编码。
2.5 完整代码
完整的代码如下:
from scrapy import signals
import time
from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC
from scrapy.http.response.html import HtmlResponse
class JanshuDownloaderMiddleware:
def __init__(self):
self.driver = webdriver.Chrome()
def process_request(self, request, spider):
# 我们需要拦截请求,由selenium发起请求,将获取的数据封装成一个response对象。
self.driver.get(request.url)
WebDriverWait(self.driver, 6).until(
EC.element_to_be_clickable((By.XPATH, '//section[position()=2]/div/div[last()]'))
)
self.driver.maximize_window() # 窗口最大化
# 操作点击”展开更多按钮“。
while True:
try:
more_btn = self.driver.find_element_by_xpath('//section[position()=2]/div/div')
self.driver.execute_script('arguments[0].click();', more_btn) # js的方法点击
# more_btn.click()
except: # 报异常的时候退出循环(当按钮被点开后,再点击就会报错)
break
response = HtmlResponse(request.url,body=self.driver.page_source,request=request,encoding='utf-8')
return response
2.6 settings文件的设置
下面我们需要在settings里面打开DownloaderMiddlewares
DOWNLOADER_MIDDLEWARES = {
'janshu.middlewares.JanshuDownloaderMiddleware': 543,
}
下面我们来一个start启动文件:
from scrapy import cmdline
cmdline.execute('scrapy crawl js'.split())
下面我们运行一下,看看效果。
报了个错:
2021-02-24 00:27:20 [scrapy.core.scraper] ERROR: Error downloading <GET https://www.jianshu.com/p/9ee83c58af2a>
Traceback (most recent call last):
File "D:\Python38\lib\site-packages\twisted\internet\defer.py", line 1418, in _inlineCallbacks
result = g.send(result)
File "D:\Python38\lib\site-packages\scrapy\core\downloader\middleware.py", line 36, in process_request
response = yield deferred_from_coro(method(request=request, spider=spider))
File "D:\work\爬虫\Day23\janshu\janshu\middlewares.py", line 71, in process_request
WebDriverWait(self.driver, 6).until(
File "D:\Python38\lib\site-packages\selenium\webdriver\support\wait.py", line 80, in until
raise TimeoutException(message, screen, stacktrace)
selenium.common.exceptions.TimeoutException: Message:
2.7 报错纠正
后来重新写了xpath定位语句,更准确的定位,但是还是报错。再后来把找到一个有“展开更多”标签的页面的url作为起始url,结果能翻页了。如果这样的话,前面的没有这样标签的就不能翻页了,这样很不方便,干脆来个try语句解决问题,结果就解决了。
class JanshuDownloaderMiddleware:
def __init__(self):
self.driver = webdriver.Chrome()
def process_request(self, request, spider):
try:
# 我们需要拦截请求,由selenium发起请求,将获取的数据封装成一个response对象。
self.driver.get(request.url)
more_btn_xpath = '//div[@role="main"]/div[position()=1]/section[last()]/div[position()=1]/div[last()]'
WebDriverWait(self.driver, 6).until(
EC.element_to_be_clickable((By.XPATH, more_btn_xpath))
)
self.driver.maximize_window() # 窗口最大化
# 操作点击”展开更多按钮“。
while True:
try:
more_btn = self.driver.find_element_by_xpath(more_btn_xpath)
self.driver.execute_script('arguments[0].click();', more_btn) # js的方法点击
# more_btn.click()
except: # 报异常的时候退出循环(当按钮被点开后,再点击就会报错)
break
response = HtmlResponse(request.url,body=self.driver.page_source,request=request,encoding='utf-8')
return response
except:
pass
运行,结果能翻页了。
2.8 总结
总结:
- 我们要集成selenium需要在下载中间件中去实现逻辑
- 这里需要返回一个response对象,需要导入from scrapy.http.response.html import HtmlResponse
- 简书的标签做了处理,我们需要用位置进行标签定位
- 以下的代码是固定不变的,中间的逻辑可以根据需要改变
class JanshuDownloaderMiddleware:
def __init__(self):
self.driver = webdriver.Chrome()
def process_request(self, request, spider):
self.driver.get(request.url)
# 这里是我们要实现的逻辑 #
response = HtmlResponse(request.url,body=self.driver.page_source,request=request,encoding='utf-8')
return response
这块内容属于拓展内容。
3. Redis Scrapy框架进阶
背景
随着互联网+大数据时代的来临,传统的关系型数据库已经不能满足中大型网站日益增长的访问量和数据量。这个时候就需要一种能够快速存取数据的组件来缓解数据库服务I/O的压力,来解决系统性能上的瓶颈。
Redis是什么?
Redis是一个高性能的,开源的,C语言开发的,键值对存储数据的nosql数据库。
NoSQL:not only sql,泛指非关系型数据库 Redis/MongoDB/Hbase Hadoop
关系型数据库:MySQL、oracle、SqlServer
数据库的发展历史
1.在互联网+大数据时代来临之前,企业的一些内部信息管理系统,一个单个数据库实例就能满足系统的需求
单数据库实例
2.随着系统访问用户的增多,数据量的增大,单个数据库实例已经满足不了系统的读取需求
缓存(memcache)+单数据库实例
3.缓存可以缓解系统的读取压力,但是数据量的写入压力持续增大,
缓存+主从数据库+读写分离
4.数据量再次增大,读写分离以后,主数据库的写库压力出现瓶颈、
缓存+主从数据库集群+读写分离+分库分表
5.互联网+大数据时代来临,关系型数据库不能很好的存取一些并发性高,实时性高的,并且数据格式不固定的数据。
nosql+主从数据库集群+读写分离+分库分表
我们可以通过与MySQL对比来了解Redis
MySQL
- 关系型数据库
- 持久化数据 硬盘存储
- 读取速度比较慢
Redis
- NoSql 非关系型数据库
- 存储在缓存中
- 读取速度比较快
比如淘宝,起初用的人比较少,流量也小。后来越来越多的人使用,流量也越来越大。对服务器的压力比较大,数据库后来改成了oracle。但是仍没有根本上解决问题,后来就采用了一种叫着内存的数据库,把一些快速的,不是特别重要的数据放在内存里面。比如直播的粉丝数目,只显示了多少万加,没有具体的数字,因为这个数字时刻在变化。这个数据也不重要,所以就不用放在硬盘中存储。只需要放在内存中存储。但是如果订单,这是比较重要的数据,一定要放在硬盘中存储。关机开机后,数据记录仍然存在。
Redis是一个高性能的,开源的,C语言开发的,键值对存储数据的nosql数据库。
Redis特性
• Redis支持数据的持久化,可以将内存中的数据保存在磁盘中,重启的时候可以再次加载进行使用
• Redis不仅仅支持简单的key-value类型的数据,同时还提供List,set等数据类型
• Redis支持数据的备份
NoSQL和SQL数据库的比较
• 适用场景不同:SQL数据库适合用于关系特别复杂的数据查询场景,nosql反之
• 事务:SQL对事务的支持非常完善,而nosql基本不支持事务(是数据库操作的最小基本单元,它有四大特性:原子性(事物包括各种操作,要么不操作要么都操作)、一致性、隔离性、持续性。)
• 两者在不断的取长补短
Redis有什么用?
Redis的主要作用:快速存取
Redis应用场景
点赞/秒杀/直播平台的在线好友列表/商品排
Redis怎么用?
4. Redis的使用
Redis的五大数据类型以及应用场景:
string/list/set/hash/zset
首先是安装,官网地址:https://redis.io/
我们点击下载它里面的“检查下载页面”。
可以点击“文献资料”来查看使用方法。这个是Redis常用命令地址:http://doc.redisfans.com/。
我们直接把下载下来的文件放在一个地方就可以了,不用添加环境变量,我把它放在D盘的Download里面了。
我们打开命令行窗口,cd到文件目录里:
D:\Download\redis-latest>cd D:\Download\redis-latest\redis-latest
输入命令:
D:\Download\redis-latest\redis-latest>redis-server --help
Usage: ./redis-server [/path/to/redis.conf] [options]
./redis-server - (read config from stdin)
./redis-server -v or --version
./redis-server -h or --help
./redis-server --test-memory <megabytes>
Examples:
./redis-server (run the server with default conf)
./redis-server /etc/redis/6379.conf
./redis-server --port 7777
./redis-server --port 7777 --slaveof 127.0.0.1 8888
./redis-server /etc/myredis.conf --loglevel verbose
Sentinel mode:
./redis-server /etc/sentinel.conf --sentinel
D:\Download\redis-latest\redis-latest>
出现这个界面,说明已经按装成功。我们没有按照,但是可以用了。
我们再输入:
redis-server.exe
回车后出现
windows 3.0的版本。后面有端口等。说明已经启动成功。下面我们再通过客户端连接一下。再打开一个命令行窗口,在同样的路径中输入,
输入:
redis-cli
回车
D:\Download\redis-latest\redis-latest>redis-cli
回车后结果:
D:\Download\redis-latest\redis-latest>redis-cli
127.0.0.1:6379>
这个6379就是之前出现过的端口号
出现这个端口说明我们已经连接成功了。下面我们输入命令查看key的内容:
127.0.0.1:6379> keys *
(empty list or set)
127.0.0.1:6379>
回车后出现的是empty list or set,说明在里面没有任何的数据。出现了这一块就说明你按装成功了。下面我们添加一个数据:
set name Jerry
回车
127.0.0.1:6379> set name Jerry
OK
127.0.0.1:6379>
出现????添加成功。这是我们再查询:
127.0.0.1:6379> keys *
1) "name"
127.0.0.1:6379>
里面就有了一个name了。另外redis里面是不区分大小写的。
下面可以清空数据,但是慎用,尤其你保存了大量数据后:
127.0.0.1:6379> flushall
OK
127.0.0.1:6379>
所有数据都清空了,我们再查询就没有了。
127.0.0.1:6379> keys *
(empty list or set)
127.0.0.1:6379>
这是一些简单的操作。
5. Redis的配置文件
这个文件就是配置文件。我们可以拖动到pycharm中打开:
我们可以在里面进行一些参数的配置,设置。这些后面我们用到的时候会,具体介绍。在这里可以先浏览一下,了解了解。
Redis的配置文件:
/etc/redis/redis.conf
当redis作为守护进程运行的时候,它会写一个 pid 到 /var/run/redis.pid 文件里面。
daemonize no
监听端口号,默认为 6379,如果你设为 0 ,redis 将不在 socket 上监听任何客户端连接。
port 6379
设置数据库的数目。
databases 16
根据给定的时间间隔和写入次数将数据保存到磁盘
下面的例子的意思是:
900 秒内如果至少有 1 个 key 的值变化,则保存
300 秒内如果至少有 10 个 key 的值变化,则保存
60 秒内如果至少有 10000 个 key 的值变化,则保存
save 900 1
save 300 10
save 60 10000
监听端口号,默认为 6379,如果你设为 0 ,redis 将不在 socket 上监听任何客户端连接。
port 6379
Redis默认只允许本地连接,不允许其他机器连接
bind 127.0.0.1
更多配置文件:https://www.cnblogs.com/kreo/p/4423362.html
总结:
- 安装 直接放到本地磁盘里面
- 基本的的命令使用
查看帮助命令
redis-server --help
启动服务
redis-server.exe
链接客户端
redis-cli.exe
Redis数据库简单使用
DBSIZE 查看当前数据库的key数量
keys * 查看key的内容
FLUSHDB 清空当前数据库的key的数量
FLUSHALL 清空所有库的key(慎用)
exists key 判断key是否存在
本次博客暂到这里。
本文地址:https://blog.csdn.net/m0_46738467/article/details/113928417