欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  IT编程

网络爬虫之使用pyppeteer替代selenium完美绕过webdriver检测

程序员文章站 2022-06-28 23:54:19
当使用selenium+webdriver写爬虫被检测到时,pyppeteer是你得不二选择,几乎所有能在人工操作浏览器进行的操作通过pyppeteer都能实现,且能完美避开官方对webdriver的检测。 ......

1引言

曾经使用模拟浏览器操作(selenium + webdriver)来写爬虫,但是稍微有点反爬的网站都会对selenium和webdriver进行识别,网站只需要在前端js添加一下判断脚本,很容易就可以判断出是真人访问还是webdriver。虽然也可以通过中间代理的方式进行js注入屏蔽webdriver检测,但是webdriver对浏览器的模拟操作(输入、点击等等)都会留下webdriver的标记,同样会被识别出来,要绕过这种检测,只有重新编译webdriver,麻烦自不必说,难度不是一般大。

作为selenium+webdriver的优秀替代,pyppeteer就是一个很好的选择。

2 手动安装

通过pip使用豆瓣源加速安装pyppeteer:

pip install -i https://pypi.douban.com/simple pypeteer

按照官方手册,先来感受一下:

import asyncio
from pyppeteer import launch
 
async def main():
browser = await launch(headless=false)
page = await browser.newpage()
await page.goto('http://www.baidu.com/')
await asyncio.sleep(100)
await browser.close()
 
asyncio.get_event_loop().run_until_complete(main())

pyppeteer第一次运行时,会自动下载chromium浏览器,时间可能会有些长。不过,我第一次运行时,直接报错:

ssl.sslcertverificationerror: [ssl: certificate_verify_failed] certificate verify failed: unable to get local issuer certificate (_ssl.c:1056)

尝试多种方法无果,无奈只能手动下载,但手动下载的方法网上资料也几乎没有,让我来做这个先行者吧。

上面代码运行虽然报错,但是控制台前两行却提供了很有用的信息:

[w:pyppeteer.chromium_downloader] start chromium download.
download may take a few minutes.

可以看到,下载功能是由pyppeteer.chromium_downloader模块完成的,那么我们进入这个模块查看源码。

在这个模块源码中,我们可以看到downloadurls、chromiumexecutable等变量,很明显指的就是下载链接和chromium的可执行文件路径。我们重点关注一下可执行文件路径

chromiumexecutable:
chromiumexecutable = {
'linux': downloads_folder / revision / 'chrome-linux' / 'chrome',
'mac': (downloads_folder / revision / 'chrome-mac' / 'chromium.app' /
'contents' / 'macos' / 'chromium'),
'win32': downloads_folder / revision / 'chrome-win32' / 'chrome.exe',
'win64': downloads_folder / revision / 'chrome-win32' / 'chrome.exe',
}

可见,无论在哪个平台下,chromiumexecutable都是由是4个部分组成,其中 downloads_folder 和 revision是定义好的变量:

downloads_folder = path(__pyppeteer_home__) / 'local-chromium'

进一步查看可以发现:

__pyppeteer_home__ = os.environ.get('pyppeteer_home', appdirs('pyppeteer').user_data_dir)
revision = os.environ.get('pyppeteer_chromium_revision', __chromium_revision__)

所以,downloads_folder 和 revision都是读取对应环境变量设置好的值,如果没有设置,就使用默认值。我们来输出一下,看看默认值:

import pyppeteer.chromium_downloader
print('默认版本是:{}'.format(pyppeteer.__chromium_revision__))
print('可执行文件默认路径:{}'.format(pyppeteer.chromium_downloader.chromiumexecutable.get('win64')))
print('win64平台下载链接为:{}'.format(pyppeteer.chromium_downloader.downloadurls.get('win64')))

输出结果如下:

默认版本是:575458
可执行文件默认路径:c:\users\administrator\appdata\local\pyppeteer\pyppeteer\local-chromium\575458\chrome-win32\chrome.exe
win64平台下载链接为:https://storage.googleapis.com/chromium-browser-snapshots/win_x64/575458/chrome-win32.zip

 在使用上面代码的时候,你可以将win64换成你的平台就好了,有了上面的下载链接,这个时候就可以先开始下载着chromium浏览器(有些慢),然后继续往下看。

对于版本,没什么好说的,是用默认的就好了。但是,对于chromium的可执行文件路径,默认是在c盘,对于有c盘洁癖的我,咋看咋不舒服,那就改了吧。从上面的分析中我们可以知道,c:\users\administrator\appdata\local\pyppeteer\pyppeteer这一部分读取的是环境变量或者默认值,所以,我们可以通过配置环境变量改这一部分(或者也可以直接改源码,读取环境变量那一行,直接设为固定值),通过os.environ添加pyppeteer_home这一变量值,例如我想把我的chromium放在d盘的program files文件夹下:
import os
os.environ['pyppeteer_home'] = 'd:\program files'
import pyppeteer.chromium_downloader
print('默认版本是:{}'.format(pyppeteer.__chromium_revision__))
print('可执行文件默认路径:{}'.format(pyppeteer.chromium_downloader.chromiumexecutable.get('win64')))
print('win64平台下载链接为:{}'.format(pyppeteer.chromium_downloader.downloadurls.get('win64')))

输出如下:

默认版本是:575458
可执行文件默认路径:d:\program files\local-chromium\575458\chrome-win32\chrome.exe
win64平台下载链接为:https://storage.googleapis.com/chromium-browser-snapshots/win_x64/575458/chrome-win32.zip

 特别提醒:上面设置环境变量的那一行,必须在导入pyppeteer这一行千米,否则设置无效。

上面这种方法你需要在每次使用pypeeteer之前通过这行代码设置一下,实在麻烦,所以,我还是更愿意直接在windows系统里面添加这个变量:

网络爬虫之使用pyppeteer替代selenium完美绕过webdriver检测

虽然我们把环境变量设置为d:\program files,但是层层文件夹之后,才到真正的可执行文件chrome.exe,下载好的压缩包解压后,所有文件都在名为chrome-win的文件夹中,所以,我们需要在d:\program files创建local-chromium\575458这两个文件夹(575458是上面的版本号,记得修改为你的版本号),然后将解压得到的chrome-win文件夹,重命名为chrome-win32,然后直接拷贝进去就好,整个安装过程就完成了。

再来试试最初(最上面)的代码,你会看到,已经可以成功运行。

我相信,大多数阅读这篇博文的读者都是用pyppeteer来开发爬虫(别说维护世界和平,我不信),那么接下来,重点来说说爬虫中要用到的一些主要操作。

3 主要操作

3.1 打开浏览器

打开浏览器是通过pyppeteer.launcher.launch(options: dict = none, **kwargs) 方法,运行该函数后,会得到一个pyppeteer.browser.browser实例,也就是说浏览器对象实例。launch方法是必须使用的方法,所以,详细学学它的参数,你也直接阅读,因为我也是直接翻译的:

  • ignorehttpserrors (bool): 是否https错误,某人情况下为false.
  • headless (bool): 是否以无头模式(*面模式)执行,默认为true,为true时是不会弹出可视界面的,所以,上面代码运行时设置headless=false。注意,下面还有个devtools参数,表示是否出现打开调试窗口,如果devtools设置为true,headless就算设置为false也会弹出可视界面。
  • executablepath (str): chromium或chrome浏览器的可执行文件路径,如果设置,则使用设置的这个路径,不使用默认设置.
  • slowmo (int|float): 设置这个参数可以延迟pyppeteer的操作,单位是毫秒.
  • args (list[str]): 要传递给浏览器进程的一些其他参数.
  • ignoredefaultargs (bool): 如果有些参数你不想使用默认值,那么,通过这个参数设置,不过,孩子,最好别用,有危险(电脑会爆炸).
  • handlesigint (bool): 是否响应 sigint 信号,是否允许通过快捷键ctrl+c来终止浏览器进程,默认值为true,也就是允许.
  • handlesigterm (bool): 是否响应 sigterm 信号,也就是说kill命令关闭浏览器,,默认值为true,也就是允许.
  • handlesighup (bool): 是否响应 sighup 信号,即挂起信号,默认值为true,也就是允许.
  • dumpio (bool): 是要将浏览器进程的输出传递给process.stdout 和 process.stderr 对象,默认为false不传递。
  • userdatadir (str): 用户数据文件目录.
  • env (dict): 以字典的形式传递给浏览器环境变量.
  • devtools (bool): 是否打开调试窗口,上面介绍headless参数是说过,默认值为false不打开.
  • loglevel (int|str): 日志级别,默认和 root logger 对象的级别相同.
  • autoclose (bool): 当所有操作都执行完后,是否自动关闭浏览器,默认true,自动关闭.
  • loop (asyncio.abstracteventloop): 时间循环。
  • appmode (bool): deprecated.

打开浏览器操作简单,看参数就行,不多介绍。

3.2 调整窗口大小

如果你运行了上面的代码,你会发现,打开的页面只在窗口左上角一小块显示,看着很别扭,这是因为pyppeteer默认窗口大小是800*600,所以,调整一下吧。调整窗口大小通过方法实现,看下面代码,最大化窗口:

import asyncio
from pyppeteer import launch
 
def screen_size():
    """使用tkinter获取屏幕大小"""
    import tkinter
    tk = tkinter.tk()
    width = tk.winfo_screenwidth()
    height = tk.winfo_screenheight()
    tk.quit()
    return width, height
 
async def main():
    browser = await launch(headless=false)
    page = await browser.newpage()
    width, height = screen_size()
    await page.setviewport({ # 最大化窗口
        "width": width,
        "height": height
    })
await page.goto('http://www.baidu.com/')
await asyncio.sleep(100)
await browser.close()
 
asyncio.get_event_loop().run_until_complete(main())    

3.3 设置useragent

常规操作,不多说,上代码:

import asyncio
from pyppeteer import launch
 
async def main():
browser = await launch(headless=false)
page = await browser.newpage()
# 设置请求头useragent
await page.setuseragent('mozilla/5.0 (linux; android 6.0; nexus 5 build/mra58n) applewebkit/537.36 (khtml, like gecko) chrome/74.0.3729.169 mobile safari/537.36')
await page.goto('http://www.baidu.com/')
await asyncio.sleep(100)
await browser.close()
 
asyncio.get_event_loop().run_until_complete(main())

3.4 执行js脚本

有时候,为了达成某些目的(例如屏蔽网站原有js),我们不可避免得需要执行一些js脚本。执行js脚本通过evaluate方法。如下所示,我们通过js来修改window.navigator.webdriver属性的值,由此绕过网站对webdriver的检测:

import asyncio
from pyppeteer import launch
 
async def main():
js1 = '''() =>{
 
    object.defineproperties(navigator,{
    webdriver:{
        get: () => false
        }
    })
}'''
 
js2 = '''() => {
    alert (
        window.navigator.webdriver
    )
}'''
browser = await launch({'headless':false, 'args':['--no-sandbox'],})
 
page = await browser.newpage()
await page.goto('https://h5.ele.me/login/')
await page.evaluate(js1)
await page.evaluate(js2)
 
asyncio.get_event_loop().run_until_complete(main())

在上面代码中,通过page.evalute方法执行了两段js脚本,第一段脚本将webdriver的属性值设为false,第二段代码在此读取 webdriver属性值,输出为false。

3.5 模拟操作

pyppeteer提供了keyboard和mouse两个类来实现模拟操作,前者是用来实现键盘模拟,后者实现鼠标模拟(还有其他触屏之类的就不说了)。

主要来说说输入和点击:

import os
os.environ['pyppeteer_home'] = 'd:\program files'
import asyncio
from pyppeteer import launch
 
async def main():
browser = await launch(headless=false, args=['--disable-infobars'])
page = await browser.newpage()
await page.goto('https://h5.ele.me/login/')
await page.type('form section input', '12345678999') # 模拟键盘输入手机号
await page.click('form section button') # 模拟鼠标点击获取验证码
await asyncio.sleep(200)
await browser.close()
 
asyncio.get_event_loop().run_until_complete(main())

上面的模拟操作中,无论是模拟键盘输入还是鼠标点击定位都是通过css选择器,似乎pyppeteer的type和click直接模拟操作定位都只能通过css选择器(或者是我在官方文档中没找到方法),当然,要间接通过xpath先定位,然后再模拟操作也是可以的。下一小节中模拟登陆外卖平台就是用这种方法,不过,这种方法要麻烦一些,不推荐。

 3.6 某电商平台模拟登陆

我曾经用selenium + chrome 实现了模拟登陆这个电商平台,但是实在是有些麻烦,绕过对webdriver的检测不难,但是,通过webdriver对浏览器的每一步操作都会留下特殊的痕迹,会被平台识别,这个必须通过重新编译chrome的webdriver才能实现,麻烦得让人想哭。不说了,都是泪,下面直接上用pyppeteer实现的代码:

import os
os.environ['pyppeteer_home'] = 'd:\program files'
import asyncio
from pyppeteer import launch
 
def screen_size():
    """使用tkinter获取屏幕大小"""
    import tkinter
    tk = tkinter.tk()
    width = tk.winfo_screenwidth()
    height = tk.winfo_screenheight()
    tk.quit()
    return width, height
 
 
async def main():
    js1 = '''() =>{
 
        object.defineproperties(navigator,{
        webdriver:{
            get: () => false
            }
        })
    }'''
 
    js2 = '''() => {
        alert (
            window.navigator.webdriver
        )
    }'''
    browser = await launch({'headless':false, 'args':['--no-sandbox'],})
 
    page = await browser.newpage()
    width, height = screen_size()
    await page.setviewport({ # 最大化窗口
        "width": width,
        "height": height
    })
    await page.goto('https://h5.ele.me/login/')
    await page.evaluate(js1)
    await page.evaluate(js2)
    input_sjh = await page.xpath('//form/section[1]/input[1]')
    click_yzm = await page.xpath('//form/section[1]/button[1]')
    input_yzm = await page.xpath('//form/section[2]/input[1]')
    but = await page.xpath('//form/section[2]/input[1]')
    print(input_sjh)
    await input_sjh[0].type('*****手机号********')
    await click_yzm[0].click()
    ya = input('请输入验证码:')
    await input_yzm[0].type(str(ya))
    await but[0].click()
    await asyncio.sleep(3)
    await page.goto('https://www.ele.me/home/')
    await asyncio.sleep(100)
    await browser.close()
 
asyncio.get_event_loop().run_until_complete(main())

登录时,由于等待时间过长(我猜的)导致出现以下错误:

pyppeteer.errors.networkerror: protocol error (runtime.callfunctionon): session closed. most likely the page has been closed.

在github上找到了解决方法,似乎只能改源码,找到pyppeteer包下的connection.py模块,在其43行和44行改为下面这样:

self._ws = websockets.client.connect(
# self._url, max_size=none, loop=self._loop)
self._url, max_size=none, loop=self._loop, ping_interval=none, ping_timeout=none)

再次运行就没问题了。可以成功绕过官方对webdriver的检测,登录成功,诸位可以自己尝试一下。

4 总结

当使用selenium+webdriver写爬虫被检测到时,pyppeteer是你得不二选择,几乎所有能在人工操作浏览器进行的操作通过pyppeteer都能实现,且能完美避开官方对webdriver的检测。pyppeteer涉及的使用方法还很多,本文只介绍了常用方法的很小很小一部分,需要一说的是,pyppeteer的中文资料真的很少,多看看吧。

参考:

https://mp.weixin.qq.com/s?__biz=mziznza4ndk3nw==&mid=2457737358&idx=1&sn=fb88904cac67300130cabbc72bc4a650&chksm=ff44b0d0c83339c6496cabf8e09e8a9e0316df1032ef7523ba6ab7f4f6a4bea1cd4c02eb7d7b&mpshare=1&scene=1&srcid=&key=076402fec4624ccbe758d20c86fbbfabff1a1de62190662a69bb6decd76681b07d9b48c371a99b1237702740a0181d36410e1af661dad8732cc0c65b9f772fb3f988ce1840a07037579a9d134d7ad57d&ascene=1&uin=mju5mja4otg0na%3d%3d&devicetype=windows+10&version=62060739&lang=zh_cn&pass_ticket=gfs%2b1svn%2fxqihon1175cxflsbs1mtzkjwqgpbipwd9ilqcfn2fwqjxz1alhst0fh