Selenium及Headless Chrome抓取动态HTML页面

程序员文章站 2022-04-27 20:52:30

一般的的静态HTML页面可以使用requests等库直接抓取，但还有一部分比较复杂的动态页面，这些页面的DOM是动态生成的，有些还需要用户与其点击互动，这些页面只能使用真实的浏览器引擎动态解析，Selenium和Chrome Headless可以很好的达到这种目的。 Headless Chrome ......

一般的的静态html页面可以使用requests等库直接抓取，但还有一部分比较复杂的动态页面，这些页面的dom是动态生成的，有些还需要用户与其点击互动，这些页面只能使用真实的浏览器引擎动态解析，selenium和chrome headless可以很好的达到这种目的。

headless chrome

headless chrome 是 chrome 浏览器的*面形态，可以在不打开浏览器的前提下，使用所有chrome支持的特性，在命令行中运行你的脚本。以前在爬虫要使用phantomjs来实现这些功能，但phantomjs已经暂停开发，现在可以使用headless chrome来代替。

使用很简单，保证chrome命令指向chrome浏览器的安装路径，ubuntu下为google-chrome。

输出html：

google-chrome --headless --dump-dom https://www.cnblogs.com/

将目标页面截图：

google-chrome --headless --disable-gpu --screenshot https://www.cnblogs.com/  
# 规定大小
google-chrome --headless --disable-gpu --screenshot --window-size=640,960 https://www.cnblogs.com/

　保存为pdf：

google-chrome --headless --disable-gpu --print-to-pdf https://www.cnblogs.com/

　以上文件会保存于当前目录。

还可以使用--remote-debugging-port参数进行远程调试：

google-chrome --headless --disable-gpu --no-sandbox --remote-debugging-port=9222 --user-data-dir='/d/cnblogs' http://www.cnblogs.com

　--user-data-dir参数可以设定保存目录，--user-agent参数可以设定请求agent。上述的命令打开了一个websocket调试接口对当前tab内页面的dom、网络、性能、存储等等进行调试。

打开链接可以看到可检查的网页，可以点击它们并看到使用了哪种headless渲染。

还有一系列地址：

查看已经打开的tab列表：

[ {
   "description": "",
   "devtoolsfrontendurl": "/devtools/inspector.html?ws=127.0.0.1:9222/devtools/page/5c7774203404dc082182af4563cc7256",
   "id": "5c7774203404dc082182af4563cc7256",
   "title": "博客园 - 代码改变世界",
   "type": "page",
   "url": "https://www.cnblogs.com/",
   "websocketdebuggerurl": "ws://127.0.0.1:9222/devtools/page/5c7774203404dc082182af4563cc7256"
} ]

: 查看浏览器版本信息

{
   "browser": "headlesschrome/71.0.3578.98",
   "protocol-version": "1.3",
   "user-agent": "mozilla/5.0 (windows nt 6.1; wow64) applewebkit/537.36 (khtml, like gecko) headlesschrome/71.0.3578.98 safari/537.36",
   "v8-version": "7.1.302.31",
   "webkit-version": "537.36 (@15234034d19b85dcd9a03b164ae89d04145d8368)",
   "websocketdebuggerurl": "ws://127.0.0.1:9222/devtools/browser/ed156c0d-805c-4849-99d0-02e454260c17"
}

: 新开tab打开指定地址

http://127.0.0.1:9222/json/close/8795fff09b01bd41b1f2931110475a67 : 关闭指定tab,close后为tab页面的id

http://127.0.0.1:9222/json/activate/5c7774203404dc082182af4563cc7256 : 切换到目标tab

tab页面信息中有一个devtoolsfrontendurl，是开发者工具的前端地址，可以打开：

http://127.0.0.1:9222/devtools/inspector.html?ws=127.0.0.1:9222/devtools/page/ce2e627c634eaae3ce9193dc374c7b4a

在开发者工具里切换到performance，勾选screenshots，点刷新图标，重新加载完成就可以看到逐帧加载的截图：

Selenium及Headless Chrome抓取动态HTML页面

selenium

selenium 是用于测试 web 应用程序用户界面的常用框架，它支持各种浏览器，包括 chrome，safari，firefox 等，支持多种语言开发，比如 java，c，ruby等等，当然也有python。

pip install selenium

使用时还需要下载浏览器驱动，以chromedriver为例，下载地址：

国内镜像：

下载时注意与电脑的chrome版本保持一致，然后将chromedriver置于环境变量之中。

打开一个淘宝商品网页：

from selenium import webdriver
browser = webdriver.chrome()
browser.get('https://market.m.taobao.com/app/dinamic/h5-tb-detail/index.html?id=568217064643')

浏览器会自动打开并访问网页。

使用headless模式：

from selenium import webdriver
chrome_options = webdriver.chromeoptions()
chrome_options.add_argument('--no-sandbox')
chrome_options.add_argument('--headless')
chrome_options.add_argument('--disable-gpu')
browser = webdriver.chrome(options=chrome_options)
browser.get('https://market.m.taobao.com/app/dinamic/h5-tb-detail/index.html?id=568217064643')
data = browser.page_source

page_souce属性可以获取html网页源码。

可以看到获取的源码都是些js与css语句，dom并未生成，需要模拟浏览器滚动来生成dom：

for i in range(1, 11):
    browser.execute_script(
        "window.scrollto(0, document.body.scrollheight/10*%s);" % i
    )
    time.sleep(0.5)

execute_script方法可以用来执行js脚本。

现在获取的源码基本是完整的，还存在一些小问题，比如网页为了让img延迟加载，img的地址是放在data-img属性上的，等到浏览器滑动至图片时才修改src属性，可以使用pyquery修改：

import time

from selenium import webdriver
from pyquery import pyquery as pq


base_dir = os.path.dirname(__file__)
chrome_options = webdriver.chromeoptions()
chrome_options.add_argument('--no-sandbox')
chrome_options.add_argument('--headless')
chrome_options.add_argument('--disable-gpu')
browser = webdriver.chrome(options=chrome_options)
# browser.implicitly_wait(10)
browser.get('https://market.m.taobao.com/app/dinamic/h5-tb-detail/index.html?id=568217064643')
for i in range(1, 11):
    browser.execute_script(
        "window.scrollto(0, document.body.scrollheight/10*%s);" % i
    )
    time.sleep(0.5)
data = browser.page_source.encode('utf-8')
doc = pq(data)
for img in doc('img'):
    img = pq(img)
    if img.attr['data-img']:
        img.attr.src = img.attr['data-img']
data = doc.html(method='html').replace('src="//', 'src="http://')
f = open(os.path.join(base_dir, 'detail.html'), 'w')
f.write(data.encode('utf-8'))
f.close()

　保存为html后打开可以看到网页爬取成功。

selenium还提供了很多element提取接口：

提取单个element：

elem = browser.find_element_by_id("description")

提取多个：

elem = browser.find_elements_by_class_name("detail-desc")

批量爬取

可以使用concurrent.futures 线程池进行多线程批量爬取：

# -*- coding: utf-8 -*-
import threading
import time
import os

from concurrent.futures import threadpoolexecutor, as_completed
from pyquery import pyquery as pq


class taobaocrawler(object):
    def __init__(self, ids):
        self.ids = ids
        self.browsers = {}
        self.timeout_spus = []
        self.url = 'https://market.m.taobao.com/app/dinamic/h5-tb-detail/index.html?id='

    def _create_new_browser(self):
        from selenium import webdriver
        chrome_options = webdriver.chromeoptions()
        chrome_options.add_argument('--no-sandbox')
        chrome_options.add_argument('--headless')
        chrome_options.add_argument('--disable-gpu')
        # chrome_options.add_argument('--blink-settings=imagesenabled=false')
        browser = webdriver.chrome(options=chrome_options)
        return browser

    def get_browser(self):
        current_thread_id = threading.currentthread().ident
        existed = self.browsers.get(current_thread_id)
        if existed:
            return existed
        new_browser = self._create_new_browser()
        self.browsers[current_thread_id] = new_browser
        return new_browser

    def close_browsers(self):
        for _, browser in self.browsers.iteritems():
            browser.quit()
        self.browsers = {}

    def scroll_browser(self, browser, num):
        '''模拟浏览器滚动 保证js全部执行完成'''
        for i in range(1, num+1):
            browser.execute_script(
                "window.scrollto(0, document.body.scrollheight/%d*%d);" % (
                    num, i)
            )
            time.sleep(0.5)

    def handle_detail_doc(self, detail):
        doc = pq(detail)
        for img in doc('img'):
            img = pq(img)
            if img.attr['data-img']:
                img.attr.src = img.attr['data-img']
        detail = doc.html(method='html')
        detail = detail.replace('src="//', 'src="http://')
        return detail

    def crawl_taobao_detail(self, taobao_id):
        browser = self.get_browser()
        url = self.url + str(taobao_id)
        browser.execute_script("window.stop();")
        browser.get(url)
        self.scroll_browser(browser, 20)
        data = browser.page_source.encode('utf-8')
        data = self.handle_detail_doc(data)
        return taobao_id, data

    def start_crawl(self):
        if not self.ids:
            return
        with threadpoolexecutor(max_workers=4) as executor:
            futures = [executor.submit(self.crawl_taobao_detail, _)
                       for _ in self.ids]
            for task in as_completed(futures):
                if task.done():
                    taobao_id, data = task.result()
                    base_dir = os.path.dirname(__file__)
                    f = open(os.path.join(base_dir, str(taobao_id) + '.html'), 'w')
                    f.write(data.encode('utf-8'))
                    f.close()
        self.close_browsers()


def test_crawl():
    ids = [568217064643, 584126060993, 581555053584, 581002124614]
    c = taobaocrawler(ids)
    c.start_crawl()

if __name__ == '__main__':
    test_crawl()

上一篇：代码实现批量生成sql语句

下一篇：唐德宗真的是唐朝活得最窝囊的皇帝吗？

Selenium及Headless Chrome抓取动态HTML页面

headless chrome

selenium

批量爬取

Selenium及Headless Chrome抓取动态HTML页面

使用scrapy-selenium, chrome-headless抓取动态网页

Selenium及Headless Chrome抓取动态HTML页面

使用scrapy-selenium, chrome-headless抓取动态网页