Python爬虫连载14-动态HTML、PhantomJS和Chromedriver

程序员文章站 2022-04-16 08:14:42

一、动态HTML 1.爬虫跟反爬虫 2.动态HTML连载（1）JavaScript （2）jQuery （3）Ajax （4）DHTML （5）Python采集动态数据从JavaScript代码入手采集；Python第三方库运行JavaScript，直接采集你在浏览器中看到的页面二、Sele ......

一、动态html

1.爬虫跟反爬虫

2.动态html连载

（1）javascript

（2）jquery

（3）ajax

（4）dhtml

（5）python采集动态数据

从javascript代码入手采集；python第三方库运行javascript，直接采集你在浏览器中看到的页面

二、selenium + phantomjs

1.selenium：web自动化测试工具

（1）自动加载页面；（2）获取数据；（3）截屏

（4）官方文档：http://selenium-python.readthedocs.io/index.html

2.phantomjs

（1）基于webkit的*面的浏览器

（2）官方网站：http://phantomjs.org/download.html

3.selenium库有一个webdriver的api

4.webdriver可以跟页面上的元素进行各种交互，用它可以来进行爬取

"""

通过webdriver操作模拟进行查找

"""

from selenium import webdriver

import time

#通过keys模拟键盘

from selenium.webdriver.common.keys import keys

#操作哪个浏览器就对哪个浏览器建立一个实例

#自动按照环境变量查找相应的浏览器

driver = webdriver.phantomjs()#这个就是浏览器的实例

#如果浏览器没有相应的环境浏览器，需要指定浏览器位置

driver.get("http://www.baidu.com")#去访问这个网站，然后获取返回的数据

#通过函数查找title标签

print("title:{0}".format(driver.title))

Python爬虫连载14-动态HTML、PhantomJS和Chromedriver

5.chrome + chromedriver

下载chrome：下载和安装

chromdriver安装

五、源码

reptile14_1_dhtml.py

https://github.com/ruigege66/pythonreptile/blob/master/reptile14_1_dhtml.py

2.csdn：https://blog.csdn.net/weixin_44630050

3.博客园：https://www.cnblogs.com/ruigege0000/

4.欢迎关注微信公众号：傅里叶变换，个人公众号，仅用于学习交流，后台回复”礼包“，获取大数据学习资料

Python爬虫连载14-动态HTML、PhantomJS和Chromedriver

上一篇： android7.0在拍照的时候遇到的问题

下一篇： Spring Data JPA 规范Dao层接口

Python爬虫连载14-动态HTML、PhantomJS和Chromedriver

Python爬虫使用Selenium+PhantomJS抓取Ajax和动态HTML内容

Python爬虫使用Selenium+PhantomJS抓取Ajax和动态HTML内容