Python爬虫连载14-动态HTML、PhantomJS和Chromedriver
一、动态html
1.爬虫跟反爬虫
2.动态html连载
(1)javascript
(2)jquery
(3)ajax
(4)dhtml
(5)python采集动态数据
从javascript代码入手采集;python第三方库运行javascript,直接采集你在浏览器中看到的页面
二、selenium + phantomjs
1.selenium:web自动化测试工具
(1)自动加载页面;(2)获取数据;(3)截屏
(4)官方文档:http://selenium-python.readthedocs.io/index.html
2.phantomjs
(1)基于webkit的*面的浏览器
(2)官方网站:http://phantomjs.org/download.html
3.selenium库有一个webdriver的api
4.webdriver可以跟页面上的元素进行各种交互,用它可以来进行爬取
"""
通过webdriver操作模拟进行查找
"""
from selenium import webdriver
import time
#通过keys模拟键盘
from selenium.webdriver.common.keys import keys
#操作哪个浏览器就对哪个浏览器建立一个实例
#自动按照环境变量查找相应的浏览器
driver = webdriver.phantomjs()#这个就是浏览器的实例
#如果浏览器没有相应的环境浏览器,需要指定浏览器位置
driver.get("http://www.baidu.com")#去访问这个网站,然后获取返回的数据
#通过函数查找title标签
print("title:{0}".format(driver.title))
5.chrome + chromedriver
下载chrome:下载和安装
chromdriver安装
五、源码
reptile14_1_dhtml.py
https://github.com/ruigege66/pythonreptile/blob/master/reptile14_1_dhtml.py
2.csdn:https://blog.csdn.net/weixin_44630050
3.博客园:https://www.cnblogs.com/ruigege0000/
4.欢迎关注微信公众号:傅里叶变换,个人公众号,仅用于学习交流,后台回复”礼包“,获取大数据学习资料
上一篇: C#实现简单过滤非法字符实例
下一篇: python爬取网站数据保存使用的方法