Python无头浏览器使用 根据关键词爬取百度资讯
Python 利用无头根据关键字爬取百度资讯
代码如下
需要导入的库(因为后面都自己写了 备注 怕自己过段时间看不懂 所以截屏都没有备注 怕大家看见我的备注 误导 )
因为百度资讯翻页 是第1页 为0 第二页为10
在for循环下面 设置一下时间(网速快的话 而且比较稳定 可以不用设置 时间长短自己设置就好了)
然后再根据源代码写的正则(因为是小白 自学的 目前只会正则 不会xpath)
最后再使用一个for循环将爬取的依次输出 顺便再去除一些不需要的符号
pycharm运行的结果(听说最近老we的若风 草莓 一起组了个手游lol的战队)
最后再关闭谷歌浏览器就好了
当然要使用这个 我们还是要导入这个库
import time 是我们使用无头必须的库(个人认为)
最最最重要的是from selenium import webdriver
这个是无头的关键 也是真真正正的 无头必须的库
导入的方法 就真常安装就行了 可以在cmd中导入
也可以在pycharm中导入
webdriver 这个是谷歌浏览器的一个插件
可以去https://blog.csdn.net/qq_40604853/article/details/81388078这里下载
也可以去百度网盘直接下载我的https://pan.baidu.com/s/1C-YPgKuSeK0gLWllXBWw9Q 提取码LOLA
当然 我们下载这个插件第一件事是 先看我们的谷歌浏览器是什么版本的再下载 如果跟我一个版本的可以直接去我的百度网盘提取
首先我们打开谷歌浏览器的设置(再右上角 点击有4个点的地方)
然后点击图片中画红圈的
然后在图片中可以看到 谷歌浏览器的版本
本文地址:https://blog.csdn.net/weixin_45389105/article/details/110492643
上一篇: *博物馆一览