Python无头浏览器使用根据关键词爬取百度资讯

程序员文章站 2024-01-01 21:41:52

Python 利用无头根据关键字爬取百度资讯代码如下需要导入的库（因为后面都自己写了备注怕自己过段时间看不懂所以截屏都没有备注怕大家看见我的备注误导）因为百度资讯翻页是第1页为0 第二页为10在for循环下面设置一下时间（网速快的话而且比较稳定可以不用设置时间长短自己设置就好了）然后再根据源代码写的正则（因为是小白自学的目前只会正则不会xpath）最后再使用一个for循环将爬取的依次输出顺便再去除一些不需要的符号pycharm运行的结果...

Python 利用无头根据关键字爬取百度资讯
代码如下 Python无头浏览器使用根据关键词爬取百度资讯
需要导入的库（因为后面都自己写了备注怕自己过段时间看不懂所以截屏都没有备注怕大家看见我的备注误导）

因为百度资讯翻页是第1页为0 第二页为10

在for循环下面设置一下时间（网速快的话而且比较稳定可以不用设置时间长短自己设置就好了）
然后再根据源代码写的正则（因为是小白自学的目前只会正则不会xpath）
Python无头浏览器使用根据关键词爬取百度资讯
最后再使用一个for循环将爬取的依次输出顺便再去除一些不需要的符号

pycharm运行的结果（听说最近老we的若风草莓一起组了个手游lol的战队）

最后再关闭谷歌浏览器就好了

当然要使用这个我们还是要导入这个库
Python无头浏览器使用根据关键词爬取百度资讯
import time 是我们使用无头必须的库（个人认为）
最最最重要的是from selenium import webdriver
这个是无头的关键也是真真正正的无头必须的库
导入的方法就真常安装就行了可以在cmd中导入
也可以在pycharm中导入
webdriver 这个是谷歌浏览器的一个插件
可以去https://blog.csdn.net/qq_40604853/article/details/81388078这里下载
也可以去百度网盘直接下载我的https://pan.baidu.com/s/1C-YPgKuSeK0gLWllXBWw9Q 提取码LOLA
当然我们下载这个插件第一件事是先看我们的谷歌浏览器是什么版本的再下载如果跟我一个版本的可以直接去我的百度网盘提取
首先我们打开谷歌浏览器的设置（再右上角点击有4个点的地方）
然后点击图片中画红圈的
Python无头浏览器使用根据关键词爬取百度资讯
然后在图片中可以看到谷歌浏览器的版本

本文地址：https://blog.csdn.net/weixin_45389105/article/details/110492643

Python无头浏览器使用 根据关键词爬取百度资讯