欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  IT编程

Python无头浏览器使用 根据关键词爬取百度资讯

程序员文章站 2022-03-26 10:32:01
Python 利用无头根据关键字爬取百度资讯代码如下需要导入的库(因为后面都自己写了 备注 怕自己过段时间看不懂 所以截屏都没有备注 怕大家看见我的备注 误导 )因为百度资讯翻页 是第1页 为0 第二页为10在for循环下面 设置一下时间(网速快的话 而且比较稳定 可以不用设置 时间长短自己设置就好了)然后再根据源代码写的正则(因为是小白 自学的 目前只会正则 不会xpath)最后再使用一个for循环将爬取的依次输出 顺便再去除一些不需要的符号pycharm运行的结果...

Python 利用无头根据关键字爬取百度资讯
代码如下Python无头浏览器使用  根据关键词爬取百度资讯
需要导入的库(因为后面都自己写了 备注 怕自己过段时间看不懂 所以截屏都没有备注 怕大家看见我的备注 误导 )
Python无头浏览器使用  根据关键词爬取百度资讯
因为百度资讯翻页 是第1页 为0 第二页为10
Python无头浏览器使用  根据关键词爬取百度资讯
在for循环下面 设置一下时间(网速快的话 而且比较稳定 可以不用设置 时间长短自己设置就好了)
然后再根据源代码写的正则(因为是小白 自学的 目前只会正则 不会xpath)
Python无头浏览器使用  根据关键词爬取百度资讯
最后再使用一个for循环将爬取的依次输出 顺便再去除一些不需要的符号
Python无头浏览器使用  根据关键词爬取百度资讯
pycharm运行的结果(听说最近老we的若风 草莓 一起组了个手游lol的战队)
Python无头浏览器使用  根据关键词爬取百度资讯
最后再关闭谷歌浏览器就好了

当然要使用这个 我们还是要导入这个库
Python无头浏览器使用  根据关键词爬取百度资讯
import time 是我们使用无头必须的库(个人认为)
最最最重要的是from selenium import webdriver
这个是无头的关键 也是真真正正的 无头必须的库
导入的方法 就真常安装就行了 可以在cmd中导入
也可以在pycharm中导入
webdriver 这个是谷歌浏览器的一个插件
可以去https://blog.csdn.net/qq_40604853/article/details/81388078这里下载
也可以去百度网盘直接下载我的https://pan.baidu.com/s/1C-YPgKuSeK0gLWllXBWw9Q 提取码LOLA
当然 我们下载这个插件第一件事是 先看我们的谷歌浏览器是什么版本的再下载 如果跟我一个版本的可以直接去我的百度网盘提取
首先我们打开谷歌浏览器的设置(再右上角 点击有4个点的地方)
然后点击图片中画红圈的
Python无头浏览器使用  根据关键词爬取百度资讯
然后在图片中可以看到 谷歌浏览器的版本
Python无头浏览器使用  根据关键词爬取百度资讯

本文地址:https://blog.csdn.net/weixin_45389105/article/details/110492643