python简单网络爬虫

程序员文章站 2022-05-08 18:27:26

...

一、四个步骤

1、分析网页

分析页面结构分布以及想要爬取信息的位置

利用浏览器找到我们需要的数据步骤

Chrome浏览器：

右键单击网页→检查→点Network→刷新页面→点击搜索按钮→搜索任意一个标题→点Header→找到数据来源URL

2、分析策略

思考以何种策略批量提取（按页提取）

另一种策略使用正则表达式获取某种联系方式

3、编写代码

4、抓取信息

示例：提取B站排行榜视频数据

数据格式：JSON

用Python的requests模块获取数据

代码：

import requests//调用python的requests模块
req=requests.get('https://api.bilibili.com/x/web-interface/ranking/region?rid=1&day=3&original=0')
data=req.json()
print(data)//直接获取json格式数据，得到一个Python字典

获取排行榜排名第一的视频数据

代码：

import requests 
req=requests.get('https://api.bilibili.com/x/web-interface/ranking/region?rid=1&day=3&original=0') 
data=req.json() 
first_video=data['data'][0] 
print(first_video['title'])//获取标题 print(first_video['play'])//获取播放量

python简单网络爬虫

一、四个步骤

PHP实现简单爬虫的方法

python实现爬虫下载美女图片

简单介绍使用Python解析并修改XML文档的方法

Python制作爬虫采集小说

Android 判断当前网络是否可用简单实例

selenium python虚拟点击网页爬虫翻页功能 href=javascript:void(0)怎么翻页

Python中subprocess的简单使用示例

Python实现简单拆分PDF文件的方法

Python设计足球联赛赛程表程序的思路与简单实现示例

使用Python脚本生成随机IP的简单方法

python简单网络爬虫

一、四个步骤

PHP实现简单爬虫的方法

python实现爬虫下载美女图片

简单介绍使用Python解析并修改XML文档的方法

Python制作爬虫采集小说

Android 判断当前网络是否可用简单实例

selenium python虚拟点击网页 爬虫翻页功能 href=javascript:void(0)怎么翻页

Python中subprocess的简单使用示例

Python实现简单拆分PDF文件的方法

Python设计足球联赛赛程表程序的思路与简单实现示例

使用Python脚本生成随机IP的简单方法

selenium python虚拟点击网页爬虫翻页功能 href=javascript:void(0)怎么翻页