python简单网络爬虫
程序员文章站
2022-05-08 18:27:26
...
一、四个步骤
1、分析网页
分析页面结构分布以及想要爬取信息的位置
利用浏览器找到我们需要的数据步骤
Chrome浏览器:
右键单击网页→检查→点Network→刷新页面→点击搜索按钮→搜索任意一个标题→点Header→找到数据来源URL
2、分析策略
思考以何种策略批量提取(按页提取)
另一种策略使用正则表达式获取某种联系方式
3、编写代码
4、抓取信息
示例:提取B站排行榜视频数据
数据格式:JSON
用Python的requests模块获取数据
代码:
import requests//调用python的requests模块
req=requests.get('https://api.bilibili.com/x/web-interface/ranking/region?rid=1&day=3&original=0')
data=req.json()
print(data)//直接获取json格式数据,得到一个Python字典
获取排行榜排名第一的视频数据
代码:
import requests
req=requests.get('https://api.bilibili.com/x/web-interface/ranking/region?rid=1&day=3&original=0')
data=req.json()
first_video=data['data'][0]
print(first_video['title'])//获取标题 print(first_video['play'])//获取播放量
上一篇: Python实现简单的网络爬虫
下一篇: Bzoj 2152: 聪聪可可(点分治)