欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

python简单网络爬虫

程序员文章站 2022-05-08 18:27:26
...

一、四个步骤

1、分析网页

分析页面结构分布以及想要爬取信息的位置

利用浏览器找到我们需要的数据步骤

Chrome浏览器:

右键单击网页→检查→点Network→刷新页面→点击搜索按钮→搜索任意一个标题→点Header→找到数据来源URL

2、分析策略

思考以何种策略批量提取(按页提取)

另一种策略使用正则表达式获取某种联系方式

3、编写代码

4、抓取信息

示例:提取B站排行榜视频数据

数据格式:JSON

用Python的requests模块获取数据

代码:

import requests//调用python的requests模块
req=requests.get('https://api.bilibili.com/x/web-interface/ranking/region?rid=1&day=3&original=0')
data=req.json()
print(data)//直接获取json格式数据,得到一个Python字典

获取排行榜排名第一的视频数据

代码:

import requests 
req=requests.get('https://api.bilibili.com/x/web-interface/ranking/region?rid=1&day=3&original=0') 
data=req.json() 
first_video=data['data'][0] 
print(first_video['title'])//获取标题 print(first_video['play'])//获取播放量

相关标签: python python