Boss直聘Python爬虫实战

程序员文章站 2022-03-10 11:46:31

准备工作新建项目-新建PythonFile 安装爬虫模块 1 pip install requests requests的常用函数 request.get()，对应http协议的get请求，也就是把网页下载下来。 request.post()，对应Http协议的post请求，就是把数据上传到网页服 ......

准备工作

新建项目-新建pythonfile
安装爬虫模块
1
pip install requests
requests的常用函数
- request.get()，对应http协议的get请求，也就是把网页下载下来。
- request.post()，对应http协议的post请求，就是把数据上传到网页服务器。
观察boss直聘的url。
1
https://www.zhipin.com/c101250100-p110101/
- 通过观察发现，后面应该是城市代码和职位代码
- 通过检查-network发现，城市代码应该是储存在city.json里面
- 职位代码应该是储存在position.json里面

通过观察：city.json的url为

1	https://www.zhipin.com/wapi/zpcommon/data/city.json

postion.json的url为

1	https://www.zhipin.com/wapi/zpcommon/data/position.json

爬取城市代码

测试连接

import requests
# requests-->请求
url = 'https://www.zhipin.com/wapi/zpcommon/data/city.json'  # boss直聘城市链接
response = requests.get(url)  
print(response)  # 打印响应

返回值：

1	<response [200]>

200：代表返回成功

404：网络连接失败

500：服务器奔溃

加入浏览器伪装头’user-agent’，防止被服务器发现你是爬虫

1	headers = {'user-agent': 'mozilla/5.0 (x11; linux x86_64) applewebkit/537.36 (khtml, like gecko) chrome/80.0.3987.106 safari/537.36'}

第一次打印

import requests
from pprint import pprint
url = 'https://www.zhipin.com/wapi/zpcommon/data/city.json'  # boss直聘城市代码
headers = {'user-agent': 'mozilla/5.0 (x11; linux x86_64) \
applewebkit/537.36 (khtml, like gecko) chrome/80.0.3987.106 safari/537.36'}
response = requests.get(url, headers=headers)
data = response.json()  # 从返回对象中提取json
pprint(data)

结果如下：

根据上图观察，返回的json可以当成是一个多层字典。

数据均在zpdata\citylist下，于是对zpdata进行第一次解包。

对citylist进行第二次解包。

import requests
from pprint import pprint
url = 'https://www.zhipin.com/wapi/zpcommon/data/city.json'  # boss直聘城市代码
headers = {'user-agent': 'mozilla/5.0 (x11; linux x86_64) \
applewebkit/537.36 (khtml, like gecko) chrome/80.0.3987.106 safari/537.36'}
response = requests.get(url, headers=headers)
data = response.json()  # 从返回对象中提取json
data1 = data['zpdata']['citylist']
# pprint(data1)
for ii in data1:
    province = ii['name']  # 省名
    province_code = ii['code']  # 省对应的代码
    city_list = ii['sublevelmodellist']
    for ci in city_list:
      city = ci['name']  # 城市名
        city_code = ci['code']  # 城市代码
      print(province, '\t', province_code, '\t', city, '\t', city_code)

省和城市代码就爬取完毕了，直接粘贴到excel就可以。至于如何直接导出excel，后面再说。

上一篇： "地址"组件:快应用组件库H-UI

下一篇：鸡兔同笼

Boss直聘Python爬虫实战

准备工作

爬取城市代码

Python爬虫实战之12306抢票开源

Python爬虫框架Scrapy实战之批量抓取招聘信息

Python爬虫实战用 BeautifulSoup 爬取电影网站信息

爬虫实战在 Python 中使用正则表达式

BOSS直聘怎么下载个人简历? BOSS直聘简历下载方法

boss直聘怎么上传简历附件？boss直聘上传附件教程

boss直聘怎么招聘？boss直聘发布招聘信息方法

python爬虫项目实战：爬取500px图片

Python爬虫实战之12306抢票开源

荐 python爬虫实战1-基础代码篇1