拉勾网`Python职位`分析
程序员文章站
2022-04-28 09:03:25
...
在前面一篇文章—拉勾网职位数据爬取,我爬取了拉勾网在杭州
、Python职位
、应届生
这三个条件下的所有数据。下面我对这些数据做一下分析。
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib
%matplotlib inline
#配置中文字体和修改字体大小
matplotlib.rcParams['font.family'] = 'SimHei'
matplotlib.rcParams['font.size'] = 30
df = pd.read_csv("Python-School-Hangzhou.csv",encoding = 'utf-8')
数据清洗
df.columns.values.tolist()
['adWord',
'appShow',
'approve',
'businessZones',
'city',
'companyFullName',
'companyId',
'companyLabelList',
'companyLogo',
'companyShortName',
'companySize',
'createTime',
'deliver',
'district',
'education',
'explain',
'financeStage',
'firstType',
'formatCreateTime',
'gradeDescription',
'hitags',
'imState',
'industryField',
'industryLables',
'isSchoolJob',
'jobNature',
'lastLogin',
'latitude',
'linestaion',
'longitude',
'pcShow',
'plus',
'positionAdvantage',
'positionId',
'positionLables',
'positionName',
'promotionScoreExplain',
'publisherId',
'resumeProcessDay',
'resumeProcessRate',
'salary',
'score',
'secondType',
'stationname',
'subwayline',
'workYear']
原始数据有太多的无用信息,下面进行数据清洗。
df.drop(['adWord','appShow','approve'],axis = 1,inplace = True)
df.drop(['businessZones','companyLabelList','companyLogo'],axis = 1,inplace = True)
df.drop(['createTime','deliver','district','education','explain'],axis = 1,inplace = True)
df.drop(['formatCreateTime','gradeDescription','hitags'],axis = 1,inplace = True)
df.drop(['imState','industryLables'],axis = 1,inplace = True)
df.drop(['isSchoolJob'],axis = 1,inplace = True)
df.drop(['lastLogin','promotionScoreExplain','publisherId','resumeProcessDay','resumeProcessRate','stationname','subwayline'],axis = 1,inplace = True)
df.drop(['pcShow','plus','positionAdvantage','positionId','positionLables','score'],axis = 1,inplace = True)
df.drop(['latitude','linestaion','longitude'],axis = 1,inplace = True)
df.drop(['city','companyFullName'],axis = 1,inplace = True)
df.drop(['companyId','firstType'],axis = 1,inplace = True)
数据分析
下面根据我想要的信息做一下数据处理、分析。
职位大类别统计
secondType_Series = df['secondType'].value_counts()
secondType_Series
数据开发 29
后端开发 28
人工智能 23
测试 21
运维 14
移动前端开发 10
数据分析 6
企业软件 6
硬件开发 2
产品经理 2
风控 1
Name: secondType, dtype: int64
下面用Pandas画一下直方图。
plt.figure(figsize=(10,5))
secondType_Series.plot.bar()
plt.show()
实习、全职统计
jobNature_Series = df['jobNature'].value_counts()
jobNature_Series
实习 76
全职 66
Name: jobNature, dtype: int64
公司统计
统计每个公司出现的个数,然后选取招聘Python相关职位个数大于等于3的公司。
companyShortName_Series = df['companyShortName'].value_counts()
companyShortName_Series_3 = companyShortName_Series[companyShortName_Series > 2] # 选取招聘Python相关职位个数大于等于3的公司
companyShortName_Series_3
个推 10
大搜车 8
同花顺 7
一周CP 4
袋鼠云 4
元素链 4
网易游戏 4
谷神星 4
美国道富 3
网易 3
点我达 3
阿里巴巴-B类事业群 3
Name: companyShortName, dtype: int64
下面用Pandas画一下直方图。
plt.figure(figsize=(10,5))
companyShortName_Series_3.plot.bar()
plt.show()
具体职位
数据开发
下面我具体看下“数据开发”对应的职位。
dba = df.loc[df['secondType'] == '数据开发']
dba
companyShortName | companySize | financeStage | industryField | jobNature | positionName | salary | secondType | workYear | |
---|---|---|---|---|---|---|---|---|---|
4 | 个推 | 150-500人 | D轮及以上 | 移动互联网 | 全职 | 数据研发工程师(校招) | 10k-15k | 数据开发 | 应届毕业生 |
14 | 美丽联合集团 | 500-2000人 | D轮及以上 | 电子商务 | 全职 | 大数据开发工程师 | 15k-20k | 数据开发 | 应届毕业生 |
15 | 个推 | 150-500人 | D轮及以上 | 移动互联网 | 全职 | 数据开发工程师(校招岗位) | 10k-15k | 数据开发 | 应届毕业生 |
19 | 美国道富 | 2000人以上 | 上市公司 | 金融 | 实习 | 数据分析(数据挖掘)实习生 | 3k-4k | 数据开发 | 不限 |
23 | 乐刻运动 | 500-2000人 | C轮 | O2O | 全职 | 算法实习生 | 3k-5k | 数据开发 | 应届毕业生 |
27 | SensOmics | 50-150人 | 未融资 | 企业服务,硬件 | 全职 | 生物信息学工程师 | 10k-20k | 数据开发 | 应届毕业生 |
33 | 网易游戏 | 2000人以上 | 上市公司 | 游戏 | 实习 | 数据挖掘实习生-杭州 | 2k-3k | 数据开发 | 不限 |
34 | Club Factory | 150-500人 | C轮 | 电子商务,移动互联网 | 全职 | 数据分析师 | 8k-15k | 数据开发 | 应届毕业生 |
39 | 袋鼠云 | 150-500人 | A轮 | 数据服务 | 实习 | 大数据开发实习生 | 4k-6k | 数据开发 | 应届毕业生 |
40 | 安恒信息 | 500-2000人 | D轮及以上 | 信息安全 ,数据服务 | 实习 | 数据解析工程师(实习) | 3k-5k | 数据开发 | 应届毕业生 |
42 | 大搜车 | 2000人以上 | D轮及以上 | 移动互联网,O2O | 实习 | 数据开发实习生 | 2k-3k | 数据开发 | 应届毕业生 |
44 | 览众数据 | 50-150人 | B轮 | 电子商务,数据服务 | 实习 | 建模工程师实习生 | 3k-5k | 数据开发 | 应届毕业生 |
47 | 网易游戏 | 2000人以上 | 上市公司 | 游戏 | 实习 | 爬虫工程师(实习生) | 3k-4k | 数据开发 | 不限 |
52 | 数美 | 150-500人 | B轮 | 企业服务,数据服务 | 实习 | 机器学习(校招/实习) | 4k-8k | 数据开发 | 应届毕业生 |
67 | 大搜车 | 2000人以上 | D轮及以上 | 移动互联网,O2O | 实习 | 量化研究实习生10-03-01 | 2k-4k | 数据开发 | 应届毕业生 |
69 | 数美 | 150-500人 | B轮 | 企业服务,数据服务 | 全职 | 机器学习(实习/校招) | 4k-8k | 数据开发 | 应届毕业生 |
78 | 美丽联合集团 | 500-2000人 | D轮及以上 | 电子商务 | 实习 | 数据仓库开发实习生 | 2k-3k | 数据开发 | 应届毕业生 |
80 | 壹宝 | 50-150人 | A轮 | 移动互联网,医疗健康 | 实习 | 数据开发实习生 | 3k-5k | 数据开发 | 不限 |
97 | TELETRAAN | 15-50人 | 天使轮 | 数据服务,企业服务 | 实习 | 实习生 | 2k-4k | 数据开发 | 应届毕业生 |
99 | 河象 | 15-50人 | 不需要融资 | 教育,移动互联网 | 实习 | 实习机器学习工程师 | 2k-4k | 数据开发 | 应届毕业生 |
100 | 淳毅资产 | 少于15人 | 未融资 | 金融 | 实习 | 量化算法工程师 | 3k-5k | 数据开发 | 应届毕业生 |
107 | 中软安人 | 150-500人 | 未融资 | 电子商务,企业服务 | 实习 | 大数据开发实习生 | 5k-8k | 数据开发 | 应届毕业生 |
108 | 贝安云 | 50-150人 | 未融资 | 移动互联网,医疗健康 | 全职 | 数据挖掘工程师 | 10k-18k | 数据开发 | 应届毕业生 |
128 | 稻芒数据 | 少于15人 | 未融资 | 数据服务 | 实习 | 数据专员兼职实习 | 3k-6k | 数据开发 | 应届毕业生 |
131 | 网易 | 2000人以上 | 上市公司 | 电子商务,移动互联网 | 实习 | 数据挖掘实习生 | 4k-6k | 数据开发 | 不限 |
134 | 个推 | 150-500人 | D轮及以上 | 移动互联网 | 全职 | 数据建模工程师(校招岗位) | 10k-15k | 数据开发 | 应届毕业生 |
135 | 个推 | 150-500人 | D轮及以上 | 移动互联网 | 全职 | 数据建模工程师 | 10k-15k | 数据开发 | 应届毕业生 |
137 | 个推 | 150-500人 | D轮及以上 | 移动互联网 | 全职 | 数据分析师(校招岗位) | 10k-15k | 数据开发 | 应届毕业生 |
138 | 大搜车 | 2000人以上 | D轮及以上 | 移动互联网,O2O | 实习 | 风险建模实习生10-01-01 | 2k-4k | 数据开发 | 应届毕业生 |
人工智能
下面看下“人工智能”对应的职位。
ai = df.loc[df['secondType'] == '人工智能']
ai
companyShortName | companySize | financeStage | industryField | jobNature | positionName | salary | secondType | workYear | |
---|---|---|---|---|---|---|---|---|---|
26 | 图普科技(深度学习图像识别云) | 50-150人 | A轮 | 移动互联网,数据服务 | 全职 | 00069-深度学习工程师(校招) | 13k-23k | 人工智能 | 应届毕业生 |
41 | 翼米网络 | 少于15人 | 天使轮 | 移动互联网 社交网络 | 实习 | 算法工程师 | 3K-6K | 人工智能 | 不限 |
43 | 城市大数据 | 50-150人 | 未融资 | 移动互联网 | 实习 | 算法实习生 | 3k-4k | 人工智能 | 应届毕业生 |
48 | 袋鼠云 | 150-500人 | A轮 | 数据服务 | 实习 | 算法实习生(杭州) | 5k-6k | 人工智能 | 应届毕业生 |
50 | 亿咖通科技 | 500-2000人 | 不需要融资 | 移动互联网,硬件 | 实习 | 增强学习算法实习生 | 3k-5k | 人工智能 | 不限 |
54 | 点我达 | 500-2000人 | D轮及以上 | O2O | 全职 | 2019届校招-风控建模 | 12k-20k | 人工智能 | 应届毕业生 |
55 | 中科视拓 | 50-150人 | A轮 | 企业服务 | 实习 | 算法实习工程师 | 3k-5k | 人工智能 | 应届毕业生 |
63 | 点我达 | 500-2000人 | D轮及以上 | O2O | 全职 | 2019届校招-算法 | 20k-40k | 人工智能 | 应届毕业生 |
65 | Obsbot寻影 | 15-50人 | 天使轮 | 硬件,其他 | 实习 | 深度学习算法实习生 | 4k-8k | 人工智能 | 应届毕业生 |
70 | 灵西智能 | 15-50人 | 天使轮 | 企业服务,硬件 | 实习 | 运动规划算法实习岗 | 3k-5k | 人工智能 | 不限 |
82 | 虹软 | 500-2000人 | 不需要融资 | 移动互联网,信息安全 | 全职 | 计算机视觉算法工程师(2019应届生) | 15k-30k | 人工智能 | 应届毕业生 |
83 | Obsbot寻影 | 15-50人 | 天使轮 | 硬件,其他 | 实习 | 深度学习算法工程师 | 12k-16k | 人工智能 | 应届毕业生 |
87 | 杭州智团 | 15-50人 | 不需要融资 | 医疗健康 | 全职 | 人工智能实习生 | 3k-6k | 人工智能 | 应届毕业生 |
89 | 杭州默安科技有限公司 | 50-150人 | A轮 | 信息安全 | 全职 | 机器学习算法实习生 | 4k-6k | 人工智能 | 应届毕业生 |
92 | 智慧视通 | 50-150人 | 天使轮 | 数据服务,人工智能 | 实习 | 视频图像算法工程师(实习岗) | 3k-5k | 人工智能 | 不限 |
94 | 零零无限 | 50-150人 | A轮 | 硬件 | 实习 | 计算机视觉算法实习生 | 3k-4k | 人工智能 | 应届毕业生 |
106 | 零零无限 | 50-150人 | A轮 | 硬件 | 实习 | 机器学习算法实习生 | 3k-4k | 人工智能 | 应届毕业生 |
113 | 东信软件 | 150-500人 | 上市公司 | 移动互联网,数据服务 | 实习 | 人工智能-实习生 | 2k-4k | 人工智能 | 应届毕业生 |
116 | 昇星网络 | 15-50人 | 天使轮 | 其他,移动互联网 | 实习 | 计算机视觉、机器学习、深度学习的实习生 | 4k-8k | 人工智能 | 不限 |
117 | eyecloud | 15-50人 | 天使轮 | 移动互联网,其他 | 实习 | 图像算法实习生 | 3k-6k | 人工智能 | 应届毕业生 |
118 | 虹软 | 500-2000人 | 不需要融资 | 移动互联网,信息安全 | 全职 | 机器学习算法工程师(2019应届生) | 15k-30k | 人工智能 | 应届毕业生 |
130 | 网易 | 2000人以上 | 上市公司 | 电子商务,移动互联网 | 实习 | 人工智能实习生 | 6k-8k | 人工智能 | 不限 |
141 | 大搜车 | 2000人以上 | D轮及以上 | 移动互联网,O2O | 全职 | 算法实习生 07-01-32 | 4k-5k | 人工智能 | 应届毕业生 |
后端开发
下面看下“后端开发”对应的职位。
rd = df.loc[df['secondType'] == '后端开发']
rd
companyShortName | companySize | financeStage | industryField | jobNature | positionName | salary | secondType | workYear | |
---|---|---|---|---|---|---|---|---|---|
0 | Eigen | 50-150人 | A轮 | 移动互联网,数据服务 | 全职 | Python开发工程师 | 10k-20k | 后端开发 | 应届毕业生 |
1 | 大搜车 | 2000人以上 | D轮及以上 | 移动互联网,O2O | 实习 | Python实习生07-01-56 | 4k-5k | 后端开发 | 应届毕业生 |
2 | 安恒信息 | 500-2000人 | D轮及以上 | 信息安全 ,数据服务 | 全职 | c++研发实习生(漏洞扫描引擎方向) | 2k-4k | 后端开发 | 应届毕业生 |
3 | Club Factory | 150-500人 | C轮 | 电子商务,移动互联网 | 全职 | 后端工程师 | 8k-15k | 后端开发 | 应届毕业生 |
5 | 电魂网络 | 500-2000人 | 上市公司 | 游戏 | 实习 | 服务器/客户端开发工程师 | 8k-11k | 后端开发 | 不限 |
7 | 天猫 | 2000人以上 | 上市公司 | 移动互联网,电子商务 | 全职 | 研发工程师 | 12k-20k | 后端开发 | 应届毕业生 |
9 | 同花顺 | 2000人以上 | 上市公司 | 金融 | 全职 | 算法工程师 | 15k-25k | 后端开发 | 应届毕业生 |
10 | 齐治科技 | 50-150人 | 不需要融资 | 信息安全 | 全职 | 软件开发工程师 | 10k-15k | 后端开发 | 应届毕业生 |
12 | 网易游戏 | 2000人以上 | 上市公司 | 游戏 | 实习 | Unity3D开发实习生-杭州 | 3k-4k | 后端开发 | 不限 |
17 | 数澜科技 | 150-500人 | A轮 | 企业服务,数据服务 | 实习 | Node.js实习生【杭州】 | 3k-5k | 后端开发 | 应届毕业生 |
21 | 智慧视通 | 50-150人 | 天使轮 | 数据服务,人工智能 | 实习 | C++工程师(实习生) | 3k-5k | 后端开发 | 应届毕业生 |
28 | 同花顺 | 2000人以上 | 上市公司 | 金融 | 全职 | C++开发工程师(主服务端) | 7k-14k | 后端开发 | 应届毕业生 |
30 | 个推 | 150-500人 | D轮及以上 | 移动互联网 | 全职 | Node.js开发工程师(校招岗位) | 10k-15k | 后端开发 | 应届毕业生 |
32 | 一周CP | 15-50人 | A轮 | 移动互联网,社交网络 | 实习 | 后端工程师-实习 | 6k-12k | 后端开发 | 应届毕业生 |
36 | 溯博链鑫区块链 | 15-50人 | 不需要融资 | 移动互联网 | 全职 | go 开发工程师 | 10k-20k | 后端开发 | 应届毕业生 |
45 | 个推 | 150-500人 | D轮及以上 | 移动互联网 | 实习 | Java/机器学习方向实习生 | 3k-5k | 后端开发 | 不限 |
49 | 一周CP | 15-50人 | A轮 | 移动互联网,社交网络 | 实习 | 一周工程师-校招 | 6k-12k | 后端开发 | 应届毕业生 |
58 | 阿里巴巴-B类事业群 | 2000人以上 | 上市公司 | 移动互联网,电子商务 | 全职 | 资深c++开发工程师 | 30k-40k | 后端开发 | 应届毕业生 |
73 | 阿里巴巴-B类事业群 | 2000人以上 | 上市公司 | 移动互联网,电子商务 | 全职 | 算法专家 | 30k-40k | 后端开发 | 应届毕业生 |
75 | 袋鼠云 | 150-500人 | A轮 | 数据服务 | 实习 | Java开发实习生 | 3k-4k | 后端开发 | 应届毕业生 |
77 | 数梦工场 | 500-2000人 | A轮 | 移动互联网,数据服务 | 实习 | 云服务工程师实习生 | 3k-5k | 后端开发 | 应届毕业生 |
85 | 阿里巴巴-B类事业群 | 2000人以上 | 上市公司 | 移动互联网,电子商务 | 全职 | C++技术专家 | 30k-40k | 后端开发 | 应届毕业生 |
86 | 蚂蚁金服集团 | 2000人以上 | B轮 | 金融,移动互联网 | 实习 | 【支付宝.实习】Java开发工程师 | 6k-9k | 后端开发 | 应届毕业生 |
90 | 蚂蚁金服集团 | 2000人以上 | B轮 | 金融,移动互联网 | 实习 | 【实习生.支付宝】研发工程师JAVA | 7k-10k | 后端开发 | 应届毕业生 |
102 | 心景科技 | 15-50人 | 天使轮 | 游戏 | 全职 | 自然语言处理工程师 | 20k-30k | 后端开发 | 应届毕业生 |
121 | 翼米网络 | 少于15人 | 天使轮 | 移动互联网 社交网络 | 实习 | 风控算法工程师 | 4K-6K | 后端开发 | 不限 |
129 | 谷神星 | 50-150人 | A轮 | 信息安全,移动互联网 | 全职 | 软件开发(实习) | 4k-5k | 后端开发 | 应届毕业生 |
133 | 个推 | 150-500人 | D轮及以上 | 移动互联网 | 全职 | Node.js开发实习生 | 5k-8k | 后端开发 | 应届毕业生 |
测试
下面看下“测试”对应的职位。
qa = df.loc[df['secondType'] == '测试']
qa
companyShortName | companySize | financeStage | industryField | jobNature | positionName | salary | secondType | workYear | |
---|---|---|---|---|---|---|---|---|---|
6 | 有赞 | 500-2000人 | 上市公司 | 移动互联网,企业服务 | 全职 | [2019校招]测试开发工程师 | 10k-18k | 测试 | 应届毕业生 |
8 | 菜鸟网络 | 2000人以上 | B轮 | 电子商务 | 全职 | 测试开发工程师 | 15k-20k | 测试 | 应届毕业生 |
13 | 亿方云科技 | 150-500人 | B轮 | 移动互联网,数据服务 | 实习 | I02006 测试工程师实习生-杭州 | 3k-4k | 测试 | 应届毕业生 |
29 | Face++ | 500-2000人 | C轮 | 移动互联网,硬件 | 实习 | 测试实习生 | 2k-4k | 测试 | 应届毕业生 |
37 | 元素链 | 50-150人 | C轮 | 金融 移动互联网 | 全职 | 资深测试开发工程师 | 12k-24k | 测试 | 应届毕业生 |
51 | 为简科技 | 150-500人 | 不需要融资 | 移动互联网,电子商务 | 全职 | 初级测试工程师双休 | 4k-8k | 测试 | 应届毕业生 |
72 | 同花顺 | 2000人以上 | 上市公司 | 移动互联网,金融 | 全职 | 软件测试工程师 | 5k-10k | 测试 | 应届毕业生 |
74 | 浙江核新同花顺网络信息股份有限公司 | 2000人以上 | 上市公司 | 金融 | 全职 | 测试 | 9k-18k | 测试 | 应届毕业生 |
76 | 大搜车 | 2000人以上 | D轮及以上 | 移动互联网,O2O | 实习 | 测试实习生 07-01-19 | 4k-5k | 测试 | 应届毕业生 |
88 | 浙江泰源 | 50-150人 | 不需要融资 | 移动互联网 硬件 | 全职 | 测试工程师 | 4K-6K | 测试 | 应届毕业生 |
93 | 贝连 | 50-150人 | 不需要融资 | 移动互联网,金融 | 实习 | 测试实习生 | 2k-3k | 测试 | 不限 |
96 | 同花顺 | 2000人以上 | 上市公司 | 移动互联网,金融 | 全职 | 金融软件测试 | 8k-15k | 测试 | 应届毕业生 |
98 | 点我达 | 500-2000人 | D轮及以上 | O2O | 全职 | 2019届校招-测试开发 | 15k-25k | 测试 | 应届毕业生 |
104 | 南昌鎏彩科技有限公司 | 150-500人 | 不需要融资 | 移动互联网,人工智能 | 全职 | 测试实习生双休 | 4k-8k | 测试 | 应届毕业生 |
109 | 同花顺 | 2000人以上 | 上市公司 | 移动互联网,金融 | 全职 | 自动化测试工程师 | 12k-18k | 测试 | 应届毕业生 |
110 | 数梦工场 | 500-2000人 | A轮 | 移动互联网,数据服务 | 实习 | 测试工程师实习生 | 3k-5k | 测试 | 应届毕业生 |
111 | 宇为科技 | 15-50人 | 天使轮 | 数据服务,移动互联网 | 全职 | 软件测试 | 10k-15k | 测试 | 应届毕业生 |
112 | 慧码科技 | 50-150人 | 未融资 | 移动互联网 | 全职 | 测试实习生 | 4k-6k | 测试 | 应届毕业生 |
114 | 浙江核新同花顺网络信息股份有限公司 | 2000人以上 | 上市公司 | 金融 | 全职 | 测试工程师 | 9k-15k | 测试 | 应届毕业生 |
122 | 元素链 | 50-150人 | C轮 | 金融 移动互联网 | 全职 | 测试工程师 | 12k-24k | 测试 | 应届毕业生 |
126 | 贝贝网 | 500-2000人 | D轮及以上 | 电子商务 | 实习 | 测试实习生(19届及以后毕业) | 4k-5k | 测试 | 不限 |