欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

苏州市java岗位的薪资状况(2)

程序员文章站 2022-04-27 23:40:07
...

上一篇已经统计出了起薪最高的top 10:

苏州市java岗位的薪资状况(2)

  接着玩,把top 10 中所有职位的详细信息爬取下来。某一职位的详情是这样:

苏州市java岗位的薪资状况(2)

  我们需要把工作经验、学历、职能、关键字爬取下来。

苏州市java岗位的薪资状况(2)

 

  
from urllib.request import urlopen
from urllib.error import HTTPError
from bs4 import BeautifulSoup
import csv
from itertools import chain
import threading
 8 def load_datas():
    '''
    从joblist.csv中装载数据
    :return: 数据集 datas
    '''
    datas = []
    with open('high10_url.csv', encoding='utf-8') as fp:
        r = csv.reader(fp)
        for row in r:
            datas.append(row[0])
    return datas
20 def get_desc(url):
    ''' 爬取职位的详细信息,包括:经验, 学历, 职位, 技能关键字 '''
    try:
        html = urlopen(url)
    except HTTPError as e:
        print('Page was not found', e.filename)
        return []
28     job_desc = []  # 职位详情
    try:
        exp, edu, position, keys = '', '', '', []  # 经验, 学历, 职位, 技能关键字
        bsObj = BeautifulSoup(html.read())
        contents = bsObj.find('p', {'class': 'msg ltype'}).contents
        exp = contents[2].strip()  # 经验
        edu = contents[4].strip()  # 学历
        print(edu)
        a_list = bsObj.findAll('a', {'class': 'el tdn'})
        for i, a in enumerate(a_list):
            if i == 0:
                position = a.get_text()  # 职位
            else:
                keys.append(a.get_text())  # 技能关键字
        job_desc.append((exp, edu, position, keys))
    except AttributeError as e:
        print(e)
        job_desc = []
    return job_desc
48 def crawl(urls):
    '''
    :param urls: 职位详情
    '''
    print('开始爬取数据...')
    job_desc = [get_desc(url) for url in urls]
    print('爬取结束')
    return job_desc
57 def save_data(all_jobs, f_name):
    '''
    将信息保存到目标文件
    :param all_jobs: 二维列表,每个元素是一页的职位信息
    '''
    print('正在保存数据...')
    with open(f_name, 'w', encoding='utf-8', newline='') as fp:
        w = csv.writer(fp)
        # 将二维列表转换成一维
        t = list(chain(*all_jobs))
        w.writerows(t)
        print('保存结束,共{}条数据'.format(len(t)))
70 urls = load_datas()
job_desc = crawl(urls)
print(job_desc)
save_data(job_desc, 'job_desc.csv')

  high10_url.csv中已经预先存储了top 10的所有64个url。job_desc.csv中的结果如下:

苏州市java岗位的薪资状况(2)

  学历列出现了问题,第5行显示的是“招1人”,实际上这个职位没有学历要求,把所有“招x人”的记录都改成“无要求”。

  接下来可以按照经验、学历、职能分别统计:

import csv
import pandas as pd
import numpy as np

def load_datas():
    '''
    从joblist.csv中装载数据
    :return: 数据集 datas
    '''
    datas = []
    with open('job_desc.csv', encoding='utf-8') as fp:
        r = csv.reader(fp)
        for row in r:
            datas.append(row)
    return datas

def analysis(datas):
    ''' 数据分析 '''
    df = pd.DataFrame({'exp': datas[:, 0],
                       'edu': datas[:, 1],
                       'position': datas[:, 2],
                       'keys': datas[:, 3]})
    count(df, 'exp', '经验') # 按经验统计
    count(df, 'edu', '学历') # 按学历统计
    count(df, 'position', '职位') # 按职位统计

def count(df, idx, name):
    ''' 分组统计 '''
    print(('按' + name + '分组').center(60, '-'))
    c = df[idx].value_counts(sort=True)
    print(c)

if __name__ == '__main__':
    # 读取并清洗数据
    datas = np.array(load_datas())
    analysis(datas)

苏州市java岗位的薪资状况(2)

  5~7年经验果然是最容易找到高薪职位的,而且用人单位大多要求本科学历。

  职能的统计比较杂乱,高级软件工程师和架构师的岗位较多,项目经理这类职位的薪水一般低于工程师,这也和预计的相同:

苏州市java岗位的薪资状况(2)

  技能关键字看起来并不友好:

苏州市java岗位的薪资状况(2)

  第一条记录很好地反应了技能要求,第二条就没什么用了,这是由于关键字信息是HR自行添加的,大多数HR都不太了解技术,因此也就出现了像第二条那样对本次分析没什么作用的关键字。

  看来得求助于一些分词技术,从职位信息中抽取一些关键字。

  下篇继续,看看哪些技能是抢手的。


  作者:我是8位的

  出处:http://www.cnblogs.com/bigmonkey

  本文以学习、研究和分享为主,如需转载,请联系本人,标明作者和出处,非商业用途! 

  扫描二维码关注公作者众号“我是8位的”

苏州市java岗位的薪资状况(2)