利用python爬取实习僧网站上的数据

程序员文章站 2024-02-28 18:41:04

...

最近在找实习，就顺便想到用python爬取一些职位信息看看，有哪些岗位比较缺人。

#_*_coding:utf-8_*_

import requests
from bs4 import BeautifulSoup
import xlwt
import re

book = xlwt.Workbook()
#创建表格
sheet = book.add_sheet('sheet1', cell_overwrite_ok=True)

def getHtml():
 url ='http://www.shixiseng.com/interns?p='
 request = requests.get(url=url)
 respons = request.content      #得到页面源代码
 soup = BeautifulSoup(respons,'html.parser')   #解析源代码
 #下面是计算岗位列表的页数
 page=soup.select('div#pagebar')[0]   
 l=str(page.select('li')[-1].a.attrs['href'])
 x=re.compile(r'\d{3}')
 y=x.search(l)
 lastpage=int(y.group())
 print lastpage
 #调用函数
 saveData(url,lastpage + 1)

def saveData(url,lastpage):
    row=0  #必须定义为全局变量
    for i in range(1,lastpage):
        html = requests.get(url='%s%d' % (url,i)).content
        soup = BeautifulSoup(html,'html.parser')
        infos = soup.select('div.posi-list')[0].select('div.list')
        #相关的数据信息
        for info in infos:
            po_name = info.select('div.names.cutom_font')[0].a.text
            part = info.find('a', class_='cutom_font').text
            addr = info.find('div', class_='addr').span.text
            xz = info.find('div', class_='xz').span.text

        #写入excel
            sheet.write(row, 0, po_name)
            sheet.write(row, 1, part)
            sheet.write(row, 2, addr)
            sheet.write(row, 3, xz)
            row+=1


if __name__ == '__main__':
    getHtml()
    book.save('shixiseng.xls')

利用python爬取实习僧网站上的数据

利用python爬取实习僧网站上的数据

神箭手云爬虫-爬取携程【国际】航班/机票信息-利用python解析返回的json文件将信息存储进Mysql数据库

Python百行不到爬取当当网的图片以及标题导入数据库

python爬取拉勾网职位数据的方法

Python爬虫+数据分析实战--爬取并分析中国天气网的温度信息

[python爬虫]爬取天气网全国所有县市的天气数据

Python每天定时爬取中国天气网，并对数据进行简单的可视化处理，并部署在服务器上

python3 利用requests爬取拉勾网数据

Python转页爬取某铝业网站上的数据

都说 Python 赶超 Java，爬取拉勾网数据发现它的薪资已高至 50K