欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  IT编程

都说Python找不到工作?那这些岗位都是什么?零基础爬智联!

程序员文章站 2022-07-02 14:00:45
前言 作为一名准备转行数据分析的小白,我先接触到的是网络爬虫学习,每次爬虫运行都有新的bug收获,通过不断debug,终于稍微能爬一些数据了,在此想和大家分享一下~ 私信小编007即可获取小编精心准备的PDF十套哦! 看看最后一页搜索结果 。 PS:小技巧,在页面下部跳转页面输入一个很大的数字,比如 ......

前言

作为一名准备转行数据分析的小白,我先接触到的是网络爬虫学习,每次爬虫运行都有新的bug收获,通过不断debug,终于稍微能爬一些数据了,在此想和大家分享一下~

私信小编007即可获取小编精心准备的PDF十套哦!

都说Python找不到工作?那这些岗位都是什么?零基础爬智联!

 

都说Python找不到工作?那这些岗位都是什么?零基础爬智联!

 

看看最后一页搜索结果

都说Python找不到工作?那这些岗位都是什么?零基础爬智联!

 

PS:小技巧,在页面下部跳转页面输入一个很大的数字,比如10000可以跳到最后一页。

右键查看网页源代码,CTRL+F搜索关键要爬取信息,如下图红框内容

都说Python找不到工作?那这些岗位都是什么?零基础爬智联!

 

都说Python找不到工作?那这些岗位都是什么?零基础爬智联!

 

页面红框上的 大数据分析师 字样竟然搜不到!!!

都说Python找不到工作?那这些岗位都是什么?零基础爬智联!

 

可能藏在json文件里了

那就再试试,搜一下 数据分析师

都说Python找不到工作?那这些岗位都是什么?零基础爬智联!

 

这下总算有了

都说Python找不到工作?那这些岗位都是什么?零基础爬智联!

 

为什么会这样呢,经过检查发现:

都说Python找不到工作?那这些岗位都是什么?零基础爬智联!

 

大和后面的数据分析中间有个<b>标签,这是什么意思,吓得我赶紧百度了一下

都说Python找不到工作?那这些岗位都是什么?零基础爬智联!

 

设置成粗体?exm?好吧 图上确实是显示粗体

都说Python找不到工作?那这些岗位都是什么?零基础爬智联!

 

继续观察源代码,发现我想要的信息都在这(下图红框),看来不用抓包分析辣~

都说Python找不到工作?那这些岗位都是什么?零基础爬智联!

 

都说Python找不到工作?那这些岗位都是什么?零基础爬智联!

 

都说Python找不到工作?那这些岗位都是什么?零基础爬智联!

 

都说Python找不到工作?那这些岗位都是什么?零基础爬智联!

 

没时间解释了,快上车!

好吧,你根本不是司机,开始写代码。。。

都说Python找不到工作?那这些岗位都是什么?零基础爬智联!

 

都说Python找不到工作?那这些岗位都是什么?零基础爬智联!

 

以上是设置路径和为最后数据写入excel文件做铺垫

result11=[]

result21=[]

result31=[]

result41=[]

result51=[]

建立五个空的列表放我要抓的最终信息

都说Python找不到工作?那这些岗位都是什么?零基础爬智联!

 

都说Python找不到工作?那这些岗位都是什么?零基础爬智联!

 

里面没有中文啊,复制出来访问看看。

果然一样!!!

注意到这个url最后有个p=1,这很可能是页码,我换成5试试吧

都说Python找不到工作?那这些岗位都是什么?零基础爬智联!

 

都说Python找不到工作?那这些岗位都是什么?零基础爬智联!

 

看上图,果然是这样,我试试最后第90页

都说Python找不到工作?那这些岗位都是什么?零基础爬智联!

 

都说Python找不到工作?那这些岗位都是什么?零基础爬智联!

 

都说Python找不到工作?那这些岗位都是什么?零基础爬智联!

 

range(1,91)循环爬取1~90页,p="+str(k)是为了构造循环网址(我要把90页全爬下来)

通过观察网页构造选择正则提取

每次提取一页中的所有信息不断循环存在result11~51的列表里

都说Python找不到工作?那这些岗位都是什么?零基础爬智联!

 

结果如下图

都说Python找不到工作?那这些岗位都是什么?零基础爬智联!

 

都说Python找不到工作?那这些岗位都是什么?零基础爬智联!

 

一共5221条数据,并不是网页搜索的12354条,这活生生被吃了一半不止啊!

都说Python找不到工作?那这些岗位都是什么?零基础爬智联!

 

我又运行了一下,果然数量不一样了,好吧。。。这个问题还有待解决,麻烦各位dalao懂的话留言提醒一下小弟

都说Python找不到工作?那这些岗位都是什么?零基础爬智联!

 

这个<b></b>标签看着难受,用excel做点后处理

都说Python找不到工作?那这些岗位都是什么?零基础爬智联!

 

查找替换

都说Python找不到工作?那这些岗位都是什么?零基础爬智联!

 

报错了额

原来我默认的是wps打开,换成office的excel打开之后操作结果如下

都说Python找不到工作?那这些岗位都是什么?零基础爬智联!

 

是不是好多了呢,有机会以后继续谢谢针对本数据后续的数据分析~

完整代码如下:

都说Python找不到工作?那这些岗位都是什么?零基础爬智联!

 

代码运行大概15~20second