欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  IT编程

带你入门Python爬虫,8个常用爬虫技巧盘点

程序员文章站 2022-06-15 14:09:55
python作为一门高级编程语言,它的定位是优雅、明确和简单。 我学用python差不多一年时间了, 用得最多的还是各类爬虫脚本,注意:很多人学Python过程中会遇到各种烦恼问题,没有人帮答疑容易放弃。为此小编建了个Python全栈免费答疑.裙 :七衣衣九起起巴而五(数字的谐音)转换下可以找到了, ......

python作为一门高级编程语言,它的定位是优雅、明确和简单。

我学用python差不多一年时间了,

用得最多的还是各类爬虫脚本,注意:很多人学python过程中会遇到各种烦恼问题,没有人帮答疑容易放弃。为此小编建了个python全栈免费答疑.裙 :七衣衣九起起巴而五(数字的谐音)转换下可以找到了,不懂的问题有老司机解决里面还有最新python教程项目可拿,,一起相互监督共同进步!

写过抓代理本机验证的脚本、写过论坛中自动登录自动发贴的脚本

写过自动收邮件的脚本、写过简单的验证码识别的脚本。

 
带你入门Python爬虫,8个常用爬虫技巧盘点

这些脚本有一个共性,都是和web相关的,

总要用到获取链接的一些方法,故累积了不少爬虫抓站的经验,

在此总结一下,那么以后做东西也就不用重复劳动了。

1、基本抓取网页

get方法

 
带你入门Python爬虫,8个常用爬虫技巧盘点

post方法

 
带你入门Python爬虫,8个常用爬虫技巧盘点

2.使用代理服务器

这在某些情况下比较有用,

比如ip被封了,或者比如ip访问的次数受到限制等等。

 
带你入门Python爬虫,8个常用爬虫技巧盘点

3.cookies处理

 
带你入门Python爬虫,8个常用爬虫技巧盘点

是的没错,如果想同时用代理和cookie,

那就加入proxy_support然后operner改为 ,如下:

 
带你入门Python爬虫,8个常用爬虫技巧盘点

4.伪装成浏览器访问

某些网站反感爬虫的到访,于是对爬虫一律拒绝请求。

这时候我们需要伪装成浏览器,

这可以通过修改http包中的header来实现:

 
带你入门Python爬虫,8个常用爬虫技巧盘点

5、页面解析

对于页面解析最强大的当然是正则表达式,

这个对于不同网站不同的使用者都不一样,就不用过多的说明。

 
带你入门Python爬虫,8个常用爬虫技巧盘点

其次就是解析库了,常用的有两个lxml和beautifulsoup。

对于这两个库,我的评价是,

都是html/xml的处理库,beautifulsoup纯python实现,效率低,

但是功能实用,比如能用通过结果搜索获得某个html节点的源码;

lxmlc语言编码,高效,支持xpath。

6.验证码的处理

碰到验证码咋办?

这里分两种情况处理:

google那种验证码,没办法。

简单的验证码:字符个数有限,只使用了简单的平移或旋转加噪音而没有扭曲的,

这种还是有可能可以处理的,一般思路是旋转的转回来,噪音去掉,

然后划分单个字符,划分好了以后再通过特征提取的方法(例如pca)降维并生成特征库,

然后把验证码和特征库进行比较。

这个比较复杂,这里就不展开了,

具体做法请弄本相关教科书好好研究一下。

7. gzip/deflate支持

现在的网页普遍支持gzip压缩,这往往可以解决大量传输时间,

以verycd的主页为例,未压缩版本247k,压缩了以后45k,为原来的1/5。

这就意味着抓取速度会快5倍。

然而python的urllib/urllib2默认都不支持压缩

要返回压缩格式,必须在request的header里面写明’accept-encoding’,

然后读取response后更要检查header查看是否有’content-encoding’一项来判断是否需要解码,很繁琐琐碎。

如何让urllib2自动支持gzip, defalte呢?

其实可以继承basehanlder类,

然后build_opener的方式来处理:

 
带你入门Python爬虫,8个常用爬虫技巧盘点

8、多线程并发抓取

单线程太慢的话,就需要多线程了,

这里给个简单的线程池模板 这个程序只是简单地打印了1-10,

但是可以看出是并发的。

虽然说python的多线程很鸡肋

但是对于爬虫这种网络频繁型,

还是能一定程度提高效率的。

 
带你入门Python爬虫,8个常用爬虫技巧盘点

9. 总结

阅读python编写的代码感觉像在阅读英语一样,这让使用者可以专注于解决问题而不是去搞明白语言本身。

python虽然是基于c语言编写,但是摒弃了c中复杂的指针,使其变得简明易学。

并且作为开源软件,python允许对代码进行阅读,拷贝甚至改进。

这些性能成就了python的高效率,有“人生苦短,我用python”之说,是一种十分精彩又强大的语言。

总而言之,开始学python一定要注意这4点:

1.代码规范,这本身就是一个非常好的习惯,如果开始不养好好的代码规划,以后会很痛苦。

2.多动手,少看书,很多人学python就一味的看书,这不是学数学物理,你看例题可能就会了,学习python主要是学习编程思想。

3.勤练习,学完新的知识点,一定要记得如何去应用,不然学完就会忘,学我们这行主要都是实际操作。

4.学习要有效率,如果自己都觉得效率非常低,注意:很多人学python过程中会遇到各种烦恼问题,没有人帮答疑容易放弃。为此小编建了个python全栈免费答疑.裙 :七衣衣九起起巴而五(数字的谐音)转换下可以找到了,不懂的问题有老司机解决里面还有最新python教程项目可拿,,一起相互监督共同进步!

本文的文字及图片来源于网络加上自己的想法,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。