如何优化 Python 爬虫的速度？

程序员文章站 2022-04-26 22:26:00

...

目前在写一个 Python 爬虫，单线程 urllib 感觉过于慢了，达不到数据量的要求（十万级页面）。求问有哪些可以提高爬取效率的方法？

回复内容：

考虑用多进程+分布在不同机房的集群。

理由如下：
如果单进程，则瓶颈多出在CPU上。

多进程的话可以高效利用CPU。但是其实多数情况是在网络，所以说更好的解决办法是用多个机房的多台机器同时跑多进程的爬虫，这样减少网络阻塞。

实现的话，用scrapy+rq-queue然后用redis来作队列就好。

用这个方法爬过douban的几千万个页面

请参考我在另一个问题里的回答：
Python 爬虫如何入门学习？ 1.开启gzip
2.多线程
3.对于定向采集可以用正则取代xpath
4.用pycurl代替urlib
5.换个带宽高的环境谢邀。
爬虫下载慢主要原因是阻塞等待发往网站的请求和网站返回
解决的方法是采用非阻塞的epoll模型。
将创建的socket连接句柄和回调函数注册给操作系统，这样在单进程和单线程的情况下可以并发大量对页面的请求。
如果觉得自己写比较麻烦，我用过现成的类库：tornado的异步客户端
http://www.tornadoweb.org/documentation/httpclient.html
如果你打不开增加host或*
host地址：
74.125.129.121 http://www.tornadoweb.org对Python来说，最好分割任务 + 多进程你可以试试直接使用开源的爬虫库scrapy，原生支持多线程，还可以设定抓取速率，并发线程数等等参数；除此之外，scrapy对爬虫提取HTML内容也有良好的支持。
中文入门教程也已经问世，可以Google一下。 gevent,eventlet,pycurl

from multiprocessing.dummy import Pool

openshift上面跑gevent爬1024也就分分钟的事情……
话说我为什么只开了20个协程呢【严肃脸】
哦对了1024会短时间封IP，用同一个cookie爬就没事了 1.dns cache
2. 多线程
3. 异步io 用 Asynccore 之类手写。看看 Twisted 有没有非阻塞、异步的 HTTP client 框架。
用过 multiprocessing 包 + utllib 做 http client 速度相当不理想，线程应该会好但我的直觉是提升有限。
----
推荐 gevent + grequests

如何优化 Python 爬虫的速度？

回复内容：

从网站结构优化角度分析如何提升搜索引擎的友好度

在进行SEO优化工作时，如何有效的对关键词进行优化

Win10可以关闭禁用哪些系统服务 Win10优化系统运行速度的技巧方法

python爬虫教程之爬取百度贴吧并下载的示例

如何快捷高效地管理电脑中的进程以提高运行速度

Android编程使用加速度传感器实现摇一摇功能及优化的方法详解

零基础写python爬虫之urllib2中的两个重要概念：Openers和Handlers

如何运行Python程序的方法

python爬虫_实现校园网自动重连脚本的教程

Python爬虫之网页图片抓取的方法