想要用 python 做爬虫，是使用 scrapy框架还是用 requests, bs4 等库？

程序员文章站 2022-05-13 09:28:16

...

想要用python（python3）实现一个爬虫，来完成自己的一些需求。
参考网上的资料，发现对自己而言有两种待选的方案：
1. 使用scrapy框架
都说该框架功能强大，实现简单。但是不兼容python3,
2. 使用requests 和 bs4等库来自己实现
相比方案一，可能要自己多写好多代码，以及性能可能不如开源的框架。

由于自己学习的python3（好多人说python3 才是趋势，所以没有学习python2），如果采用方案一，会有scrapy对python3 的支持不够好（虽说现在scrapy官网上说对python3的支持正在进行中，但不相等），希望熟悉的人回答一下 scrapy对python3的支持到底如何？；如果采用方案二，那么想问，如果我想要利用 requests， bs4等库实现一个简单版的 scrapy，困难有多大，需要学习那些东西？

回复内容：

真的不要纠结2还是3，对于爬虫来讲，感觉不到区别，这些都不是事儿，除了编码和print。
而且requests和bs4都支持吧（待我确定下）。

那什么是事儿呢？
1 限制ip
用requests代理，买代理，或者网上免费代理
2 伪装成浏览器
requests切换user agent
3 先登录，保存cookies
requests用session先post拿到cookies，再爬
4 URL参数太多，不明白什么意思
webdriver和phantomjs
5 JavaScript和ajax问题
浏览器f12分析请求规律，直接requests请求。或者用webdriver和phantomjs，如果用scrapy的话，用scrapyjs
6 爬的太慢
多线程，别说gil，一般是网络io慢，cpu等io
7 还是慢
scrapy异步（做过几个项目了，挺好用的），pyspider（这个支持Python3）
8 还是慢
分布式（暂时还没涉及），redis，scrapyd
9 验证码
对不起，帮不了你。简单的可以pil，灰度二值化切割识别
10 如果你想自己实现异步请求的话
grequests不错

爪机回复，待补充。
ps 不知不觉自己用Python有一段时间了，写过爬虫，web，最近用Python挣了点钱前几天刚刚用几个库自己写了一个简单的爬虫，不过因为我是用的Python2.7，所以可能有些不同，先说说我的体验

2个多月前学习了Scrapy框架，之后自己写了几个爬虫，基本是BaseSpider，CrawlSpider，当时感觉写一个爬虫很简单，有一个现成的框架摆在那里，只要自己定义要抓取的类和抓取的函数就行了

之后由于其他事情Python学习断了一个多月，之后看《Python核心编程》，讲到爬虫，就想到为什么不自己写一个，于是开始做。

这时候才体会到写爬虫并不像自己想的那么简单，得自己定义诸如存储数据类，同域名保留函数，数据去重等一系列问题，最后用两种方案写出来，一个是定义一个类，一个是只用函数，不过二者基本上是类似的，当然还有一系列问题没有解决，目前的功能是根据输入的网址和爬取深度来爬取网址，不过基本雏形出来了，以后慢慢解决

个人建议先学习Scrapy，我能感受到的最大的好处就是学习了正则，以至于后来自己写爬虫提取网址直接用正则了，其他的什么库都没有用

学完Scrapy后，试着自己写一个爬虫，因为这时候你对爬虫的基本操作流程已经有所掌握，照猫画虎还不会么，安题主所说，用request和bs4库是肯定不够的，不过不要急着学库，到时候需要了再去查(我个人是喜欢用正则，所以我自己写的爬虫只是用了re，当然不可否认上面两个也很强大，个人喜好而已)写的过程肯定会遇到问题，比如数据存放，去重，抓取，一个一个解决，对提升自己绝对有好处

看着自己写的爬虫跑网页，也是很有成就感的不要纠结python2 还是python3 的问题。
学习编程不光是学习语法，是学习计算思维，编程思路。python2和python3 差别不是很大。

看你的情况，建议先学习标准库或requests 这个库学习爬虫，先学会抓包，模拟post、get ，自动填表等基本技能，再学习scrapy框架。

建议看看黄哥主讲的python爬虫联想词视频，学习一下基础知识。

搜索“python爬虫联想词视频” 有播放地址。

加油！先去试试urllib和urllib2，熟悉一下爬虫的基本思维。然后熟悉了大概之后看看requests，这也是urllib\urllib2封装的，熟悉抓包和分析页面成分，了解POST、GET都是什么原理和实用，试着自己去写几个小站的爬虫，当你不满足于此的时候可以去撸Scrapy了，但是入坑之前推荐楼主先去了解Python的多线程处理，目前我正在死磕中。。看你使用场景。
如果你的爬虫是玩玩，练练手。或者是对某一站点请求并发量不大的时候，可以用scrapy。
如果你的爬虫对某一站点请求很频繁，量很大时，我倾向于使用requests bs re。

爬虫的业务逻辑很简单。重点是反爬！反爬！反爬！

scrapy优势在于抽象了业务，让你通过配置你需要的数据格式，帮你快速获取结果。这在请求量很小的时候还算方便，但当请求量一大起来，必然会遇到反爬机制各种封你，对于反爬scrapy没提供特别有效的处理机制。

另外往往获取有效数据的操作，用BeautifulSoup+re就搞定了，而为了使用scrapy不得不配置的一堆东西反倒显得繁琐了。
既然所有反爬的处理都需要自己弄，这样看来scrapy的优势其实已经很小了，所以我建议requests bs re做。 requests和bs4库还是相当强大的，简单写个几十行，再配上代理和多进程/多线程，就能抓取相当可观的数据。题主如果想入门这两个库可以在网易云课堂上搜一个有关python爬虫的课程，具体名字忘了，但是个人认为讲的还不错。另外就是善用文档，一切说明都在文档里，百度一搜就有。

上一篇：分布式缓存的一起问题

下一篇： php输出html有关问题，

想要用 python 做爬虫， 是使用 scrapy框架还是用 requests, bs4 等库？

回复内容：