欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  后端开发

想要用 python 做爬虫, 是使用 scrapy框架还是用 requests, bs4 等库?

程序员文章站 2022-05-13 09:28:16
...
想要用python(python3)实现一个爬虫,来完成自己的一些需求。
参考网上的资料,发现对自己而言有两种待选的方案:
1. 使用scrapy框架
都说该框架功能强大,实现简单。但是不兼容python3,
2. 使用requests 和 bs4等库来自己实现
相比方案一,可能要自己多写好多代码,以及性能可能不如开源的框架。

由于自己学习的python3(好多人说python3 才是趋势,所以没有学习python2),如果采用方案一,会有scrapy对python3 的支持不够好(虽说现在scrapy官网上说对python3的支持正在进行中,但不相等),希望熟悉的人回答一下 scrapy对python3的支持到底如何?; 如果采用方案二,那么想问 ,如果我想要利用 requests, bs4等库 实现一个简单版的 scrapy, 困难有多大,需要学习那些东西?

回复内容:

真的不要纠结2还是3,对于爬虫来讲,感觉不到区别,这些都不是事儿,除了编码和print。
而且requests和bs4都支持吧(待我确定下)。

那什么是事儿呢?
1 限制ip
用requests代理,买代理,或者网上免费代理
2 伪装成浏览器
requests切换user agent
3 先登录,保存cookies
requests用session先post拿到cookies,再爬
4 URL参数太多,不明白什么意思
webdriver和phantomjs
5 JavaScript和ajax问题
浏览器f12分析请求规律,直接requests请求。或者用webdriver和phantomjs,如果用scrapy的话,用scrapyjs
6 爬的太慢
多线程,别说gil,一般是网络io慢,cpu等io
7 还是慢
scrapy异步(做过几个项目了,挺好用的),pyspider(这个支持Python3)
8 还是慢
分布式(暂时还没涉及),redis,scrapyd
9 验证码
对不起,帮不了你。简单的可以pil,灰度二值化切割识别
10 如果你想自己实现异步请求的话
grequests不错



爪机回复,待补充。
ps 不知不觉自己用Python有一段时间了,写过爬虫,web,最近用Python挣了点钱 前几天刚刚用几个库自己写了一个简单的爬虫,不过因为我是用的Python2.7,所以可能有些不同,先说说我的体验

2个多月前学习了Scrapy框架,之后自己写了几个爬虫,基本是BaseSpider,CrawlSpider,当时感觉写一个爬虫很简单,有一个现成的框架摆在那里,只要自己定义要抓取的类和抓取的函数就行了

之后由于其他事情Python学习断了一个多月,之后看《Python核心编程》,讲到爬虫,就想到为什么不自己写一个,于是开始做。

这时候才体会到写爬虫并不像自己想的那么简单,得自己定义诸如存储数据类,同域名保留函数,数据去重等一系列问题,最后用两种方案写出来,一个是定义一个类,一个是只用函数,不过二者基本上是类似的,当然还有一系列问题没有解决,目前的功能是根据输入的网址和爬取深度来爬取网址,不过基本雏形出来了,以后慢慢解决

个人建议先学习Scrapy,我能感受到的最大的好处就是学习了正则,以至于后来自己写爬虫提取网址直接用正则了,其他的什么库都没有用

学完Scrapy后,试着自己写一个爬虫,因为这时候你对爬虫的基本操作流程已经有所掌握,照猫画虎还不会么,安题主所说,用request和bs4库是肯定不够的,不过不要急着学库,到时候需要了再去查(我个人是喜欢用正则,所以我自己写的爬虫只是用了re,当然不可否认上面两个也很强大,个人喜好而已)写的过程肯定会遇到问题,比如数据存放,去重,抓取,一个一个解决,对提升自己绝对有好处

看着自己写的爬虫跑网页,也是很有成就感的 不要纠结python2 还是python3 的问题。
学习编程不光是学习语法,是学习计算思维,编程思路。python2和python3 差别不是很大。

看你的情况,建议先学习标准库或requests 这个库学习爬虫,先学会抓包,模拟post、get ,自动填表等基本技能,再学习scrapy框架。

建议看看 黄哥主讲的python爬虫联想词视频,学习一下基础知识。

搜索“python爬虫联想词视频” 有播放地址。

加油! 先去试试urllib和urllib2,熟悉一下爬虫的基本思维。然后熟悉了大概之后看看requests,这也是urllib\urllib2封装的,熟悉抓包和分析页面成分,了解POST、GET都是什么原理和实用,试着自己去写几个小站的爬虫,当你不满足于此的时候可以去撸Scrapy了,但是入坑之前推荐楼主先去了解Python的多线程处理,目前我正在死磕中。。 看你使用场景。
如果你的爬虫是玩玩,练练手。或者是对某一站点请求并发量不大的时候,可以用scrapy。
如果你的爬虫对某一站点请求很频繁,量很大时,我倾向于使用requests bs re。

爬虫的业务逻辑很简单。重点是反爬!反爬!反爬!


scrapy优势在于抽象了业务,让你通过配置你需要的数据格式,帮你快速获取结果。这在请求量很小的时候还算方便,但当请求量一大起来,必然会遇到反爬机制各种封你,对于反爬scrapy没提供特别有效的处理机制。

另外往往获取有效数据的操作,用BeautifulSoup+re就搞定了,而为了使用scrapy不得不配置的一堆东西反倒显得繁琐了。
既然所有反爬的处理都需要自己弄,这样看来scrapy的优势其实已经很小了,所以我建议requests bs re做。 requests和bs4库还是相当强大的,简单写个几十行,再配上代理和多进程/多线程,就能抓取相当可观的数据。题主如果想入门这两个库可以在网易云课堂上搜一个有关python爬虫的课程,具体名字忘了,但是个人认为讲的还不错。另外就是善用文档,一切说明都在文档里,百度一搜就有。