抓取时ip被封禁问题
程序员文章站
2022-03-18 13:53:18
...
本帖最后由 zzfkyo 于 2013-11-24 22:36:33 编辑 最近需要抓取一个站点的内容,我是用的snoopy来抓的,一开始发现会封ip后,我按照网上的解决方案将user-agent换成了google的蜘蛛的,并且用snoopy进行了伪造了ip(每抓一条就换一个随机ip)但是抓取一百多个页面后还是被封ip导致无法抓取,有什么好的解决方法吗?
回复讨论(解决方案)
应该是访问太频繁了。
应该是访问太频繁了。 那该如何解决呢,sleep吗,但是要抓取的数据量很大,如果sleep的话根本没那么多时间抓
并且用snoopy进行了伪造了ip
这个是忽悠你的..
能伪造ip?这。。。
抓太快管你是谁啊,照封
并且用snoopy进行了伪造了ip
这个是忽悠你的.. 额,原来如此
推荐阅读
-
使用Curl进行抓取远程内容时url中文编码问题示例探讨
-
百度蜘蛛抓取时返回304状态码的问题分析
-
如何解决Godaddy域名解析被屏蔽(IP地址并没有屏蔽掉)的问题
-
oracle11g用户登录时被锁定问题的解决方法 (ora-28000 the account is locked)
-
python抓取网页时字符集转换问题处理方案分享
-
关于使用jquery的load方法时被加载页面内部script失效问题的一次探索
-
mysql 用load data 导入数据时,数据被截断问题
-
解决python给列表里添加字典时被最后一个覆盖的问题
-
使用Curl进行抓取远程内容时url中文编码问题示例探讨_PHP
-
mysql 用load data 导入数据时,数据被截断问题