抓取时ip被封禁问题

程序员文章站 2022-04-18 08:05:18

...

本帖最后由 zzfkyo 于 2013-11-24 22:36:33 编辑最近需要抓取一个站点的内容，我是用的snoopy来抓的，一开始发现会封ip后，我按照网上的解决方案将user-agent换成了google的蜘蛛的，并且用snoopy进行了伪造了ip（每抓一条就换一个随机ip)但是抓取一百多个页面后还是被封ip导致无法抓取，有什么好的解决方法吗？

回复讨论(解决方案)

应该是访问太频繁了。

应该是访问太频繁了。那该如何解决呢，sleep吗，但是要抓取的数据量很大，如果sleep的话根本没那么多时间抓

并且用snoopy进行了伪造了ip

这个是忽悠你的..

能伪造ip？这。。。

抓太快管你是谁啊，照封

并且用snoopy进行了伪造了ip

这个是忽悠你的.. 额，原来如此

相关标签：抓取时ip被封禁问题

上一篇：怎么在.htaccess文件中设置php

下一篇： php中static静态类与静态变量用法实例对比分析

抓取时ip被封禁问题

回复讨论(解决方案)

python抓取并保存html页面时乱码问题的解决方法

Vue批量图片显示时遇到的路径被解析问题

python抓取网页时字符集转换问题处理方案分享

解决python给列表里添加字典时被最后一个覆盖的问题

使用Curl进行抓取远程内容时url中文编码问题示例探讨

百度蜘蛛抓取时返回304状态码的问题分析

如何解决Godaddy域名解析被屏蔽（IP地址并没有屏蔽掉）的问题

oracle11g用户登录时被锁定问题的解决方法（ora-28000 the account is locked）

python抓取网页时字符集转换问题处理方案分享

关于使用jquery的load方法时被加载页面内部script失效问题的一次探索

抓取时ip被封禁问题

回复讨论(解决方案)

python抓取并保存html页面时乱码问题的解决方法

Vue批量图片显示时遇到的路径被解析问题

python抓取网页时字符集转换问题处理方案分享

解决python给列表里添加字典时被最后一个覆盖的问题

使用Curl进行抓取远程内容时url中文编码问题示例探讨

百度蜘蛛抓取时返回304状态码的问题分析

如何解决Godaddy域名解析被屏蔽（IP地址并没有屏蔽掉）的问题

oracle11g用户登录时被锁定问题的解决方法 （ora-28000 the account is locked）

python抓取网页时字符集转换问题处理方案分享

关于使用jquery的load方法时被加载页面内部script失效问题的一次探索

oracle11g用户登录时被锁定问题的解决方法（ora-28000 the account is locked）