令人羞耻的中国流氓搜索爬虫
程序员文章站
2022-07-14 15:06:30
...
众所周知,国内的搜索引擎爬虫是恶名昭著的,不遵守行业规则,不尊重robots.txt的规定,其疯狂的爬网页行为对缺乏安全抵抗机制的中小互联网站往往是灭顶之灾。
就是JavaEye网站也时不时遭受流氓爬虫的困扰,流氓爬虫包括了百度,雅虎中国等所谓的大公司。至于名气稍小一点的爬虫,那就更加肆无忌惮了。JavaEye网站曾经连续封杀了两个C类IP地址段以杜绝其流氓行径。
但是没有想到啊,中国的流氓爬虫已经把黑手伸向了国外,恶名已经扬名在外了。
当我今天访问Progmatic Programmers的网站,却看到了如下信息:
http://media.pragprog.com/titles/rails2/code/depot_c/public/images
大意如下:
对不起,你无权访问这个页面,因为你是从中国访问的。由于大量来自中国的爬虫程序导致的网站负载,我们不得不遗憾的*来自中国的IP地址。
看了这段话,真让人羞耻,中国的流氓爬虫已经连累了整个中国地区的IP地址段,造成了恶劣的国际影响。长此以往,要是国外的技术网站联手统统封杀中国的IP地址段,那将是何等的恶果啊。
真的应该到了讨伐流氓爬虫的时候了!
就是JavaEye网站也时不时遭受流氓爬虫的困扰,流氓爬虫包括了百度,雅虎中国等所谓的大公司。至于名气稍小一点的爬虫,那就更加肆无忌惮了。JavaEye网站曾经连续封杀了两个C类IP地址段以杜绝其流氓行径。
但是没有想到啊,中国的流氓爬虫已经把黑手伸向了国外,恶名已经扬名在外了。
当我今天访问Progmatic Programmers的网站,却看到了如下信息:
http://media.pragprog.com/titles/rails2/code/depot_c/public/images
引用
We're sorry, but access is denied to that document.
This might be because you are accessing this site from a machine in China. Because of a massive amount of robot traffic from Chinese machines, we've had to take the unfortunate step of blocking access from those IPs.
If you feel that access has been denied in error, please contact our support folks.
This might be because you are accessing this site from a machine in China. Because of a massive amount of robot traffic from Chinese machines, we've had to take the unfortunate step of blocking access from those IPs.
If you feel that access has been denied in error, please contact our support folks.
大意如下:
对不起,你无权访问这个页面,因为你是从中国访问的。由于大量来自中国的爬虫程序导致的网站负载,我们不得不遗憾的*来自中国的IP地址。
看了这段话,真让人羞耻,中国的流氓爬虫已经连累了整个中国地区的IP地址段,造成了恶劣的国际影响。长此以往,要是国外的技术网站联手统统封杀中国的IP地址段,那将是何等的恶果啊。
真的应该到了讨伐流氓爬虫的时候了!
推荐阅读