超多IP访问/robots.txt解决方案
程序员文章站
2022-05-21 10:32:11
...
超多IP访问/robots.txt
apache日志里全是这样的记录,全是访问的/robots.txt,而且十多分钟就有几万行。服务器CPU经常跑到100%。
蜘蛛也不会爬robots.txt这么频繁吧。。。大神帮分析下
66.249.65.147 - - [17/Oct/2014:10:14:38 +0100] "GET /robots.txt HTTP/1.1" 200 -
(-是因为我在网站根目录下创建了个空白的robots.txt。)
------解决思路----------------------
比较奇怪,你确定cpu被占100%是这个问题?
把robots.txt屏蔽看看。
------解决思路----------------------
robots.txt这个东西只要你编程谨慎没必要放上,放上了是个累赘,分析一下他的坏处,欢迎拍砖:
1、如果你没有将后台的地址在前台页面上调用过的话,蜘蛛是不会爬取的,对于css,js这种东西,蜘蛛也不愿意爬。
2、很多新手在设置robots.txt的时候都是很乖很听话,敏感地址放上来屏蔽蜘蛛爬取,其实只要严格,蜘蛛爬不到,但是别有用心的人会先看robots.txt一下就找到了管理入口地址。
3、不管哪个蜘蛛跑过来第一个爬的就是robot.txt,占用了一点资源
你这种情况应该不是robots.txt的原因,这个文件应该是直接发出去的,到不了100%的情况
apache日志里全是这样的记录,全是访问的/robots.txt,而且十多分钟就有几万行。服务器CPU经常跑到100%。
蜘蛛也不会爬robots.txt这么频繁吧。。。大神帮分析下
66.249.65.147 - - [17/Oct/2014:10:14:38 +0100] "GET /robots.txt HTTP/1.1" 200 -
(-是因为我在网站根目录下创建了个空白的robots.txt。)
------解决思路----------------------
比较奇怪,你确定cpu被占100%是这个问题?
把robots.txt屏蔽看看。
------解决思路----------------------
robots.txt这个东西只要你编程谨慎没必要放上,放上了是个累赘,分析一下他的坏处,欢迎拍砖:
1、如果你没有将后台的地址在前台页面上调用过的话,蜘蛛是不会爬取的,对于css,js这种东西,蜘蛛也不愿意爬。
2、很多新手在设置robots.txt的时候都是很乖很听话,敏感地址放上来屏蔽蜘蛛爬取,其实只要严格,蜘蛛爬不到,但是别有用心的人会先看robots.txt一下就找到了管理入口地址。
3、不管哪个蜘蛛跑过来第一个爬的就是robot.txt,占用了一点资源
你这种情况应该不是robots.txt的原因,这个文件应该是直接发出去的,到不了100%的情况
相关文章
相关视频
- 详解win10下PHP的安装配置(以php5.6为...
- php Swoole实现毫秒定时计划任务(详解)
- 【DTM】PHP协程客户端v0.1 beta版本发...
- PHP中类的理解和应用[一]_PHP教程
- 超多IP访问/robots.txt解决方案
上一篇: Php注入点构造代码_PHP教程