百度蜘蛛Baiduspider的真假如何分辨
实际上,我们的日志中,有很多的baiduspider是他人伪装的,要想解决这个问题。我们必须在验证baiduspider真伪上下功夫,这篇文章详细的介绍了爬虫的鉴别方法。
我们在根据网站日志分析搜索引擎蜘蛛抓取网页的记录时,实际上很多站点都是有一些伪装称baiduspider的到访者的。这些数据会严重影响我们对日志分析后的判断。
这些到访者,为什么会伪装为baiduspider来访问我们的网站呢?最典型的就是采集你内容的那些人。他们知道很多工具是能够看到哪些ip访问网站的量过大的。例如某一个ip今天访问你网站1万次,那正常吗?肯定是不正常的。但他要是baiduspdier呢?呵呵,那就正常了。
mozilla/5.0(compatible;baiduspider/2.0;+http://www.baidu.com/search/spider.html)
mozilla/5.0(compatible;baiduspider-render/2.0;+http://www.baidu.com/search/spider.html)
mozilla/5.0(linux;u;android4.2.2;zh-cn;)applewebkit/534.46(khtml,likegecko)version/5.1mobilesafari/10600.6.3(compatible;baiduspider/2.0;+http://www.baidu.com/search/spider.html)
mozilla/5.0(iphone;cpuiphoneos9_1likemacosx)applewebkit/601.1.46(khtml,likegecko)version/9.0mobile/13b143safari/601.1(compatible;baiduspider-render/2.0;+http://www.baidu.com/search/spider.html)
如上是包含了百度的常规爬虫,和渲染爬虫render的。这两个爬虫的区别符已经用红色字体标出来了。
可以通过dns反查方式来解决这个问题。根据平台不同验证方法不同,如linux/windows/os三种平台下的验证方法分别如下:
1、在linux平台下,您可以使用hostip命令反解ip来判断是否来自baiduspider的抓取。baiduspider的hostname以.baidu.com或.baidu.jp的格式命名,非.baidu.com或.baidu.jp即为冒充。
2、在windows平台或者ibmos/2平台下,您可以使用nslookupip命令反解ip来判断是否来自baiduspider的抓取。打开命令处理器输入nslookupxxx.xxx.xxx.xxx(ip地址)就能解析ip,来判断是否来自baiduspider的抓取,baiduspider的hostname以.baidu.com或.baidu.jp的格式命名,非.baidu.com或.baidu.jp即为冒充。
3、在macos平台下,您可以使用dig命令反解ip来判断是否来自baiduspider的抓取。打开命令处理器输入digxxx.xxx.xxx.xxx(ip地址)就能解析ip,来判断是否来自baiduspider的抓取,baiduspider的hostname以.baidu.com或.baidu.jp的格式命名,非.baidu.com或.baidu.jp即为冒充。
转载: 非常欢迎各位朋友分享到个人站长或者朋友圈,但转载请说明文章出处“黎青松seo博客”。
原文地址: http://www.alitaohuo.com/seobaike/seorumenjiaocheng/2005.html
上一篇: 你应该掌握的4个后台产品设计原则