百度等搜索引擎的Robots和Meta Robots协议的细节问题
对于很多seo优化人员来说Robot.txt是必修课之一、但是一提到这个协议、大家可能都会说这不就是用于网站和搜索引擎交流的通用协议嘛、难道本文的解释的能有百度百科详细吗?看到这可能你也会认为它只是一个辅助的小东西、虽然它很小、但是很可爱、更是很关键的一个协议、因为存在太多太多的细节我们需要去考虑了、另外还会简单介绍一下meta robots、这一点很多seoer可能都会遗漏的
大家都会知道、网站建设尤其是一些电子商务网站的建设、细节要求真是浩如烟海、但是这些细节如果稍有不注意就会对整个网站造成严重的伤害、那么今天帮您分析一下Robot.txt和meta robots的一些细节、我们平时到底该注意哪些细节呢?
一、需要屏蔽动态化链接
当网站做好静态化或者伪静态化后、我们需要屏蔽掉前面的动态页面所产生的链接、具体的写法是这样的:Disallow: /*?* 、英文状态下书写哦
二、注意“/”的区别
很多站长都会认为在Robot.txt协议中加不加“/”都是无关紧要的事情、但是个人在这里认为这是大大的错误、举个例子、Disallow: /s 与Disallow: /s/的区别、前者对于搜索引擎的蜘蛛来说就是禁止抓取所有含有s开头的页面或者目录、而后者可能提醒蜘蛛的是不要抓取是目录下的页面、这两种区别真的是天差万别、所以在实际操作的时候可能会选择后者、因为前者会造成广范围的“误杀”
三、CSS和JS需要屏幕吗?
在很多站长看来、这个是需要的、但其实google站长工具明确的说明:封禁css与js调用、可能会影响页面质量的判断、从而影响排名、通过实践百度方面也会有相类似的影响
四、对于已经删除过的目录或页面该怎么办呢?
对于已经删除的页面或者目录、很多站长都会选择屏蔽、但是这些页面或目录其实在删除前已经被搜索引擎收录了、屏蔽、真是一个号的选择吗?答案显然是不对的、最佳的做法、个人认为还是把这些页面详细的整理出来、并且集中的提交一下、然后自定义404页面、这样做的目的是正面应对、而不是逃避
五、MetaRobots使用
robots Meta标签是放在网页中、一般用于部分网页需要单独设置的情况下、两者的功能是一样的、Meta robots标签必须放在<head>和</head>之间、格式如下
<meta name="robots" content="index,follow" />
content中的值决定允许抓取的类型、必须同时包含两个值:是否允许索引(index)和是否跟踪链接(follow)、共有4个组参数可选
index,follow:允许抓取本页、允许跟踪链接、 index,nofollow:允许抓取本页、但禁止跟踪链接、 noindex,follow:禁止抓取本页、但允许跟踪链接、 noindex,nofllow:禁止抓取本页、同时禁止跟踪本页中的链接、
需要注意的是、meta robots标签很多搜索引擎是不支持的、只有少数搜索引擎能够识别并按给定的值抓取。所以尽可能的使用robots.txt文件来限制抓取、另外不要太刻意的在robots.txt中设置过多禁止文件或目录、只设置确实不希望被搜索引擎索引的目录和文件就可以了