欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

SEO—关于网站收录、百度排名以及robots协议之间联系的初级学习

程序员文章站 2022-05-16 19:53:58
...

我想先介绍一下收录、排名的意义,然后再介绍robots协议的作用。

不知道你有没有注意过,以下情况。当你想了解一个东西,你可能会首先百度一下,看是否有自己需要的信息。

例如在百度上搜“上海哪里最好玩?
SEO—关于网站收录、百度排名以及robots协议之间联系的初级学习
可以看到在基本前几位的都是广告位,这涉及到百度的竞价排名和自然排名,我会在以后得博客中分享。
SEO—关于网站收录、百度排名以及robots协议之间联系的初级学习
但是往后面翻,可以看到后面这些文章后面是没有“广告”的小尾巴的,这些文章就是被百度收录且在百度首页有排名的帖子。这就引出了今天的问题——什么是收录、排名以及和robots协议有什么关系呢?

互联网上每天会创作出无数的文章,那么关于“上海哪里最好玩”也会有很多网站会发布这类文章,特别是一些旅游类网站可能会多一些。那么为什么我们在百度搜索“上海哪里最好玩”,除了广告位的那些帖子,这些没有买百度广告位的帖子会出现在首页呢?其实这些帖子就是被百度收录了,且收录后才有可能被百度排在首页。

举个例子,这就好像班级里评选年度优秀班*,前提条件是你得是班*,可以是班长或团支书等等,这样你才会有入选优秀班*的前提。用收录的术语可以这样来表达,这些是班*的同学被收录了。然后有了班*这个身份后,通过班级学生投票以及老师投票,选出了公认的最优秀的两位成为优秀班*。用排名的术语来说,就可以说是这两位同学有了排名,才会成为优秀班*。而那些是班*但没有评上优秀班*的同学依旧还有可能在下一年度成为优秀班*,即拥有排名。不是班*的同学也会可能再下一年度成为班*,即被收录。

所以通过例子可以知道,有收录不一定有排名,有排名的一定会被百度收录,且排名不是固定不变的,收录也不是固定不变的。

这里穿插介绍一下如何查自己的帖子有没有被收录。打开百度,在百度搜索框中输入网址,如果可以搜到,即已经被收录,反之就是没有被收录。少量的帖子可以用这种方式查收录,如果数据大的话,就要去借助工具,此类工具网上很多,可以自己去搜一些。排名也可以手工或者工具查。
SEO—关于网站收录、百度排名以及robots协议之间联系的初级学习
最后,来讲一下robots协议。百度就是一个大蜘蛛,每天去爬取大量的网站以及帖子,把它觉得好的帖子进行收录,在收录的帖子中选取质量高的帖子放在百度首页展现给用户,用户搜索后可以对感兴趣的帖子进行点击浏览。那么百度去爬取网站的时候是都爬一些什么内容呢?robots协议就是网站写的协议,就是规定百度可以爬网站什么内容以及不可以爬什么内容,当然这只是一个协议,百度也不是完全遵守的,但基本上是遵守的。

比如查看淘宝的robots协议,它是规定百度不可以爬取的,但是你去百度搜索淘宝网,依然可以搜到。百度作为国内第一大中文搜索引擎,如果连淘宝都搜不到,那也太没有信服度了,用户会觉得怎么连淘宝都搜不到,所以robots协议,百度也不是完全遵守的。

User-agent: Baiduspider
Disallow: /

User-agent: baiduspider
Disallow: /

从淘宝的robots协议中可以看出,这里面基本上就可以总结为三个词,分别是User-Agent、Allow、Disallow。以及一个符号斜杠(/)。

分被介绍一下它们分别代表什么意思。

User-Agent: 表示某个机器人

User-Agent:baiduspider 表示百度蜘蛛机器人。

Allow: 表示允许机器人访问的页面。

Allow:/ 表示允许整个网站。

Disallow: 表示不允许机器人访问的页面。

Disallow:/ 表示阻止整个网站

下面这个是截取了一部分百姓网的robots协议,我们可以一起来分析一下具体的含义。

User-Agent: Mediapartners-Google #用户:谷歌机器人
Allow: /  #允许谷歌爬取百姓网

User-Agent: AdsBot-Google #用户:谷歌机器人
Allow: / #允许谷歌爬取百姓网

User-agent: Yahoo! Slurp China # 用户雅虎机器人
Disallow: / #不允许雅虎爬取百姓网

User-Agent: * #允许所有的搜索引擎可以按照以下限制语法进行合理的抓取网站中的文件、目录。
Disallow: /*?*#禁止访问网站中所有包含问号 (?) 的网址。
Disallow: /*%3F*#禁止访问网站中所有包含%3F的网站
Disallow: /autocomplete/ #禁止访问此目录以及其中的所有内容
Disallow: /arch/  #禁止访问此目录以及其中的所有内容
Disallow: /*/t*.html #禁止访问此网站中所有文件夹下以t字母开始命名的html文件
Disallow: /gifts/murmur#禁止访问murmur目录下的所有文件

这就是robots的用法,根据需要去设置规则,让爬虫能够爬取更多网站有效的内容,从而去提高网站内帖子的收录量。

总结:先写好robots协议,蜘蛛去爬取网站,网站里的帖子才有可能被收录,然后才有可能在百度首页有排名,用户通过关键词点击在首页看到你的帖子,点击后才能有访问量,用户通过点击才能继续有后续的获客、转化率、留存率等。

相关标签: SEO seo