欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  网络运营

剖析搜索引擎原理来解决收录问题

程序员文章站 2022-06-28 22:18:50
我们在做 SEO优化 的时候,往往会遇到有人问,我网站为什么不收录的问题,今天 冯耀宗 与大家分享一下,百度在收录我们网站的时候一个整体的流程。从而来分析出......

我们在做seo优化的时候,往往会遇到有人问,我网站为什么不收录的问题,今天冯耀宗与大家分享一下,百度在收录我们网站的时候一个整体的流程。从而来分析出收录有哪些要求。

收录的概念

1、  收录的单位是页面

许多人都会误以为百度收录的是文章,从而不会在意文章意外的地方,而这是一个非常严重的通病,因此导致内页不收录,因为内页的重复度太高,因此我建议我们在做网站的时候,不应该把内页做太多内容的比如说:热点新闻、相关文章等等。

2、  收录的流程

页面经过机器的“审核”具有在搜索引擎展示的资格。如何收录都的有的话,那么你的页面是不可能出现在搜索结果上,更加不可能有排名。

3、  页面快照

页面在百度收录的时候,会对你的网站下载一份快照,当搜索更新该条索引的时候,同时快照也会被更新。

收录的意义

1、  优质的页面收录越多越好

不一定收录的越多排名就越好,如果说整个网站的内容都是采集的,而又被收录,那么当百度发现的网站的时候,你网站就会很危险了。但是优质的页面收录越多,能够展现越多的长尾关键词的排名。

2、  新站收录正常增加说明你网站健康

新站不会对你网站每天收录,但是会对你网站建立一个更新频率,百度会更具你网站更新的频率来收录,如果你网站不经常更新,那么百度也不会每天收录你的网站和更新快照。

收录需要经过的一些流程

1、  spider获得url

首先需要蜘蛛获得你的url,才能够把你的url收录,这个时候我们可以通过提交入口提交你的网站。

2、  url是否被处理

当蜘蛛获得你的url的时候,他会进行一个分析,他会分析url是否存在,url是否已经收录等等。。

3、  新url进行抓取

这个时候蜘蛛会更具你提交的url来抓取你的网站,我们可以通过网站日志看到,抓取了不一定会收录。

3-1、页面信息分析

当蜘蛛抓取你网站并下载以后,会对你网站的信息进行分析,比如说:页面是否重复、页面是那种类型的如:图片、视频、文字等。

3-2、链接权重分析

同时也会对你网站链接权重进行分析,如果是一个新站那么获得的权重相对较低,因此内页收录相对较慢。

让蜘蛛获取你的url

1、  发外链

我们可以通过外链的方式来进行引导蜘蛛来抓取你的网站,并且通过外连的方式来提高你网站的权重。

2、  提交

向搜索引擎提交我们的url。

3、  制作网站地图

制作网站地图让蜘蛛爬去我们的网站。

注意:许多人都认为百度文库以及百度知道也是通过同样的方法来收录的,其实百度是走阿拉丁通道,无需收录,因此文库与知道是100%被收录的。

收录需要解决的问题

1、  没有被加入到黑名单

我们在购买域名的时候,就应该注意到,我们的域名没有被加入到黑名单,并且没有不良记录,不然你在前期优化网站的时候考核期会非常长。同时我们劲量不要使用三级域名以及后缀比较异常的域名。

2、  需要访问速度快的服务器

服务器访问速度一定不能慢,无论是对于用户体验还是对蜘蛛来说,服务器速度问题都非常重要,但是对于蜘蛛来说,特别是晚上服务器一定要快。因为百度蜘蛛基本都是晚上抓取的比较多。

3、  保证页面的原创度

我们需要保证的是整个页面的原创度,而不是一篇文章的原创度,因此我们在内容页劲量少放置一些不相关的内容,以免导致百度认为此页面为伪原创。

4、  有权重的链接

做有权重的链接,比如说:友情链接、外链,都算是有权重的链接,一来可以分配权重到你的网站,二来可以引导蜘蛛来到你的网站。

新网站不收录内页的分析思路

1、  排除域名问题:域名只要不是加入到黑名单以及三级域名以及。

2、  网站打开速度慢:网站速度我们一定要掌握好,我们可以通过百度站长工具抓取异常里面可以看出,服务器是否在晚上出现异常。

3、  分析网站日志:通过网站日志来分析出,我们的网站是否被蜘蛛抓取过。

3-1、没抓取:如果说没抓取,我们可以通过提交等手段来让蜘蛛获得你的url

3-2、有抓取没收录:如说抓取了没有被收录,那么说明你网站的信誉度不是很高,我们可以通过外链来提高我们网站页面的信誉度。

4、  内容原创度:内容原创度可以吸引蜘蛛对你网站内容的兴趣。

总结:网站收录其实是一个非常初级的问题,但是往往许多细节被各位seoer给忽略了,所以才导致做seo越来越难。