搜索引擎收录网页的四个阶段分析

程序员文章站 2022-04-07 09:54:03

作为SEO从业者，不仅要被搜索引擎抓取，还要被收录，最重要的是在收录后有良好的排名，本文将简单分析下搜索引擎收录网页的四个阶段。每个网站、每个网页的排名都是不一样的，看看你... 13-07-07...

网页收录第一阶段：大小通吃
搜索引擎的网页抓取都是采取「大小通吃」的策略，也就是把网页中能发现的链接逐一加入到待抓取url中，机械性的将新抓取的网页中的url提取出来，这种方式虽然比较古老，但效果很好，这就是为什么很多站长反应蜘蛛来访问了，但没有收录的原因，这仅仅是第一阶段。

网页收录第二阶段：网页评级
而第二阶段则是对网页的重要性进行评级，pagerank是一种著名的链接分析算法，可以用来衡量网页的重要性，很自然的，站长可以用pagerank的思路来对url进行排序，这就是各位热衷的「发外链」，据一位朋友了解，在中国「发外链」这个市场每年有上亿元的规模。

爬虫的目的就是去下载网页，但pagerank是个全局性算法，也就是当所有网页有下载完成后，其计算结果才是可靠的。对于中小网站来讲，服务器如果质量不好，如果在抓取过程中，只看到部分内容，在抓取阶段是无法获得可靠的pagerank得分。

网页收录第三阶段：ocip策略
ocip策略更像是pagerank算法的改进。在算法开始之前，每个网页都给予相同的「现金」，每当下载某个页面a后，a将自己的「现金」平均分给页面中包含的链接页面，把自己的「现金」清空。这就是为什么导出的链接越少，权重会越高的原因之一。

而对于待抓取的网页，会根据手头拥有的现金多少排序，优先下载现金最充裕的网页，ocip大致与pagerank思路一致，区别在于：pagerank每次要迭代计算，而ocip则不需要，所以计算速度远远快于pagerank，适合实时计算使用。这可能就是为什么很多网页会出现「秒收」的情况了。

网页收录第四阶段：大站优先策略
大站优先的思路很直接，以网站为单位来衡量网页的重要性，对于待抓取的url队列中的网页，根据所述网站归类，如果哪个网站等待下载的页面最多，则优先下载这些链接。其本质思想是「倾向于优先下载大型网站url」。因为大型网站往往包含更多的页面。鉴于大型网站往往是名站，其网页质量一般较高，所以这个思路虽然简单，但有一定依据。

实验表明这个算法虽然简单粗暴，但却能收录高质量网页，很有效果。这也是为什么许多网站的内容被转载后，大站却能排到你前面的最重要原因之一。

上一篇：做电商或者多网络营销选什么产品很重要

下一篇： 64位环境下企业如何有效防止垃圾邮件？

搜索引擎收录网页的四个阶段分析

百度是怎么网页的? 百度收录规则分析

百度谷歌等搜索引擎的工作原理及网站收录网页提交入口地址

防止网页被搜索引擎爬虫和网页采集器收录的方法汇总

网站优化搜索引擎收录网页的四个阶段