白皮书解读搜索引擎的工作原理建库

程序员文章站 2022-03-27 19:35:19

百度蜘蛛抓取建库是个极其复杂的系统工程，光是抓取系统就分为链接存储系统、链接选取系统、DNS解析服务系统、抓取调度系统、网页分析系统、链接提取系统、链接分析系统、网页存储系统。...

导读：搜索引擎工作原理是什么？今天来讲讲蜘蛛的抓取建库。

本文解读的是：《百度官方课程抓取建库》

1、spider抓取系统

2、spider抓取指标

一、spider抓取系统

百度蜘蛛抓取建库是个极其复杂的系统工程，光是抓取系统就分为链接存储系统、链接选取系统、dns解析服务系统、抓取调度系统、网页分析系统、链接提取系统、链接分析系统、网页存储系统。

如果不好理解的话，你可以理解为一个抓取程序，分为以上几个功能模块，功能相互配合完成抓取程序，我个人分析，根据百度蜘蛛的情况来看，目前百度抓取的ip段在220,116段，116开头ip在于阳泉（李彦宏老家），因此我们不妨推测出这样一个观点，我们看到一个个的蜘蛛ip，就是对应的这些电脑主机，而这些电脑上就装着抓取程序。

二、spider抓取指标

我们按照蜘蛛抓取流程来说，一个蜘蛛爬到网站后，首先去访问robots.txt的协议文件，遵循协议中的规则，该爬哪里不该爬哪里，然后通过抓取后通过抓取返回码去做下一步动作，比如抓取a.com/123.html，返回码是404，那么此条信息就告诉百度这条信息已经失效，如果此条已收录，就从库中删除，同时蜘蛛再次访问url也不会抓取此链接。在百度蜘蛛抓取的过程中，如果你实时监测蜘蛛的时间就会发现一点，有的站内蜘蛛爬取很频繁，有的站内很久才有蜘蛛访问，造成这种结果有两个原因，一个是百度服务器任务处理采取分布式处理，所以蜘蛛抓取通道有阻塞，因此有时间上的差异，排除通道阻塞，站内内容多少和外链引入蜘蛛也是一个影响蜘蛛爬取的一个关键因素。

spider在抓取页面过程需判断页面是否抓取，没有抓取就会被放到抓取序列中处理，已抓取就会对比库中是否有同样并归一处理。

在公认的spider指标中，有四大指标：

1、网站更新频率，更新快多来，更新慢少来，这也是为什么很多站一天更新上万篇的原因，一定程度上可以直接提高收录几率。

2、网站内容质量高低。优质内容爬取频繁，低不爬或少爬。什么是优质内容？之前一篇文章有提到过。

3、服务器稳定、不卡顿和打开流畅。

4、站点评级。（已实锤不是权重，而是更高级的站点评级）评级是动态参数，是配合其他因子进行算法计算到阈值变化的变量。评级会影响网站的收录和排序。