爬虫系列之数据质量监控实践篇：规则库梳理与设计

先前在《爬虫系列之数据质量监控（二）：监控系统设计》一文中，对采集中数据解析部分可能出现的各种异常，进行了大概的总结。比如：标题或内容中包含乱码、css样式、JavaScript代码等。

由于出现的异常可能千奇百怪，我们不可能提前想到所有现象。此时，就需要根据目前已经发现的问题，总结出一套能够灵活应对不同情况的规则库。

其目的就是在数据持久化接口处，对接收的所有数据，依据信源系统中配置的规则进行校验，以判断采集到的数据的准确性，便与改进采集器或脚本，优化数据质量，提高产品的用户体验。

一. 规则库必须是抽象的规则，而不是具体表象。

通过对《爬虫系列之数据质量监控（二）：监控系统设计》中描述的各类规则进行抽象，大致可以总结出以下规则。

如下表所示：

序号	分类	规则细则
1	校验规则	A字段值长度小于阀值A
2	校验规则	A字段的值是否包含CSS样式
3	校验规则	A字段的值是否有乱码
4	校验规则	A字段值中汉字长度小于阀值A
5	校验规则	A字段值是否符合yyyy-MM-dd HH:mm:ss时间格式
6	校验规则	A字段值等于阀值A
7	校验规则	A字段值大于阀值A
8	校验规则	A字段值长度大于阀值A
9	校验规则	A字段值长度等于阀值A
10	校验规则	A字段的值是否包含JavaScript代码
11	校验规则	A字段值与字段B值相同
12	校验规则	A字段值包括规则库中配置阀值,或包括接口配置阀值A
13	校验规则	A字段值以规则库中配置阀值结尾,或以接口中阀值A结尾
14	校验规则	A字段值是否包含日期
15	清洗规则	A字段值内容格式化
16	清洗规则	A字段值包含阀值A时，则删除A字段值中阀值A字符串
17	清洗规则	A字段值包含阀值A字符时，直接丢弃
18	清洗规则	A字段值转义字符还原
19	矫正规则	A字段时间大于B字段时间，则A字段值=B字段值
20	矫正规则	A字段值包含阀值A，则：B字段值=阀值B
21	矫正规则	A字段值包含阀值A，则A字段值中的阀值A替换为阀值B

目前整理的上述14条数据质量校验规则，基本上可以应对80%以上的异常。

至于清洗和矫正规则，则尚需要根据实际的业务规则，进行相应的补充。

二. 规则库的逻辑实现

在抽象出相应的规则库以后，需要根据规则库的描述，进行后端编码的逻辑现实，把文字描述用代码进行实现。具体实现逻辑类似下述两个规则：

1. 如规则1（A字段值长度小于阀值A）

代码实现：

public Boolean isALengthLtB(MonitorRule mr, MonitorRuleRelation mrr,Object oneData) {
    //判断A字段及A阀值不为空
if (!StringUtils.isNotBlank(mrr.getInterAField())|| !StringUtils.isNotBlank(mrr.getThresholdA()))
        return false;
    Object aFieldValue = Reflect.getObjectXField(oneData, mrr.getInterAField());
//阀值A必须为数字；
    if (!BooleanRegular.isNumber(mrr.getThresholdA())) 
        return false;
    //判断字段A的值不为空；
    if (!StringUtils.isNotBlank(aFieldValue)) return false;
    Double value = Double.parseDouble(mrr.getThresholdA());	
    if (aFieldValue.toString().length() < value.intValue()) 
        return true;
    return false;
}

使用场景：如判断解析的标题或正文必须大于某个长度，否则认为解析异常。

2. 如矫正规则19(A字段时间大于B字段时间，则A字段值=B字段值)

代码实现：

public Object aGTb(MonitorRule mr, MonitorRuleRelation mrr, Object oneData) {
    if (!StringUtils.isNotBlank(mrr.getInterAField())|| !StringUtils.isNotBlank(mrr.getInterBField()))
            return oneData;
        Object a = Reflect.getObjectXField(oneData, mrr.getInterAField());
        Object b = Reflect.getObjectXField(oneData, mrr.getInterBField());
        if (!StringUtils.isNotBlank(a) || !StringUtils.isNotBlank(b)) // 不为空
            return oneData;
        if (!BooleanRegular.isDate(a.toString())	|| !BooleanRegular.isDate(b.toString())) 
            return oneData;
// 必须是19位时间格式；
        if (a.toString().length() == 19 && b.toString().length() == 19) {
            long aLong = DateUtil.stringToLong(a.toString(),
                    DateUtil.year_month_day_hour_mines_seconds);
            long bLong = DateUtil.stringToLong(b.toString(),
                    DateUtil.year_month_day_hour_mines_seconds);
            if (aLong > bLong) {
                oneData = Reflect.setObjectXField(oneData,mrr.getInterAField(), b);
            }
        }
        return oneData;
    }

使用场景：如解析出的发布时间大于采集时间，则使用采集时间填充发布时间

三. 规则库与kafka统一接口的关系处理

规则库最终是用在kafka统一接口处，以便对接收的数据进行校验，找出异常情况。那么，他们如何进行关联呢？主要有以下两步：

1. Kafka统一接口与ES索引库进行关联

由于kafka的每一个对外服务接口，均对应一个唯一的ES索引库，所以接口接收的数据属性字段，必须与索引库一致。所以，在信源系统中的接口列表处，添加与ES索引对应属性信息。如下图客户端接口的配置信息：

Kafka统一接口中，数据类型为客户端的数据推送接口如下：