欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  IT编程

关于智慧大数据中心平台建设思路

程序员文章站 2022-05-04 15:18:23
一,设计目标 以ES为核心建立数据集中处理平台,支持从各个应收系统采集数据,进行清洗与转换,之后可以进行聚合操作,对外提供API查询; 全平台支持数据集自建,支持转换,查询规则*配置。 二,设计需求 1.系统支持*建立数据集,每个数据集对应一个ES的一个索引的别名。(不要直接用索引名,以后更改名 ......

关于智慧大数据中心平台建设思路

 

一,设计目标

以es为核心建立数据集中处理平台,支持从各个应收系统采集数据,进行清洗与转换,之后可以进行聚合操作,对外提供api查询;

全平台支持数据集自建,支持转换,查询规则*配置。

 

二,设计需求

1.系统支持*建立数据集,每个数据集对应一个es的一个索引的别名。(不要直接用索引名,以后更改名称会很复杂)

2.数据集的数据收集可以支持多种,1.物联网实时消息 2.业务日志  3.开放api供其它系统提交  4.连接mysql数据库,执行查询定时抽取 5.excel或csv导入。

3.数据集在清洗完数据后,通过kafka消息通道推送给应用,支持配置多个通道。

4.平台开放管理api,支持动态建立与维护数据集信息。

5.数据集支持动态建立,数据在导入时如有指定数据集模板与代码信息时,如果平台中无相关数据集,平台将自动建立,模板中不存在的字段支持丢失,自动建立,返回异常等多种处理规则。

6.可以为数据集或数据集模板,动态添加列,可以为列指定转换表达式或匹配表达式,表达式中可以使用字符串相似度,调用其它数据集数据等各种api来组合配置,带表达式的列可以指定实时执行与延时执行。

7.对于匹配结果大于1的记录,系统将自动通知人工界入处理,人工匹配结果时,可以更新模板规则或数据集规则,以便之后使用。

8.可以建立批处理任务,主要针对模板或数据集规则变更后,重新进行匹配需求。

9.可以设置各数据集的字段的类型,是否支持分词检索,聚合等功能;

10.支持数据集查询,可以自定义数据集的显示字段与查询条件,显示与查询条件的快照可以存储,也可以生成api接口,供其它的应用程序调用。

11.查询到的数据可以导出为csv,excel,json,xml等多种格式

12.在基本查询无法满足需求时,可以自定义各数据集的查询表达式(主要考虑跨数据集查询的需要)

13.需要支持为数据集设置权限,设置人工验证方式:1.匹配结果不为1的记录。2.所有记录

 

三,概要设计

a.平台核心业务模型

1.数据集模板

2.数据集模板字段

3.数据集

4.数据集字段

5.数据集数据:其为es表

6.数据集授权

 

b.平台主要功能

1.用户场景

a.用户登录后列出es中所有该用户可访问的数据索引表(除了以db_开头的索引,该类索引用于存储配置数据),对照数据集配置,显示其相关的名称等信息,

b.用户选择一个数据集进入,系统将分以下几块显示数据集的信息:

  b1.基本信息:包括数据集的概览,如:总记录数,查询api数,列数,名称等

  b2.查询:列出该数据集配置的所有自定义查询,api查询,api脚本查询。

  b3.字段:列出该数据集所有的字段,并提供配置参作,可以进行变更配置。

  b4.数据:以表格方式列出所有数据,支持各类搜索。(从查询处点击查询后以将自动设置参数显示该页面.)

  b5.审核:

  b6.日志:

 

 

1.平台设计以数据集为核心,一个数据集对应es的一个索引表,数据集的字段对应索引表的字段,数据也存放在该索引表中。

2.每个数据集有唯一的主键列,由系统自动生成与维护,除了主键外,每个字段可以设置

   转换表达式,该表达式为python脚本,可以调用api来进行数据标准化,可以调用查询与对照api从其它数据集获取数据返回。

3.在完成数据