Spring batch批处理框架
spring batch框架的简介
批处理任务是大多数it项目的一个重要组成部分,批处理在业务系统中负责处理海量的数据,无须人工干预就能够自动高效的进行复杂的数据分析和处理。批处理会定期读入批量数据,经过相应的业务处理进行归档的业务操作,批处理的特征是自动执行,处理的数据量大,定时执行。将整个批处理的流程按逻辑划分可以分为读数据,处理数据和写数据。
spring batch对批处理本身的特性进行了抽象,将批处理作业抽象为job和job step,将批处理的处理过程分解为数据读,数据处理和数据写。
将异常处理机制分为跳过,重启和重试。将作业的分区分为多线程,并行远程和分区。
spring batch不是一个调度框架,但需要调度框架来配合完成批处理任务,它只关注批处理相关的任务问题,但没有提供相应的调度功能,如果需要使用调度功能,需要使用调度框架,这里介绍一个比较常用的调度框架quartz,可以配合spring batch完成批处理的任务调度。
spring batch的架构分为三层:基础架构层,核心层和应用层。应用层包含所有的批处理作业,核心层主要提供joblauncher、job和step,基础架构层主要提供通用的读(itemreader)、写(itemwriter)和服务处理(如:retrytemplate重试模板;repeattemplate:重复模板),spring
batch的三层架构体系使得spring batch框架可以在不同的层级进行扩展,避免不同层级之间的相互影响。
job的介绍
批处理的作业是由一组step组成,同时job本身也是配置文件的*元素。每个作业都有自己的名字,可以定义step的执行顺序,以及定义作业是否可以重启。job执行的时候会生成一个job instance(作业实例)和一个job execution(作业执行器)。job instance包含执行job期间产生的数据以及job执行的状态信息;1个job可以对应多个job instance,1个job instance可以对应多个job execution。
job的配置的主要属性有id(作业的唯一标识)、job-repository(定义作业仓库)、incrementer(作业参数递增器)、restartable(作业是否重启)、parent(指定该作业的父作业)、abstract(定义作业是否抽象)。
step的介绍
step表示作业中一个完整的步骤,一个job可以由一个或者多个step组成,step主要负责批处理运行过程中的主要业务逻辑的实现。每次step执行的时候会生成一个或者多个job execution,每次任务执行失败的时候,等到下次重新执行该任务的时候就会为该任务的step重新生成一个step execution。
step可以配置tasklet、partition、job、flow。
step一般主要配置itemreader、itemprocess和itemwriter来完成批处理的业务逻辑处理。
job repository的介绍
job repository主要用来存储job运行期间的元数据(这些元数据包括job instance、job execution、job parameters、step execution、execution context等数据)。
spring batch框架进行元数据管理的时候共有9张表,其中有3张表(后缀是seq)用来分配主键的,这9张表分别是
batch_job_instance:作业实例表
batch_job_execution:作业执行器表
batch_job_execution_params:作业参数表
batch_step_execution:作业步执行器表
batch_job_execution_context:作业执行上下文表
batch_step_execution_context:作业步执行上下文表
batch_job_execution_seq:作业执行器序列表
batch_step_execution_seq:作业步序列表
batch_job_seq:作业序列表
itemreader的介绍
itemreader是step中对资源的读处理,spring batch框架提供了大量的直接可用的读组件可以快速的完成批处理应用的开发和构建,同时框架也提供了较好的复用和扩展组件,开发者可以自定义实现。
listitemreader:读取list数据,只能读一次。
itemreaderadapter:itemreader适配器,可以复用现有的读操作。
flatfileitemreader:读flat类型文件。
staxeventitemreader:读xml类型文件。
jdbccursoritemreader:基于jdbc游标方式读数据库。
hibernatecursoritemreader:基于hibernate游标方式读取数据库。
storedprocedureitemreader:基于存储过程读取数据库。
ibatispagingitemreader:基于ibatis分页读取数据库。
jpapagingitemreader:基于jpa方式分页读取数据库。
jdbcpagingitemreader:基于jdbc方式分页读取数据库。
hibernatepagingitemreader:基于hibernate方式分页读取数据库。
jmsitemreader:读取jms队列。
iteratoritemreader:迭代方式的读组件。
multiresourceitemreader:多文件读取组件。
mongoitemreader:基于分布式存储mongodb读组件。
neo4jitemreader:面向网格数据库neo4j读组件。
resourcesitemreader:基于批量资源的读组件。
amqpitemreader:读取amqp队列组件。
repositoryitemreader:基于spring data的读组件。
itemprocess的介绍
itemprocess阶段表示对读取数据进行处理,开发者可以在这里面实现自己的业务操作。
compositeitemprocessor:组合处理器,可以封装多个业务处理服务。
itemprocessoradapter:适配器,可以复用现有的业务处理服务。
passthroughitemprocessor:不做业务处理,直接返回读取数据。
validatingitemprocessor:数据校验处理器,支持对数据的校验,如果校验不通过可以进行过滤或者跳过skip的方式来处理记录。
itemwriter的介绍
itemwriter是step中对资源的写处理,spring batch框架提供了大量的直接可用的写组件可以快速的完成批处理应用的开发和构建,同时框架也提供了较好的复用和扩展组件,开发者可以自定义实现。
flatfileitemwriter:写flat类型文件。
multiresourceitemwriter:多文件写组件。
staxeventitemwriter:写xml类型文件。
amqpitemwriter:写amqp类型消息。
classifiercompositeitemwriter:根据classifier路由不同的item到特定的itemwriter处理。
hibernateitemwriter:基于hibernate方式写数据库。
ibatisbatchitemwriter:基于ibatis方式写数据库。
itemwriteradapter:适配器,可以复用现有的写服务。
jdbcbatchitemwriter:基于jdbc方式写数据库。
jmsitemwriter:写jms队列。
jpaitemwriter:基于jpa方式写数据库。
gemfireitemwriter:基于分布式数据库gemfire的写组件。
spelmappinggemfireitemwriter:基于spring表达式语言写分布式数据库gemfire的组件。
mimemessageitemwriter:发送邮件的写组件。
mongoitemwriter:基于分布式文件存储数据库mongodb写组件。
neo4jitemwriter:面向网络数据库neo4j的读组件。
propertyextractingdelegatingitemwriter:属性抽取代理写组件。
repositoryitemwriter:基于spring data的写组件。
simplemailmessageitemwriter:发送邮件的写组件。
compositeitemwriter:条目写的组合模式,支持组装多个itemwriter。
以上就是本文的全部内容,希望本文的内容对大家的学习或者工作能带来一定的帮助,同时也希望多多支持!