Spring-batch使用PatternMatchingCompositeLineTokenizer解析不规则数据文件

程序员文章站 2022-04-01 20:46:41

...

大家都知道，传统Spring-batch能够很好的处理批量任务，其中，提供的trunk组件（batch:trunk）能够处理行文本或者数据库的普通读写操作。下面这个例子可以读写基本的规范数据文件：

<batch:step id="analyseInfo">
       <batch:tasklet transaction-manager="transactionManager">
       <batch:chunk reader="wxReader" writer="wxWriter" commit-interval="10"></batch:chunk>
       </batch:tasklet>
</batch:step>
<!-- wx Detail -->
    <bean id="wxReader" class="org.springframework.batch.item.file.FlatFileItemReader" scope="step">
    	<property name="resource" value="file:#{jobParameters['filename']}"></property>
        <property name="encoding" value="UTF-8"></property>
    	<property name="comments" value="#{'#'}"></property>
    	<property name="lineMapper" ref="wxMapper"></property>    
    	<property name="linesToSkip" value="1"></property>	    
    </bean>
    <bean id="wxWriter" class="com.secondgame.demo_service.demo.batch.task.WxWriter" scope="step">

上述代码中，wxReader负责解析源文件：

resource配置源文件的地址，

encoding配置文件的编码方式，

comments配置注释行的开头，可以跳过注释行，本文例子跳过以#开头的注释行，不进行处理

lineMapper负责具体的处理文件的类，后文会介绍

lineToSkip用来指定跳过处理文本的头N行，本例跳过1行

lineMapper的配置

  <bean id="wxMapper" class="org.springframework.batch.item.file.mapping.DefaultLineMapper">
    	<property name="lineTokenizer" ref="wxMultiTokenizer"></property>
    	<property name="fieldSetMapper">
    		<bean class="com.secondgame.demo_service.demo.batch.task.WxFileSetMapper">
    		</bean>
    	</property>
    </bean>
<bean id="wxTokenizer" class="org.springframework.batch.item.file.transform.DelimitedLineTokenizer" scope="step">
     	<property name="delimiter" value=","></property>
    	<property name="names">
	   		<list>
	   			<value>tradeTime</value>
	   			<value>pubAccountId</value>
	   			<value>merchantId</value>
	   			<value>subMerchantId</value>
	   			<value>deviceId</value>
	   			<value>wxOrderId</value>
	   			<value>merchantOrderId</value>
	   			<value>userTag</value>
	   			<value>tradeType</value>
	   			<value>tradeStatus</value>
	   			<value>payerBank</value>
	   			<value>capitalType</value>
	   			<value>totalAmount</value>
	   			<value>enterpriseRedAmount</value>
	   			<value>wxRefundId</value>
	   			<value>merchantRefundId</value>
	   			<value>refundAmount</value>
	   			<value>enterpriseRedRefundAmount</value>
	   			<value>refundType</value>
	   			<value>refundStatus</value>
	   			<value>goodsName</value>
	   			<value>merchantData</value>
	   			<value>fee</value>
	   			<value>feeRate</value>
	   		</list>
    	</property>
    </bean>

该配置中，使用org.springframework.batch.item.file.transform.DelimitedLineTokenizer进行文件解析，能够将解析出来的每一行利用类com.secondgame.demo_service.demo.batch.task.WxFileSetMapper进行处理。

实际应用中，数据源没有想象的那么“整齐”，可以通过离线数据清洗（各种脚本）的方式将数据进行预处理。但对于基本整齐的文件，可以采用spring-batch提供的行解析器org.springframework.batch.item.file.transform.PatternMatchingCompositeLineTokenizer进行处理。该解析器不受限于一种解析器，可以根据通配符配置，对不同的行进行不同的解析，假设文本文件有如下结构：

1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24
1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24
1,2,3,4,5
1,2,3,4,5,6,7,8，9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24

该文件每行数据由逗号分隔，但是存在不规则的行（或者有特殊意义，作者遇到的情况是，对账明细单最后有汇总项，而且无法通过前缀区分）。该文本在上述代码配置中，会直接在解析第三行的地方报错：需要24个参数，实际只有5个。

笔者想到的解决方案有如下几种：

1. 与处理文件，把不规则的第三行处理掉

2. 补齐第三行的数据，凑足24个内容。

两者都需要额外的处理数据过程，而使用前文介绍的PatternMatchingCompositeLineTokenizer则可以直接处理该种情况。

部分实现的代码如下（仅体现核心思想，直接拷贝代码无法使用，实际工程需要额外配置文件）：

<bean id="wxMapper" class="org.springframework.batch.item.file.mapping.DefaultLineMapper">
    	<property name="lineTokenizer" ref="wxMultiTokenizer"></property>
    	<property name="fieldSetMapper">
    		<bean class="com.secondgame.demo_service.demo.batch.task.WxFileSetMapper">
    		</bean>
    	</property>
    </bean>
    <bean id="wxMultiTokenizer" class="org.springframework.batch.item.file.transform.PatternMatchingCompositeLineTokenizer" scope="step">
    	<!-- <property name="delimiter" value=","></property> -->
   		<property name="tokenizers">
   			<map>
   				<entry key="*,*,*,*,*" value-ref="wxTokenizerTail"></entry>
   				<entry key="*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*,*" value-ref="wxTokenizer"></entry>
   			</map>
   		</property>
   	</bean>
    <bean id="wxTokenizer" class="org.springframework.batch.item.file.transform.DelimitedLineTokenizer" scope="step">
     	<property name="delimiter" value=","></property>
    	<property name="names">
	   		<list>
	   			<value>tradeTime</value>
	   			<value>pubAccountId</value>
	   			<value>merchantId</value>
	   			<value>subMerchantId</value>
	   			<value>deviceId</value>
	   			<value>wxOrderId</value>
	   			<value>merchantOrderId</value>
	   			<value>userTag</value>
	   			<value>tradeType</value>
	   			<value>tradeStatus</value>
	   			<value>payerBank</value>
	   			<value>capitalType</value>
	   			<value>totalAmount</value>
	   			<value>enterpriseRedAmount</value>
	   			<value>wxRefundId</value>
	   			<value>merchantRefundId</value>
	   			<value>refundAmount</value>
	   			<value>enterpriseRedRefundAmount</value>
	   			<value>refundType</value>
	   			<value>refundStatus</value>
	   			<value>goodsName</value>
	   			<value>merchantData</value>
	   			<value>fee</value>
	   			<value>feeRate</value>
	   		</list>
    	</property>
    </bean>
    <bean id="wxTokenizerTail" class="org.springframework.batch.item.file.transform.DelimitedLineTokenizer" scope="step">
     	<property name="delimiter" value=","></property>
     	<property name="names">
	   		<list>
	   			<value>totalCount</value>
	   			<value>totalAmount</value>
	   			<value>refundAmount</value>
	   			<value>enterpriseRedRefundAmount</value>
	   			<value>fee</value>
	   		</list>
    	</property>
    </bean>

上述代码实现了两个行解析器，分别解析24个数据和5个数据的情况，其他情况可以继续增加行解析器即可。

如果数据文件情况更加复杂，可以考虑自定义行解析器，实现自定义功能，这个笔者并没有进一步的研究，以后可以再尝试，本文思路来自于*：

http://*.com/questions/27504722/how-to-custom-spring-batch-delimitedlinetokenizer

不过这个作者的代码通配符部分我实现*全量替代过不去，还需要进一步看源码。

上一篇： Spark实战之Spark2.0环境搭建教程

下一篇： iOS实现电子签名