欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  数据库

使用kettle把XML文档转换成数据表结构

程序员文章站 2022-05-05 15:18:31
...

使用kettle把XML文档转换成数据表结构 在kettle中Get data from xml 步骤和 XML Input Stream (StAX)步骤读取并解析xml文件。Get data from xml 步骤使用dom方式解析,比较消耗内存,当文件很大时,就不可

使用kettle把XML文档转换成数据表结构
在kettle中Get data from xml 步骤和 XML Input Stream (StAX)步骤读取并解析xml文件。Get data from xml 步骤使用dom方式解析,比较消耗内存,当文件很大时,就不可取。XML Input Stream (StAX)步骤使用完全不同的方式解析大而复杂的文件,且能快速载入数据,所以建议使用该步骤。
下面通过示例来展示如何使用该步骤,源xml文件内容如下:




8.5
9.8


12.2
9.4


11.1
7.2


解析成数据表的格式数据如下:
使用kettle把XML文档转换成数据表结构
使用下面步骤去实现该功能

xmlinput stream(stax):流方式载入xml文档

过滤行:去除掉不相关的文档元素

switch/case步骤:分离第一级(measurement)和第二级(item)

Rowdenormaliser:把第二级的多行转成一行(行专列)

MergeJoin:合并子元素到第一级行(增加列)

示例可以从这里下载

使用kettle把XML文档转换成数据表结构

Rowdenormaliser步骤

最容易理解执行情况的方式,通过预览没步骤的执行结果(5.x版本可以直接查看数据流),下图显示该步骤的执行原理。

使用kettle把XML文档转换成数据表结构

MergeJoin 步骤

把两个来自不同数据源的流进行合并,其实和SQL中join原理是一样的,只不过在kettle中是针对流数据,不是表数据。非常重要的是:流数据要根据键(join中使用的)排序,本列中第一步载入xml文件时,已经排序,所以不再选哟“sort rows”步骤。

使用kettle把XML文档转换成数据表结构