四十二、ETL工具Kettle的转换步骤
程序员文章站
2022-03-25 23:37:32
...
1. ETL工具Kettle的转换步骤
1.1 Kettle转换步骤的具体内容:
- 字符串处理
- 字符串的拆分
- 字符串的替换
- 行列变换
- 其他转换步骤
- 闭合距离
- XSL转换
- 数值范围
2 字符串的处理
2.1 字符串的拆分
- 按位置拆分字符串,完成对字符串的剪辑
- 按标志字符一列拆分成多列或多行
- 字符串的合并:
- 多列合并为一列
- 多行合并为一行
2.2 字符串的替换
- 值映射
- 使用正则表达式
2.3 字符串的其他转换
- 使用常量替换一个字段的值。
- 使用一个字段替换另一个字段的值。
- 字符串操作
- 保留/移除字符串里的数字
- 补充指定长度的字符川
- 移去字符串里的特殊字符
3 行列变换及排序和排重
3.1 行转列(反正规化Denormaliser)
1. 功能:把多行的窄表转换成多列的宽表
2. 前提:需要事先按照分组字段排序
3. 特点:规范,便于扩展
3.2 列转行(正规化Normaliser)
- 把多列的宽表转换成多行的窄表
- 特点:方便查询
3.3 排序和排重
- 排序:使用快速排序算法对数据完成排序
- 排重
- Unique Row: 需要事先排序
- Unique Row(Hash):不排序、速度快、占内存
上一篇: 关键帧动画,动画组实现文字效果
下一篇: Python技巧之变长和定长序列拆分
推荐阅读