StreamSetsRDBMS2Hbase开发流程解析
SDC开发流程及名词解释
1、首先创建一个SDC的pipeline:
2、拖进来我们要用的组件(JDBC QUERY、HBASE)
3、我们可以在右边栏选择我们想用的组件
4、组件参数配置:(JDBC QUERY)
第一步:配置错误记录的报错方式,选send to error
第二步:配置JDBC页
jdbc连接正常配,下边用户认证和增量模式打上勾,sql quer 要遵循以下格式:
SELECT * FROM table WHERE id > ${OFFSET} ORDER BY id
上图的Initial Offset和Offset column要与query里的条件保持一致
例:Initial:${OFFSET} OffsetColumn:id
Root Field Type:用默认的List-Map(存档类型)
Query interval:根据实际情况设置查询轮询间隔
Max Batch Size:每次提交的数据量,1000即可
Max Clob Size:一次读取的最大数据量
Number OfRetries on SQL ERROR:sql执行报错重试次数
第三步:配置用户认证页(数据库访问用户密码)
5、组件参数配置:(Hbase)
第一步:配置错误记录的报错方式,选send to error
第二步:配置HBase
Zookeeper Quorum:ZK队列配置
ZK Port:ZK端口号
ZK PZ:固定,\hbase hbase的元数据目录
Table Name:目标表表明
Row Key:类似于主键
Storage Type:地层文件存储类型
Fields:配置字段映射关系,PG字段对应Hbase字段名
Ignore Missing Field:忽略空字段
Implicit field mapping:自动匹配字段映射,勾上这个我们就不用配置字段映射了(fields)
Ignore Invalid Column:忽略空行
最后启动任务就好了:
上一篇: 云计算中sqoop安装教程
下一篇: php storm全局搜索怎么打开?