阿里ETL工具datax学习(一)
程序员文章站
2022-07-12 16:10:41
...
阿里云开源离线同步工具DataX3.0介绍
一. DataX3.0概览
DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、MaxCompute(原ODPS)、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。
● 设计理念
为了解决异构数据源同步问题,DataX将复杂的网状的同步链路变成了星型数据链路,DataX作为中间传输载体负责连接各种数据源。当需要接入一个新的数据源的时候,只需要将此数据源对接到DataX,便能跟已有的数据源做到无缝数据同步。
● 当前使用现状
DataX在阿里巴巴集团内被广泛使用,承担了所有大数据的离线同步业务,并已持续稳定运行了6年之久。目前每天完成同步8w多道作业,每日传输数据量超过300TB。
此前已经开源DataX1.0版本,此次介绍为阿里云开源全新版本DataX3.0,有了更多更强大的功能和更好的使用体验。Github主页地址:https://github.com/alibaba/DataX。
介绍多的不说了官网介绍比较详细,本文主要介绍xdata在windows系统的部署和使用
二.如何使用
安装好jdk和python配置好环境变量
下载datax
解压后目录为
示例 oracle库赋值到oracle库
1.配置job的json
2.执行
3.查看结果
一. DataX3.0概览
DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、MaxCompute(原ODPS)、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。
● 设计理念
为了解决异构数据源同步问题,DataX将复杂的网状的同步链路变成了星型数据链路,DataX作为中间传输载体负责连接各种数据源。当需要接入一个新的数据源的时候,只需要将此数据源对接到DataX,便能跟已有的数据源做到无缝数据同步。
● 当前使用现状
DataX在阿里巴巴集团内被广泛使用,承担了所有大数据的离线同步业务,并已持续稳定运行了6年之久。目前每天完成同步8w多道作业,每日传输数据量超过300TB。
此前已经开源DataX1.0版本,此次介绍为阿里云开源全新版本DataX3.0,有了更多更强大的功能和更好的使用体验。Github主页地址:https://github.com/alibaba/DataX。
介绍多的不说了官网介绍比较详细,本文主要介绍xdata在windows系统的部署和使用
二.如何使用
安装好jdk和python配置好环境变量
下载datax
解压后目录为
示例 oracle库赋值到oracle库
1.配置job的json
{ "job": { "setting": { "speed": { "channel": 3 } }, "content": [ { "reader": { "name": "oraclereader", "parameter": { "column": ["",""], "connection": [ { "jdbcUrl": [ "jdbc:oracle:thin:@192.10.1:1521:orcl" ], "table": [ "" ], } ], "username": "", "password": "", } }, "writer": { "name": "oraclewriter", "parameter": { "username": "", "password": "", "column": ["", ""], "preSql": [ "truncate table " ], "connection": [ { "jdbcUrl": "jdbc:oracle:thin:@127.0.0.1:1521:liuxu", "table": [ "" ] } ] } } } ] } }
2.执行
3.查看结果
上一篇: 在搭建过程中需要注意的一些小细节梳理
下一篇: Oracle清理所有内存中的数据源链接
推荐阅读
-
零基础入门学习爬虫,这四大工具你一定要掌握的,尤其是最后一个
-
Python学习之旅:用Python制作一个打字训练小工具
-
机器学习工具(一)——Windows 7 下安装 Tensorflow_CPU 版
-
和我一起学习爬虫之HTTP/HTTPS抓包工具--Fiddler
-
sencha touch2学习笔记(一)---环境搭建和开发工具配置
-
阿里ETL工具datax学习(一)
-
【一统江湖的大前端(9)】TensorFlow.js 开箱即用的深度学习工具
-
分享一个淘宝/天猫/京东/阿里 图片抓取工具
-
阿里Java学习路线:阶段 1:Java语言基础-Java语言高级特性:第33章:集合工具类:课时149:Collections工具类
-
零基础入门学习爬虫,这四大工具你一定要掌握的,尤其是最后一个