MySQL数据库与HDFS的实时数据同步
通过Map/Reduce进行批处理递送到Apache Hadoop仍然是中枢环节。,但随着要从“超思维速度“分析方面获取竞争优势的压力递增,因此Hadoop(分布式文件系统)自身经历重大的发展。科技的发展允许实时查询,如Apache Drill, Cloudera Impala和Stinger Initiative正
通过Map/Reduce进行批处理递送到Apache Hadoop仍然是中枢环节。,但随着要从“超思维速度“分析方面获取竞争优势的压力递增,因此Hadoop(分布式文件系统)自身经历重大的发展。科技的发展允许实时查询,如Apache Drill, Cloudera Impala和Stinger Initiative正脱颖而出,新一代的资源管理Apache YARN 支持这些。
为了支持这种日渐强调实时性操作,我们正发布一个新MySQL Applier for Hadoop(用于Hadoop的MySQL Applier)组件。它能够把MySQL中变化的事务复制到Hadoop / Hive / HDFS。Applier 组件补充现有基于批处理Apache Sqoop的连接性。
这个组件(MySQL Applier for Hadoop)的复制是通过连接MySQL主服务,一旦二进制日志被提交,就读取二进制日志事务,并且把它们写到HDFS.
这个组件使用libhdfs提供的API,一个C库操作HDFS中的文件。这库由Hadoop版本预编译生成的。
它连接MySQL主服务读二进制日志,然后:
?提取发生在主服务上的行插入事件
?解码事件,提取插入到行的每个字段的数据,并使用满意的处理程序得到被要求的格式数据。
?把它追加到HDFS 中一个文本文件。
数据库被映射为单独的目录,它们的表映射为子目录,保存在数据仓库目录。每个表的数据被写到Hive/ HDFS中文本文件(称为datafile1.txt)。数据可以用逗号格式分隔;或其他格式,那可用命令行参数来配置的。
原文地址:MySQL数据库与HDFS的实时数据同步, 感谢原作者分享。
上一篇: PHP开发规范!
下一篇: Windows上Php开发环境搭建
推荐阅读
-
Mysql主从数据库(Master/Slave)同步配置与常见错误
-
Mysql数据库中数据表的优化、外键与三范式用法实例分析
-
MySQL数据库中CAST与CONVERT函数实现类型转换的讲解
-
举例介绍mysql数据库与oracle数据库的区别
-
mysql数据库的多实例与主从同步。
-
Centos7下无法远程连接mysql数据库的原因与解决
-
MySql数据库创建库与表的教程
-
深入探讨:PHP使用数据库永久连接方式操作MySQL的是与非
-
MYSQL5.6.33数据库主从(Master/Slave)同步安装与配置详解(Master-Linux Slave-windows7)
-
Python数据库:MySQL数据库的详细介绍与安装