欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  数据库

Hadoop集群(CDH4)实践之 (0) 前言

程序员文章站 2024-02-04 09:39:58
...

目录结构 Hadoop集群(CDH4)实践之 (0) 前言 Hadoop集群(CDH4)实践之 (1) Hadoop(HDFS)搭建 Hadoop集群(CDH4)实践之 (2) HBaseZookeeper搭建 Hadoop集群(CDH4)实践之 (3) Hive搭建 Hadoop集群(CHD4)实践之 (4) Oozie搭建 Hadoop集群(CHD4)实践之 (5) Sqoop安

目录结构
Hadoop集群(CDH4)实践之 (0) 前言
Hadoop集群(CDH4)实践之 (1) Hadoop(HDFS)搭建
Hadoop集群(CDH4)实践之 (2) HBase&Zookeeper搭建
Hadoop集群(CDH4)实践之 (3) Hive搭建
Hadoop集群(CHD4)实践之 (4) Oozie搭建
Hadoop集群(CHD4)实践之 (5) Sqoop安装

本文内容
Hadoop集群(CDH4)实践之 (0) 前言

下面进入正文
在我初学Hadoop的期间,我写过一个系列的Hadoop入门文章,第一篇就是《Hadoop集群实践 之 (0) 完整架构设计》
在之前的系列文章中,我对Hadoop的一些入门概念也进行了讲解,主要是针对我曾经所遇到过的一些疑惑。
同时,在之前的系列文章中,我还列出了一些小的操作Demo来加深对各个工具的理解。

那么为什么这次又要写这个系列的文章呢,看起来内容感觉都是重复的。
其实,主要是由于以下原因:
1. 之前的文章是基于Ubuntu 10.10 系统,也同样适用于新版的Ubuntu,但是采用CentOS作为生产环境的情况更多;
同时由于Ubuntu有一些改动与开源社区的步伐不太一致,因此目前有唱衰Ubuntu的趋势。
2. CentOS随着EPEL等扩展库的规范和快速发展,目前已经具备了和Ubuntu同等规模的丰富的软件库,通过YUM安装和部署软件也非常的方便;
3. 之前的文章是基于CDH3的,而目前Hadoop的发展,CDH4已经成为了主流,同时具备CDH3所不具备的一些功能,我觉得最有用的功能有以下:
a) NameNode HA,与secondary namenode不同,CDH4提供了一种HA的方式,可以确保双节点NameNode;
b) TaskTracker 提供了容错机制,可以确保并行计算过程中,不会因为某一个节点出错而导致整个并行计算的失败;

因此,基于以上原因,本文是在CentOS 6.4 x86_64的系统上,基于CDH4的环境下完成的。
不过,目前还没有完成Namenode HA 和 TaskTracker容错的测试,相关内容暂时还无法看到。
同时,本文采用了非YARN方式,而是与CDH3相同的MRv1计算框架,为了确保公司之前线上环境所开发的代码能够准确无误的运行。

下面,就让我们开始整个实战演练过程:
Hadoop集群(CDH4)实践之 (1) Hadoop(HDFS)搭建
Hadoop集群(CDH4)实践之 (2) HBase&Zookeeper搭建
Hadoop集群(CDH4)实践之 (3) Hive搭建
Hadoop集群(CHD4)实践之 (4) Oozie搭建
Hadoop集群(CHD4)实践之 (5) Sqoop安装