欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  IT编程

Hadoop相关概念

程序员文章站 2023-12-29 23:45:34
文章目录一、Hadoop是什么二、Hadoop三大发行版本1.Apche Hadoop2.Cloudera Hadoop3.Hortonworks Hadoop三、Hadoop的优势1.高可靠性2.高扩展性3.高效性4.高容错性四、Hadoop组成1.HDFS组成概述2.YARN组成概述3.MapReduce组成概述总结一、Hadoop是什么Hadoop是一个由Apache基金会所开发的分布式系统基础架构。主要解决:海量数据的存储和海量数据的分析计算问题。广义上来说:Hadoop通常是指一个更....


一、Hadoop是什么

  • Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
  • 主要解决:海量数据的存储和海量数据的分析计算问题。
  • 广义上来说:Hadoop通常是指一个更广泛的概念–Hadoop生态圈。

二、Hadoop三大发行版本

Hadoop三大发行版本:Apache、Cloudera、Hortonworks

  • Apche版本最原始(最基础)的版本,对于入门学习最好。
  • Cloudera内部集成了很多大数据框架,对应产品CDH。
  • Hortonworks文档较好,对应产品HDP。

1.Apche Hadoop

官网地址:http://hadoop.apache.org/releases.html
下载地址:https://archive.apache.org/dist/hadoop/common/

2.Cloudera Hadoop

官网地址:https://www.cloudera.com/downloads/cdh/5-10-0.html
下载地址:http://archive-primary.cloudera.com/cdh5/cdh/5/

(1)2008年成立的Cloudera是最早将Hadoop商用的公司,为合作伙伴提供Hadoop的商用解决方案,主要是包括支持、咨询服务、培训。
(2)2009年Hadoop的创始人Doug Cutting也加盟Cloudera公司。Cloudera产品主要为CDH,Cloudera Manager,Cloudera Support
(3)CDH是Cloudera的Hadoop发行版,完全开源,比Apache Hadoop在兼容性,安全性,稳定性上有所增强。Cloudera的标价为每年每个节点10000美元。
(4)Cloudera Manager是集群的软件分发及管理监控平台,可以在几个小时内部署好一个Hadoop集群,并对集群的节点及服务进行实时监控。

3.Hortonworks Hadoop

官网地址:https://hortonworks.com/products/data-center/hdp/
下载地址:https://hortonworks.com/downloads/#data-platform

(1)2011年成立的Hortonworks是雅虎与硅谷风投公司Benchmark Capital合资组建。
(2)公司成立之初就吸纳了大约25名至30名专门研究Hadoop的雅虎工程师,上述工程师均在2005年开始协助雅虎开发Hadoop,贡献了Hadoop80%的代码。
(3)Hortonworks的主打产品是Hortonworks Data Platform(HDP),也同样是100%开源的产品,HDP除常见的项目外还包括了Ambari,一款开源的安装和管理系统。
(4)Hortonworks目前已经被Cloudera公司收购。

三、Hadoop的优势

1.高可靠性

Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失。

2.高扩展性

在集群分配任务数据,可方便的扩展数以千计的节点。

3.高效性

在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度。

4.高容错性

能够自动将失败的任务重新分配。

四、Hadoop组成

Hadoop相关概念
在Hadoop 1.X时代,Hdoop中的MapReduce同时处理业务逻辑运算和资源的调度,耦合性较大。
在Hadoop 2.X时代开始,增加了yarn,yarn只负责资源的调度,MapReduce只负责运算。

1.HDFS组成概述

1)NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在的DataNode等。
2)DataNode(dn):在本地文件系统存储文件块数据,以及块数据的校验和。
3)SecondaryNameNode(2nn):每隔一段时间对NameNode元数据备份。

2.YARN组成概述

1)ResourceManager(RM)主要作用如下
(1)处理客户端请求
(2)监控NodeManager
(3)启动或监控ApplicationMaster
(4)资源的分配和调度

2)NodeManager(NM)主要作用如下
(1)管理单个节点上的资源
(2)处理来自ResourceManager的命令
(3)处理来自Application的命令

3)ApplicationMaster(AM)作用如下
(1)负责数据的划分
(2)为应用程序申请资源并分配给内存的任务
(3)任务的监控与容错

4)Container
Container是YARN中的资源抽象,它封装了某个节点上的多维度资源,如内存、CPU、磁盘、网络等。

3.MapReduce组成概述

MapReduce将计算过程分为两个阶段:Map和Reduce
1)Map阶段并行处理输入数据
2)Reduce阶段对Map结果进行汇总


总结

本章节是对Hadoop相关概念以及组成有了一个大概的简介,知道了Hadoop是什么,三大发行版本,优势基于组成。

本文地址:https://blog.csdn.net/weixin_52678046/article/details/111991634

上一篇:

下一篇: