Hadoop相关概念
文章目录
一、Hadoop是什么
- Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
- 主要解决:海量数据的存储和海量数据的分析计算问题。
- 广义上来说:Hadoop通常是指一个更广泛的概念–Hadoop生态圈。
二、Hadoop三大发行版本
Hadoop三大发行版本:Apache、Cloudera、Hortonworks
- Apche版本最原始(最基础)的版本,对于入门学习最好。
- Cloudera内部集成了很多大数据框架,对应产品CDH。
- Hortonworks文档较好,对应产品HDP。
1.Apche Hadoop
官网地址:http://hadoop.apache.org/releases.html
下载地址:https://archive.apache.org/dist/hadoop/common/
2.Cloudera Hadoop
官网地址:https://www.cloudera.com/downloads/cdh/5-10-0.html
下载地址:http://archive-primary.cloudera.com/cdh5/cdh/5/
(1)2008年成立的Cloudera是最早将Hadoop商用的公司,为合作伙伴提供Hadoop的商用解决方案,主要是包括支持、咨询服务、培训。
(2)2009年Hadoop的创始人Doug Cutting也加盟Cloudera公司。Cloudera产品主要为CDH,Cloudera Manager,Cloudera Support
(3)CDH是Cloudera的Hadoop发行版,完全开源,比Apache Hadoop在兼容性,安全性,稳定性上有所增强。Cloudera的标价为每年每个节点10000美元。
(4)Cloudera Manager是集群的软件分发及管理监控平台,可以在几个小时内部署好一个Hadoop集群,并对集群的节点及服务进行实时监控。
3.Hortonworks Hadoop
官网地址:https://hortonworks.com/products/data-center/hdp/
下载地址:https://hortonworks.com/downloads/#data-platform
(1)2011年成立的Hortonworks是雅虎与硅谷风投公司Benchmark Capital合资组建。
(2)公司成立之初就吸纳了大约25名至30名专门研究Hadoop的雅虎工程师,上述工程师均在2005年开始协助雅虎开发Hadoop,贡献了Hadoop80%的代码。
(3)Hortonworks的主打产品是Hortonworks Data Platform(HDP),也同样是100%开源的产品,HDP除常见的项目外还包括了Ambari,一款开源的安装和管理系统。
(4)Hortonworks目前已经被Cloudera公司收购。
三、Hadoop的优势
1.高可靠性
Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元素或存储出现故障,也不会导致数据的丢失。
2.高扩展性
在集群分配任务数据,可方便的扩展数以千计的节点。
3.高效性
在MapReduce的思想下,Hadoop是并行工作的,以加快任务处理速度。
4.高容错性
能够自动将失败的任务重新分配。
四、Hadoop组成
在Hadoop 1.X时代,Hdoop中的MapReduce同时处理业务逻辑运算和资源的调度,耦合性较大。
在Hadoop 2.X时代开始,增加了yarn,yarn只负责资源的调度,MapReduce只负责运算。
1.HDFS组成概述
1)NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在的DataNode等。
2)DataNode(dn):在本地文件系统存储文件块数据,以及块数据的校验和。
3)SecondaryNameNode(2nn):每隔一段时间对NameNode元数据备份。
2.YARN组成概述
1)ResourceManager(RM)主要作用如下
(1)处理客户端请求
(2)监控NodeManager
(3)启动或监控ApplicationMaster
(4)资源的分配和调度
2)NodeManager(NM)主要作用如下
(1)管理单个节点上的资源
(2)处理来自ResourceManager的命令
(3)处理来自Application的命令
3)ApplicationMaster(AM)作用如下
(1)负责数据的划分
(2)为应用程序申请资源并分配给内存的任务
(3)任务的监控与容错
4)Container
Container是YARN中的资源抽象,它封装了某个节点上的多维度资源,如内存、CPU、磁盘、网络等。
3.MapReduce组成概述
MapReduce将计算过程分为两个阶段:Map和Reduce
1)Map阶段并行处理输入数据
2)Reduce阶段对Map结果进行汇总
总结
本章节是对Hadoop相关概念以及组成有了一个大概的简介,知道了Hadoop是什么,三大发行版本,优势基于组成。
本文地址:https://blog.csdn.net/weixin_52678046/article/details/111991634