大数据入门学习之Hadoop技术优缺点
大数据入门学习之hadoop技术优缺点
(1)hadoop具有按位存储和处理数据能力的高可靠性。
(2)hadoop通过可用的计算机集群分配数据,完成存储和计算任务,这些集群可以方便地扩展到数以千计的节点中,具有高扩展性。
(3)hadoop能够在节点之间进行动态地移动数据,并保证各个节点的动态平衡,处理速度非常快,具有高效性。
(4)hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配,具有高容错性。
hadoop的缺点
(1)hadoop不适用于低延迟数据访问。
(2)hadoop不能高效存储大量小文件。
(3)hadoop不支持多用户写入并任意修改文件。
hadoop的核心组件
hadoop自诞生以来,主要出现了hadoop1、hadoop2、hadoop3三个系列多个版本。
hdfs和mapreduce是hadoop1的核心组件,hadoop生态圈里的很多组件都是基于hdfs和mapreduce发展出来的。在继hadoop1之后出现了hadoop2,hadoop2在hadoop1的基础上做了改进。相比hadoop1,hadoop2的三大核心组件分别是hdfs、mapreduce、yarn。目前市面上绝大部分企业使用的是hadoop2,本书使用的是hadoop2.7.3这一版本。
hadoop2的一个公共模块和三大核心组件组成了四个模块,简介如下。
(1)hadoopcommon:为其他hadoop模块提供基础设施。
(2)hdfs:具有高可靠性、高吞吐量的分布式文件系统。
(3)mapreduce:基于yarn系统,分布式离线并行计算框架。
(4)yarn:负责作业调度与集群资源管理的框架。
在学习大数据的过程当中有遇见任何问题,可以加入我的java/大数据交流学习扣扣qun:732308174,多多交流问题,互帮互助,群里有不错的学习教程和开发工具。学习大数据有任何问题(学习方法,学习效率,如何就业),可以随时来咨询我!