欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

如何选择不同的Hadoop发行版 博客分类: hadoop  

程序员文章站 2024-03-19 14:44:04
...

首先要了解什么是Hadoop发行版(Hadoop distribution),简单来说它就是基于开源的Apache Hadoop进行改造的商业解决方案,其中包括一系列定制的管理工具和软件。而事实上,Apache Hadoop本身也存在着一些版本差异,包括:

  ·Hortonworks主要专注于Hadoop 1(不包括YARN、HCatalog等),也是因为其技术比较成熟且能够投入生产环境。

  ·Cloudera发行版包括Hadoop 1和Hadoop 2两种选择,但Cloudera不建议将Hadoop 2投入生产环境。

  ·一些新晋的发行版提供商倾向于使用Hadoop 2。

  不同的提供商还会选择在其发行版当中添加不同的Apache Hadoop子项目,如Hive、Zookeeper等。另外还会添加一些专有代码作为补充甚至替换原始的Apache Hadoop代码,这些代码主要用来提升Hadoop分布式文件系统(HDFS)的性能,还有一些是新的管理工具。发行版提供商的管理套件是其主要的增值项目,其中最明显的就是Cloudera。而Hortonworks则选择将开源的Ambari添加到管理工具当中。

  用户选择Hadoop发行版的另外一个原因是厂商会提供相关的技术支持,因为企业内部对于Hadoop的部署和使用经验不足。Cloudera和Hortonworks的技术支持是业界最佳的,同时一些大型厂商如Oracle等也会提供一些级别的技术支持,比如在Oracle大数据一体机上面提供Tier 1技术支持。

  以下的几个提供商当中,我会列出其各自的优势,用户可以根据自己的需求选择不同的Hadoop供应商:

  Cloudera

  ·Cloudera的Hadoop管理工具非常成熟

  ·Cloudera还提供了应用导航的功能

  ·Cloudera在Hadoop领域是非常有经验的

  ·Cloudera对于Hadoop的发展起着重要作用

  ·Cloudera拥有广泛的合作伙伴支持

  ·Cloudera专攻Hadoop,同时资金充沛

  Hortonworks

  ·Hortonworks拥有大量的Hadoop专家,同时对Hadoop的发展也起到了重要作用

  ·Hortonworks也拥有广泛的合作伙伴支持

  ·Hortonworks与Cloudera很相似,也专攻Hadoop

  ·Hortonworks对专有代码的依赖低于Cloudera,因此用户不必担心“厂商锁定”问题。

  Intel

  ·Intel的Hadoop性能很好

  ·Intel的Hadoop发行版最先进入中国市场(在中国市场的一大重要优势)

  EMC/Pivotal/Greenplum

  ·使用Greenplum数据库的用户别犹豫了,就选择新的Pivotal HD吧

  MapR

  ·某种程度上说MapR的Hadoop发行版在性能方面具备优势

  IBM

  ·信任IBM的服务就选择它的Hadoop发行版