Hadoop系列002-从Hadoop框架讨论大数据生态
本人微信公众号,欢迎扫码关注!
从hadoop框架讨论大数据生态
1、hadoop是什么
1)hadoop是一个由apache基金会所开发的分布式系统基础架构
2)主要解决,海量数据的存储和海量数据的分析计算问题。
3)广义上来说,hadoop通常是指一个更广泛的概念——hadoop生态圈
2、hadoop发展历史
1)lucene--doug cutting开创的开源软件,用java书写代码,实现与google类似的全文搜索功能,它提供了全文检索引擎的架构,包括完整的查询引擎和索引引擎
2)2001年年底成为apache基金会的一个子项目
3)对于大数量的场景,lucene面对与google同样的困难
4)学习和模仿google解决这些问题的办法 :微型版nutch
5)可以说google是hadoop的思想之源(google在大数据方面的三篇论文)
- gfs --->hdfs
- map-reduce --->mr
- bigtable --->hbase
6)2003-2004年,google公开了部分gfs和mapreduce思想的细节,以此为基础doug cutting等人用了2年业余时间实现了dfs和mapreduce机制,使nutch性能飙升
7)2005 年hadoop 作为 lucene的子项目 nutch的一部分正式引入apache基金会。2006 年 3 月份,map-reduce和nutch distributed file system (ndfs) 分别被纳入称为 hadoop 的项目中
8)名字来源于doug cutting儿子的玩具大象
9)hadoop就此诞生并迅速发展,标志这云计算时代来临
3、hadoop三大发行版本
apache、cloudera、hortonworks
1)apache版本最原始(最基础)的版本,对于入门学习最好。
2)cloudera在大型互联网企业中用的较多。
- 2008年成立的cloudera是最早将hadoop商用的公司,为合作伙伴提供hadoop的商用解决方案,主要是包括支持、咨询服务、培训。
- 2009年hadoop的创始人doug cutting也加盟cloudera公司。cloudera产品主要为cdh,cloudera manager,cloudera support
- cdh是cloudera的hadoop发行版,完全开源,比apache hadoop在兼容性,安全性,稳定性上有所增强
- cloudera manager是集群的软件分发及管理监控平台,可以在几个小时内部署好一个hadoop集群,并对集群的节点及服务进行实时监控。cloudera support即是对hadoop的技术支持。
- cloudera的标价为每年每个节点4000美元。cloudera开发并贡献了可实时处理大数据的impala项目。
3)hortonworks文档较好。
- 2011年成立的hortonworks是雅虎与硅谷风投公司benchmark capital合资组建。
- 公司成立之初就吸纳了大约25名至30名专门研究hadoop的雅虎工程师,上述工程师均在2005年开始协助雅虎开发hadoop,贡献了hadoop80%的代码。
- 雅虎工程副总裁、雅虎hadoop开发团队负责人eric baldeschwieler出任hortonworks的首席执行官。
- hortonworks的主打产品是hortonworks data platform(hdp),也同样是100%开源的产品,hdp除常见的项目外还包括了ambari,一款开源的安装和管理系统。
- hcatalog,一个元数据管理系统,hcatalog现已集成到facebook开源的hive中。hortonworks的stinger开创性的极大的优化了hive项目。hortonworks为入门提供了一个非常好的,易于使用的沙盒。
- hortonworks开发了很多增强特性并提交至核心主干,这使得apache hadoop能够在包括window server和windows azure在内的microsoft windows平台上本地运行。定价以集群为基础,每10个节点每年为12500美元。
4、hadoop的优势
1)高可靠性:因为hadoop假设计算元素和存储会出现故障,因为它维护多个工作数据副本,在出现故障时可以对失败的节点重新分布处理。
2)高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点。
3)高效性:在mapreduce的思想下,hadoop是并行工作的,以加快任务处理速度。
4)高容错性:自动保存多份副本数据,并且能够自动将失败的任务重新分配。
5、hadoop组成
5.1 hdfs架构概述
1)namenode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、文件权限),以及每个文件的块列表和块所在的datanode等。
2)datanode(dn):在本地文件系统存储文件块数据,以及块数据的校验和。
3)secondary namenode(2nn):用来监控hdfs状态的辅助后台程序,每隔一段时间获取hdfs元数据的快照。
5.2 yarn架构概述
1)resourcemanager(rm):处理客户端请求、启动/监控applicationmaster、监控nodemanager、资源分配与调度。
2)nodemanager(nm):单个节点上的资源管理、处理来自resourcemanager的命令、处理来自applicationmaster的命令。
3)applicationmaster:数据切分、为应用程序申请资源,并分配给内部任务、任务监控与容错。
4)container:对任务运行环境的抽象,封装了cpu、内存等多维资源以及环境变量、启动命令等任务运行相关的信息。
5.3 mapreduce架构概述
mapreduce将计算过程分为两个阶段:map和reduce
1)map阶段并行处理输入数据
2)reduce阶段对map结果进行汇总