Hadoop系列002-从Hadoop框架讨论大数据生态

程序员文章站 2022-05-29 12:05:56

本人微信公众号，欢迎扫码关注！从Hadoop框架讨论大数据生态 1、Hadoop是什么 1）Hadoop是一个由Apache基金会所开发的分布式系统基础架构 2）主要解决，海量数据的存储和海量数据的分析计算问题。 3）广义上来说，HADOOP通常是指一个更广泛的概念——HADOOP生态圈 2、Ha ......

本人微信公众号，欢迎扫码关注！

从hadoop框架讨论大数据生态

1、hadoop是什么

1）hadoop是一个由apache基金会所开发的分布式系统基础架构

2）主要解决，海量数据的存储和海量数据的分析计算问题。

3）广义上来说，hadoop通常是指一个更广泛的概念——hadoop生态圈

2、hadoop发展历史

1）lucene--doug cutting开创的开源软件，用java书写代码，实现与google类似的全文搜索功能，它提供了全文检索引擎的架构，包括完整的查询引擎和索引引擎

2）2001年年底成为apache基金会的一个子项目

3）对于大数量的场景，lucene面对与google同样的困难

4）学习和模仿google解决这些问题的办法：微型版nutch

5）可以说google是hadoop的思想之源(google在大数据方面的三篇论文)

gfs --->hdfs
map-reduce --->mr
bigtable --->hbase

6）2003-2004年，google公开了部分gfs和mapreduce思想的细节，以此为基础doug cutting等人用了2年业余时间实现了dfs和mapreduce机制，使nutch性能飙升

7）2005 年hadoop 作为 lucene的子项目 nutch的一部分正式引入apache基金会。2006 年 3 月份，map-reduce和nutch distributed file system (ndfs) 分别被纳入称为 hadoop 的项目中

8）名字来源于doug cutting儿子的玩具大象

9）hadoop就此诞生并迅速发展，标志这云计算时代来临

3、hadoop三大发行版本

apache、cloudera、hortonworks

1）apache版本最原始（最基础）的版本，对于入门学习最好。

2）cloudera在大型互联网企业中用的较多。

2008年成立的cloudera是最早将hadoop商用的公司，为合作伙伴提供hadoop的商用解决方案，主要是包括支持、咨询服务、培训。
2009年hadoop的创始人doug cutting也加盟cloudera公司。cloudera产品主要为cdh，cloudera manager，cloudera support
cdh是cloudera的hadoop发行版，完全开源，比apache hadoop在兼容性，安全性，稳定性上有所增强
cloudera manager是集群的软件分发及管理监控平台，可以在几个小时内部署好一个hadoop集群，并对集群的节点及服务进行实时监控。cloudera support即是对hadoop的技术支持。
cloudera的标价为每年每个节点4000美元。cloudera开发并贡献了可实时处理大数据的impala项目。

3）hortonworks文档较好。

2011年成立的hortonworks是雅虎与硅谷风投公司benchmark capital合资组建。
公司成立之初就吸纳了大约25名至30名专门研究hadoop的雅虎工程师，上述工程师均在2005年开始协助雅虎开发hadoop，贡献了hadoop80%的代码。
雅虎工程副总裁、雅虎hadoop开发团队负责人eric baldeschwieler出任hortonworks的首席执行官。
hortonworks的主打产品是hortonworks data platform（hdp），也同样是100%开源的产品，hdp除常见的项目外还包括了ambari，一款开源的安装和管理系统。
hcatalog，一个元数据管理系统，hcatalog现已集成到facebook开源的hive中。hortonworks的stinger开创性的极大的优化了hive项目。hortonworks为入门提供了一个非常好的，易于使用的沙盒。
hortonworks开发了很多增强特性并提交至核心主干，这使得apache hadoop能够在包括window server和windows azure在内的microsoft windows平台上本地运行。定价以集群为基础，每10个节点每年为12500美元。

4、hadoop的优势

1）高可靠性：因为hadoop假设计算元素和存储会出现故障，因为它维护多个工作数据副本，在出现故障时可以对失败的节点重新分布处理。

2）高扩展性：在集群间分配任务数据，可方便的扩展数以千计的节点。

3）高效性：在mapreduce的思想下，hadoop是并行工作的，以加快任务处理速度。

4）高容错性：自动保存多份副本数据，并且能够自动将失败的任务重新分配。

5、hadoop组成

5.1 hdfs架构概述

1）namenode（nn）：存储文件的元数据，如文件名，文件目录结构，文件属性（生成时间、副本数、文件权限），以及每个文件的块列表和块所在的datanode等。

2）datanode(dn)：在本地文件系统存储文件块数据，以及块数据的校验和。

3）secondary namenode(2nn)：用来监控hdfs状态的辅助后台程序，每隔一段时间获取hdfs元数据的快照。

5.2 yarn架构概述

1）resourcemanager(rm)：处理客户端请求、启动/监控applicationmaster、监控nodemanager、资源分配与调度。

2）nodemanager(nm)：单个节点上的资源管理、处理来自resourcemanager的命令、处理来自applicationmaster的命令。

3）applicationmaster：数据切分、为应用程序申请资源，并分配给内部任务、任务监控与容错。

4）container：对任务运行环境的抽象，封装了cpu、内存等多维资源以及环境变量、启动命令等任务运行相关的信息。

5.3 mapreduce架构概述

mapreduce将计算过程分为两个阶段：map和reduce

1）map阶段并行处理输入数据

2）reduce阶段对map结果进行汇总

6、大数据技术生态体系

Hadoop系列002-从Hadoop框架讨论大数据生态

7、推荐系统框架图

Hadoop系列002-从Hadoop框架讨论大数据生态

上一篇： [20190328]简单探究sql语句相关mutexes.txt

下一篇：前端笔记之NodeJS（四）MongoDB数据库&Mongoose&自制接口&MVC架构思想|实战

Hadoop系列002-从Hadoop框架讨论大数据生态

从hadoop框架讨论大数据生态

1、hadoop是什么

2、hadoop发展历史

3、hadoop三大发行版本

4、hadoop的优势

5、hadoop组成

5.1 hdfs架构概述

5.2 yarn架构概述

5.3 mapreduce架构概述

6、大数据技术生态体系

7、推荐系统框架图

Hadoop——从Hadoop框架讨论大数据生态

Hadoop系列002-从Hadoop框架讨论大数据生态

Hadoop——从Hadoop框架讨论大数据生态