欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

Hadoop面试题

程序员文章站 2024-03-23 20:04:58
...

1、什么是Apache Hadoop及其优势

-- Apache Hadoop
	1、Hadoop是一个有Apache基金会所开发的分布式系统基础框架
	2、主要解决海量数据的存储和海量数据的分析计算问题
	3、广义来说,Hadoop通常是指一个更广泛的概念——Hadoop生态圈
-- Hadoop优势
	1、高可靠性。Hadoop按位存储和底层维护多个数据副本,即使Hadoop某个计算元素或者存贮出现故障,也不会丢失数据。
	2、高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。
	3、高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。
	4、高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。

2、简单聊聊大数据生态技术体系

Hadoop面试题

--1、Sqoop:Sqoop是一款开源的工具,主要用于在Hadoop、Hive与传统的数据库(MySql)间进行数据的传递,可以将一个关系型数据库(例如 :MySQL,Oracle 等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。
--2、Flume:Flume是一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据; 
--3、Kafka:Kafka是一种高吞吐量的分布式发布订阅消息系统; 
--4、Storm:Storm用于“连续计算”,对数据流做连续查询,在计算时就将结果以流的形式输出给用户。
--5、Spark:Spark是当前最流行的开源大数据内存计算框架。可以基于Hadoop上存储的大数据进行计算。
--6、Flink:Flink是当前最流行的开源大数据内存计算框架。用于实时计算的场景较多。
--7、Oozie:Oozie是一个管理Hdoop作业(job)的工作流程调度管理系统。
--8、Hbase:HBase是一个分布式的、面向列的开源数据库。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。
--9、Hive:Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。
--10、ZooKeeper:它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、分布式同步、组服务等。

 3、Hadoop1.x与Hadoop2.x的区别

Hadoop面试题

4、什么是HDFS的安全模式?

-- 安全模式的作用
    hadoop的安全模式即只读模式,是指当前系统中数据块的副本数比较少,在该阶段要对数据块进行复制操作,不允外界对数据块进行修改和删除等操作。
    Namenode启动时,首先将映像文件(fsimage)载入内存,并执行编辑日志(edits)中的各项操作。一旦在内存中成功建立文件系统元数据的映像,则创建一个新的fsimage文件(这个操作不需要辅助namenode)和一个空的编辑日志。此时,namenode开始监听RPC和http请求。但此时, namenode运行在安全模式,即namenode的文件系统对于客户端来说是只读的。
    需要强调的是,系统中数据块的位置并不是由namenode维护的,而是以块列表的形式存储在datanode中。在系统的正常操作期间,namenode会在内存中保留所有块位置的映射信息。在安全模式下,各个datanode会向namenode检查块列表信息(即向namenode发送块列表的最新情况),namenode了解到足够多的块位置信息之后,即可高效运行文件系统。但如果namenode没有检查到足够多的块复本,则需要将块复制到其他datanode,而在大多数情况下这都是不必要的(因为只需等待检查到最小复本数),并会极大的浪费集群的资源。实际上,在安全模式下,namenode并不向datanode发出任何块复制或块删除的指令。

-- 何时进入安全模式
    NameNode在启动的时候首先进入安全模式
    满足最小复本数要求的数据块比例达不到dfs.safemode.threshold.pct

    如果datanode丢失的block达到一定的比例(1-dfs.safemode.threshold.pct),则系统会一直处于安全模式状态即只读状态。dfs.safemode.threshold.pct(缺省值0.999f)表示HDFS启动的时候,如果DataNode上报的block个数达到了元数据记录的block个数的0.999倍才可以离开安全模式,否则一直是这种只读模式。如果设为1则HDFS永远是处于SafeMode。

-- 何时退出安全模式
如果满足“最小复本条件”namenode会在30秒之后退出安全模式。所谓的最小复本条件指的是文件系统中有99.9%的块满足最小复本级别(默认值是1,由dfs.replication.min属性设置)。
手动退出

-- 安全模式的配置
https://www.iteblog.com/archives/977.html
https://www.cnblogs.com/admln/p/5821983.html

dfs.replication:设置数据块应该被复制的份数;
dfs.replication.min:所规定的数据块副本的最小份数;
dfs.replication.max:所规定的数据块副本的最大份数;
dfs.safemode.threshold.pct:指定应有多少比例的数据块满足最小副本数要求。
  (1)当小于这个比例, 那就将系统切换成安全模式,对数据块进行复制;
  (2)当大于该比例时,就离开安全模式,说明系统有足够的数据块副本数,可以对外提供服务。
  (3)小于等于0意味不进入安全模式,大于1意味一直处于安全模式。

    副本数按dfs.replication设置,如果有失效节点导致某数据块副本数降低,当低于dfs.replication.min后,系统再在其他节点处复制新的副本。如果该数据块的副本经常丢失,导致在环境中太多的节点处复制了超过dfs.replication.max的副本数,那么就不再复制了。

-- 手动操作安全模式
①查看namenode是否处于安全模式:hadoop dfsadmin –safemode get
②执行某条命令前namenode先退出安全模式:hadoop dfsadmin –safe wait
③进入安全模式:hadoop dfsadmin –safemode enter
④离开安全模式:hadoop dfsadmin –safemode leave