Hadoop面试题
程序员文章站
2024-03-23 20:04:58
...
1、什么是Apache Hadoop及其优势
-- Apache Hadoop
1、Hadoop是一个有Apache基金会所开发的分布式系统基础框架
2、主要解决海量数据的存储和海量数据的分析计算问题
3、广义来说,Hadoop通常是指一个更广泛的概念——Hadoop生态圈
-- Hadoop优势
1、高可靠性。Hadoop按位存储和底层维护多个数据副本,即使Hadoop某个计算元素或者存贮出现故障,也不会丢失数据。
2、高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。
3、高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。
4、高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。
2、简单聊聊大数据生态技术体系
--1、Sqoop:Sqoop是一款开源的工具,主要用于在Hadoop、Hive与传统的数据库(MySql)间进行数据的传递,可以将一个关系型数据库(例如 :MySQL,Oracle 等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。
--2、Flume:Flume是一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;
--3、Kafka:Kafka是一种高吞吐量的分布式发布订阅消息系统;
--4、Storm:Storm用于“连续计算”,对数据流做连续查询,在计算时就将结果以流的形式输出给用户。
--5、Spark:Spark是当前最流行的开源大数据内存计算框架。可以基于Hadoop上存储的大数据进行计算。
--6、Flink:Flink是当前最流行的开源大数据内存计算框架。用于实时计算的场景较多。
--7、Oozie:Oozie是一个管理Hdoop作业(job)的工作流程调度管理系统。
--8、Hbase:HBase是一个分布式的、面向列的开源数据库。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。
--9、Hive:Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能,可以将SQL语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的MapReduce应用,十分适合数据仓库的统计分析。
--10、ZooKeeper:它是一个针对大型分布式系统的可靠协调系统,提供的功能包括:配置维护、名字服务、分布式同步、组服务等。
3、Hadoop1.x与Hadoop2.x的区别
4、什么是HDFS的安全模式?
-- 安全模式的作用
hadoop的安全模式即只读模式,是指当前系统中数据块的副本数比较少,在该阶段要对数据块进行复制操作,不允外界对数据块进行修改和删除等操作。
Namenode启动时,首先将映像文件(fsimage)载入内存,并执行编辑日志(edits)中的各项操作。一旦在内存中成功建立文件系统元数据的映像,则创建一个新的fsimage文件(这个操作不需要辅助namenode)和一个空的编辑日志。此时,namenode开始监听RPC和http请求。但此时, namenode运行在安全模式,即namenode的文件系统对于客户端来说是只读的。
需要强调的是,系统中数据块的位置并不是由namenode维护的,而是以块列表的形式存储在datanode中。在系统的正常操作期间,namenode会在内存中保留所有块位置的映射信息。在安全模式下,各个datanode会向namenode检查块列表信息(即向namenode发送块列表的最新情况),namenode了解到足够多的块位置信息之后,即可高效运行文件系统。但如果namenode没有检查到足够多的块复本,则需要将块复制到其他datanode,而在大多数情况下这都是不必要的(因为只需等待检查到最小复本数),并会极大的浪费集群的资源。实际上,在安全模式下,namenode并不向datanode发出任何块复制或块删除的指令。
-- 何时进入安全模式
NameNode在启动的时候首先进入安全模式
满足最小复本数要求的数据块比例达不到dfs.safemode.threshold.pct
如果datanode丢失的block达到一定的比例(1-dfs.safemode.threshold.pct),则系统会一直处于安全模式状态即只读状态。dfs.safemode.threshold.pct(缺省值0.999f)表示HDFS启动的时候,如果DataNode上报的block个数达到了元数据记录的block个数的0.999倍才可以离开安全模式,否则一直是这种只读模式。如果设为1则HDFS永远是处于SafeMode。
-- 何时退出安全模式
如果满足“最小复本条件”namenode会在30秒之后退出安全模式。所谓的最小复本条件指的是文件系统中有99.9%的块满足最小复本级别(默认值是1,由dfs.replication.min属性设置)。
手动退出
-- 安全模式的配置
https://www.iteblog.com/archives/977.html
https://www.cnblogs.com/admln/p/5821983.html
dfs.replication:设置数据块应该被复制的份数;
dfs.replication.min:所规定的数据块副本的最小份数;
dfs.replication.max:所规定的数据块副本的最大份数;
dfs.safemode.threshold.pct:指定应有多少比例的数据块满足最小副本数要求。
(1)当小于这个比例, 那就将系统切换成安全模式,对数据块进行复制;
(2)当大于该比例时,就离开安全模式,说明系统有足够的数据块副本数,可以对外提供服务。
(3)小于等于0意味不进入安全模式,大于1意味一直处于安全模式。
副本数按dfs.replication设置,如果有失效节点导致某数据块副本数降低,当低于dfs.replication.min后,系统再在其他节点处复制新的副本。如果该数据块的副本经常丢失,导致在环境中太多的节点处复制了超过dfs.replication.max的副本数,那么就不再复制了。
-- 手动操作安全模式
①查看namenode是否处于安全模式:hadoop dfsadmin –safemode get
②执行某条命令前namenode先退出安全模式:hadoop dfsadmin –safe wait
③进入安全模式:hadoop dfsadmin –safemode enter
④离开安全模式:hadoop dfsadmin –safemode leave
下一篇: 排序算法总结(不断更新中)
推荐阅读
-
Hadoop面试题
-
面试题错题总结(不断更新完善中)
-
Java面试题之基础(一)
-
【Java面试系列】Dubbo面试题
-
JAVA面试题之JVM(GC)
-
Tomcat面试题(2020最新版)
-
FineReport中hadoop,hive数据库连接解决方案 博客分类: 技术,解决方案 hadoophive数据库FineReport
-
sqoop could not find any valid local directory 异常解决 博客分类: hadoop sqoop
-
hadoop状态分析系统chukwa(转) 博客分类: hadoop
-
sqoop could not find any valid local directory 异常解决 博客分类: hadoop sqoop