hadoop中HDFS的NameNode原理

程序员文章站 2024-01-07 13:03:16

1. hadoop中HDFS的NameNode原理 1.1. 组成包括HDFS（分布式文件系统），YARN（分布式资源调度系统），MapReduce（分布式计算系统），等等。 1.2. HDFS架构原理比如现在要上传一个1T的大文件，提交给HDFS的（用以存放文件目录树，权限设置，副本数设置等 ......

1. hadoop中hdfs的namenode原理

1.1. 组成

包括hdfs（分布式文件系统），yarn（分布式资源调度系统），mapreduce（分布式计算系统），等等。

1.2. hdfs架构原理

hadoop中HDFS的NameNode原理

比如现在要上传一个1t的大文件，提交给hdfs的active namenode（用以存放文件目录树，权限设置，副本数设置等），它会在指定目录下创建一个新的文件对象，比如access_20180101.log
至于具体数据，它会将它拆分后进行分布式存储，分散在各个datanode节点，且默认都会有3个副本，防止其中一台机器宕机使得数据缺失
这里图之所以这么复杂，原因在于大量的请求提交给active namenode会不断修改元数据，而元数据是在内存的，为了防止宕机丢失，必须把它存在磁盘，但是频繁的修改磁盘数据，性能是很低的，这是大量的磁盘随机读写，所以有了上述图的方案
每次操作请求active namenode会写一条edits log放到磁盘文件，不是直接修改磁盘文件内容，而是顺序追加，这个性能就高多了
同时它会把edits log还会写入journalnodes集群，通过journalnodes会把操作日志传到standby namenode，这就相当于是个备份服务，确保了standby namenode内存中的元数据和active namenode是一样的，而standby namenode每隔一段时间会把内存里的元数据写一份到磁盘的fsimage文件，这个文件就是全量的元数据了，不是日志记录
再然后会把这个fsimage上传到active namenode，替换掉内存中的元数据，再清空掉active namenode所在磁盘上的edits log，重新开始记录日志
为什么要这么做？因为为了防止active namenode突然宕机后，我们需要进行恢复，它的恢复是基于磁盘上的edits log的，和redis的aof相同的道理，它需要重新运行一遍日志中的所有命令，当时间长了后日志可能会很大，重启时间也就会很长；
引入standby namenode的备份机制，就可以在节点重启时，直接从standby namenode的fsimage读取元数据备份，这就相当于redis的rdb恢复，速度是比较快的，读取完备份再从磁盘的edits log读取少量的操作日志执行恢复，就完全恢复到宕机前的状态了

1.3. namenode如何承载每秒上千次的高并发访问

hadoop中HDFS的NameNode原理

分段加锁机制+内存双缓冲机制（老实说我是没看懂，他的博客我也留言问了两个问题，有能看懂了拜托这里留言或在他博客过眼云烟本尊这个评论者下留言，thanks♪(･ω･)ﾉ）
我特别不懂的地方就是既要保证顺序性，为什么还能用多线程并发？

参考：
用大白话告诉你小白都能看懂的hadoop架构原理
 大规模集群下hadoop namenode如何承载每秒上千次的高并发访问

上一篇： Yii2的相干学习记录，后台模板和gii（三）

下一篇： insert-Msql innodb Insert 事务问题

hadoop中HDFS的NameNode原理

1. hadoop中hdfs的namenode原理

1.1. 组成

1.2. hdfs架构原理

1.3. namenode如何承载每秒上千次的高并发访问

Discuz中DIY功能的实现原理？解决思路

PHP 中的$_SESSION 的生命周期和原理

145面试必问|：谈谈Java集合中HashSet的原理及常用方法

简单分析js中的this的原理

Java中多线程的使用（超级超级详细）线程安全原理解析 4

php中定时计划任务的实现原理

PHP中的&传值引用的问题，在foreach循环的结果能帮解释下输出的结果原理是什么？，PHP

阿里巴巴资深架构师熬几个通宵肛出来的Spark+Hadoop+中台实战pdf

分析了一下JQuery中的extend方法实现原理_jquery

Discuz中DIY功能的实现原理？解决思路