HDFS文件读写流程讲解

程序员文章站 2022-03-04 23:40:22

一、HDFS体系结构 HDFS作为分布式文件系统，使用的是master/slave体系结构，角色有三种： NameNode:为HDFS提供元数据服务，NameNode可以控制所有文件的操作...

一、HDFS体系结构

HDFS作为分布式文件系统，使用的是master/slave体系结构，角色有三种：

NameNode:为HDFS提供元数据服务，NameNode可以控制所有文件的操作，它会把所有的文件元数据存储在文件系统树中，文件信息在硬盘上保存成两个文件：命名空间镜像文件(fsimage)和修改日志文件(edit log)。此外，NameNode还保存一个文件，用来存储数据块在数据节点的分布情况。系统启动之时，这些信息会加载到内存中。

DateNode:为HDFS提供存储，为系统提供存储服务，用于保存数据。

客户端Client:HDFS客户端节点。

还有一个Secondary NameNode,它并不是NameNode的备份，其职责是合并NameNode中的edit log和fsimage,协助NameNode工作，可以称为是检查节点。

HDFS文件读写流程讲解

HDFS中的文件块：HDFS基本存储单位是64M的数据块，每个文件被分成64M大小的数据块来存储。小于数据块大小的文件，不会占用整个数据块存储空间。

二、客户端文件读取流程

HDFS文件读写流程讲解

HDFS客户端文件读取过程如下：

应用程序通过HDFS客户端向NameNode发生远程调用请求。 NameNode收到请求之后，返回文件的块列表信息。块列表信息中包含每个block拷贝的datanode地址。 HDFS 客户端会选择离自己最近的那个拷贝所在的datanode来读取数据。数据读取完成以后，HDFS客户端关闭与当前的datanode的链接。

如果文件没有读完，HDFS客户端会继续从NameNode获取后续的block信息，每读完一个块都需要进行校验和验证，如果读取出错，HDFS客户端会通知NameNode，重新选择一个该block拷贝的datanode读数据。

三、客户端文件写入流程

HDFS文件读写流程讲解

1.应用程序通过HDFS客户端向NameNode发起远程过程调用请求。

2.NameNode检查要创建的文件是否存在以及是否有足够的权限。

3.如果检测成功，NameNode会返回一个该文件的记录，否则让客户端抛出异常。

4.HDFS客户端把文件切分为若干个packets，然后向NameNode申请新的blocks存储新增数据。

5.NameNode返回用来存储副本的数据节点列表。

6.HDFS客户端把packets中的数据写入所有的副本中。

7.最后一个节点数据写入完成以后，客户端关闭。

上一篇：石头扫拖机器人T7S Plus性能如何? 石头T7SPlus石头评测

下一篇：正态分布（高斯分布）公式

HDFS文件读写流程讲解

Python编程中的文件读写及相关的文件对象方法讲解

基于node.js的fs核心模块读写文件操作(实例讲解)

Hadoop HDFS读写流程

Python3之文件读写操作的实例讲解

python逐行读写txt文件的实例讲解

Python读写与追加excel文件实例讲解

HDFS学习记录（数据单位的比较、读写流程）