欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  IT编程

HDFS的优缺点以及组成架构

程序员文章站 2022-07-03 18:27:10
1.Hadoop分布式文件系统(HDFS)是指被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统(Distributed File System)。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束,来实现流式读取文件系统数据的目的。HDFS在最开始是作为Apache Nut...

1.Hadoop分布式文件系统(HDFS)是指被设计成适合运行在通用硬件(commodity hardware)
上的分布式文件系统(Distributed File System)。它和现有的分布式文件系统有很多共同点
。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,
适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。
HDFS放宽了一部分POSIX约束,来实现流式读取文件系统数据的目的。HDFS在最开始是作为Apache Nutch搜索
引擎项目的基础架构而开发的。HDFS是Apache Hadoop Core项目的一部分。
HDFS有着高容错性(fault-tolerant)的特点,并且设计用来部署在低廉的(low-cost)硬件上。
而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。
HDFS放宽了(relax)POSIX的要求(requirements)这样可以实现流的形式访问(streaming access)文件系统中的数据。
2.hdfs适合一次写入,多次读出的场景,暂不支持文件的修改
3.HDFS的优点:
高容错性:(1)数据自动保存多个副本,他通过增加副本的形式,提高容错性。某一个副本丢失以后,他可以自动恢复
(2)适合处理大数据 数据规模:能够处理数据规模达到GB,TB,甚至PB级别的数据
文件规模:能够处理百万规模以上的文件数量,数量相当之大
(3)可构建在廉价机器上,通过多副本机制,提高可靠性
4.HDFS的缺点:
(1)不适合低延时数据访问,比如毫秒级的存储数据,是做不到的
(2)无法高效的对大量小文件进行存储

存储大量小文件的话,他会占用NameNode大量的内存来存储文件目录和块信息。这样是不可取的,因为NameNode的内存总是有限的。
小文件存储的寻址时间会超过读取时间,它违反了HDFS的设计目标。
(3)不支持并发写入,文件随机修改
(1)一个文件只能有一个写,不允许多个线程同时写。
(2)仅支持诗句append,不支持文件的随机修改

HDFS的优缺点以及组成架构Client:客户端
(1)文件切分,文件上传HDFS的时候,Client将文件切分成一个一个的Block,然后进行上传
(2)与NameNode交互,获取文件的位置信息
(3)与DataNode交互,读取或者写入数据
(4)Client提供一些命令来管理HDFS,比如NameNode格式化
(5)通过命令访问HDFS,对HDFS进行增删改查操作
Secondary NameNode:并非NameNode的热备。当NameNode挂掉的时候,他并不能马上替换NameNode并提供服务
(1)辅助namenode,分担其工作量,比如定期合并Fsimage和Edits,并推送给NameNode
(2)在紧急情况下,可辅助恢复NameNode
6.HDFS文件块大小
Hdfs中的文件在物理上是分块存储的,块的大小可以通过配置参数(dfs.block.block)配置,默认是128M
如果HDFS的设置块太小,会增加寻址时间。
如果太大,从磁盘传输数据的时间会明显大于定位这个块开始所需的时间,太慢。
HDFS块的大小设置主要取决于磁盘传输速率

本文地址:https://blog.csdn.net/weixin_43796131/article/details/107332795

相关标签: hadoop