HDFS的优缺点以及组成架构
1.Hadoop分布式文件系统(HDFS)是指被设计成适合运行在通用硬件(commodity hardware)
上的分布式文件系统(Distributed File System)。它和现有的分布式文件系统有很多共同点
。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,
适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。
HDFS放宽了一部分POSIX约束,来实现流式读取文件系统数据的目的。HDFS在最开始是作为Apache Nutch搜索
引擎项目的基础架构而开发的。HDFS是Apache Hadoop Core项目的一部分。
HDFS有着高容错性(fault-tolerant)的特点,并且设计用来部署在低廉的(low-cost)硬件上。
而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。
HDFS放宽了(relax)POSIX的要求(requirements)这样可以实现流的形式访问(streaming access)文件系统中的数据。
2.hdfs适合一次写入,多次读出的场景,暂不支持文件的修改
3.HDFS的优点:
高容错性:(1)数据自动保存多个副本,他通过增加副本的形式,提高容错性。某一个副本丢失以后,他可以自动恢复
(2)适合处理大数据 数据规模:能够处理数据规模达到GB,TB,甚至PB级别的数据
文件规模:能够处理百万规模以上的文件数量,数量相当之大
(3)可构建在廉价机器上,通过多副本机制,提高可靠性
4.HDFS的缺点:
(1)不适合低延时数据访问,比如毫秒级的存储数据,是做不到的
(2)无法高效的对大量小文件进行存储
存储大量小文件的话,他会占用NameNode大量的内存来存储文件目录和块信息。这样是不可取的,因为NameNode的内存总是有限的。
小文件存储的寻址时间会超过读取时间,它违反了HDFS的设计目标。
(3)不支持并发写入,文件随机修改
(1)一个文件只能有一个写,不允许多个线程同时写。
(2)仅支持诗句append,不支持文件的随机修改
Client:客户端
(1)文件切分,文件上传HDFS的时候,Client将文件切分成一个一个的Block,然后进行上传
(2)与NameNode交互,获取文件的位置信息
(3)与DataNode交互,读取或者写入数据
(4)Client提供一些命令来管理HDFS,比如NameNode格式化
(5)通过命令访问HDFS,对HDFS进行增删改查操作
Secondary NameNode:并非NameNode的热备。当NameNode挂掉的时候,他并不能马上替换NameNode并提供服务
(1)辅助namenode,分担其工作量,比如定期合并Fsimage和Edits,并推送给NameNode
(2)在紧急情况下,可辅助恢复NameNode
6.HDFS文件块大小
Hdfs中的文件在物理上是分块存储的,块的大小可以通过配置参数(dfs.block.block)配置,默认是128M
如果HDFS的设置块太小,会增加寻址时间。
如果太大,从磁盘传输数据的时间会明显大于定位这个块开始所需的时间,太慢。
HDFS块的大小设置主要取决于磁盘传输速率
本文地址:https://blog.csdn.net/weixin_43796131/article/details/107332795
推荐阅读
-
eBay的网站架构演进以及技术特点解析
-
激光打印机定影器的组成以及维修
-
mvc框架打造笔记之wsgi协议的优缺点以及接口实现
-
Nginx的配置文件位置以及组成部分结构讲解
-
长连接和短连接的定义,优缺点以及使用场景介绍
-
MySQL 索引的优缺点以及创建索引的准则
-
11.Spark Streaming源码解读之Driver中的ReceiverTracker架构设计以及具体实现彻底研究
-
11.Spark Streaming源码解读之Driver中的ReceiverTracker架构设计以及具体实现彻底研究
-
windows系统以及linux系统的优缺点以及区别
-
什么是网红营销 以及如何让网红营销成为品牌战略的重要组成