HDFS--大数据应用的基石
近些年,由于智能手机的迅速普及推动移动互联网技术的蓬勃发展,全球数据呈现爆发式的增长。2018年5月企鹅号的统计结果:互联网每天新增的数据量达2.5*10^18字节,而全球90%的数据都是在过去的两年间创造出来的。随着5g技术的商用,未来连接万物的物联网设备必将带来更大量级的数据。大胆预期,我们即将走进数据大爆炸的时代。诚如吴军博士所说:谁懂得数据的重要性,谁会在工作中善用数据,就更有可能获得成功。
从人类活动开始,数据一直不断在产生,区别仅在于数据的存储方式是否取得了进步。从古老的壁画、纸张到现代的硬盘,存储能力跨数量级地增长。尽管如此,在大数据时代,单纯通过增加硬盘个数来扩展计算机文件系统存储容量的方式,在容量大小、容量增长速度、数据备份、数据安全等方面的表现都差强人意。分布式文件存储系统应运而生。
hdfs主要解决传统方式难以解决或者成本太高的问题,它被设计成适合运行在通用硬件上的分布式文件系统,具有高容错性,适合部署在廉价的机器上运行,能提供高吞吐量的数据访问。
hdfs可能由成百上千的服务器构成,错误监测、快速自恢复是其核心架构目标。hdfs上的典型文件大小一般在gb至tb量级,适用于一次写入多次读取的场景。相较于数据访问的低延时,hdfs在高吞吐量的表现更优异。
hdfs采用java语言编写,典型架构如下图示,使用master/slave架构,一个hdfs集群由一个namenode和一定数目的datanodes组成。namenode是一个中心服务器,负责管理文件系统的名称空间(namespace)以及客户端对文件的访问。集群中的datanode一般
上一篇: 2016年初面试相关
推荐阅读
-
分享一个PHP数据流应用的简单例子
-
观远数据荣获机器之心「三十大最佳AI应用案例」奖项
-
Python的Flask框架应用调用Redis队列数据的方法
-
.NET Core开发的iNeuOS工业互联网平台,发布 iNeuDA 数据分析展示组件,快捷开发图形报表和数据大屏
-
.NET Core开发的iNeuOS工业互联平台,升级四大特性:配置数据接口、图元绑定数据、预警配置和自定义菜单
-
618大促复盘 | 如何通过观远数据挖掘“异常值”背后的故事线
-
PHP数据流应用的一个简单实例
-
JS多个表单数据提交下的serialize()应用实例分析
-
php学习笔记 php中面向对象三大特性之一[封装性]的应用
-
大数据发展的五大驱动力