欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

大数据概述学习(一)

程序员文章站 2022-05-01 12:13:25
...

一、 大数据概述

技术支撑:存储、计算、网络
大数据:大量化、快速化、多样化、价值密度低
科学范式:实验-理论-计算-数据
影响:全样而非抽样、效率而非精确、相关而非因果
应用:
大数据概述学习(一)

核心技术:分布式存储、分布式处理
计算模式:批处理(MapReduce、spark)、流计算、(流数据的处理)、图计算、查询分析计算(Hive)
云计算:虚拟化、多用户,解决分布式存储、计算
大数据概述学习(一)

物联网:
大数据概述学习(一)

关键技术:识别、感知技术 ,继承云计算

二、 大数据处理架构Hadoop

两大核心:HDFS + MapReduce
可靠性、高效性、高可扩展性、高容错性、成本低、可支持多种编程语言
大数据概述学习(一)
大数据概述学习(一)

Pig:也能提供SQL语言查询(轻量级)
Oozie:工作流管理系统
Sqoop:连接关系型数据库与Hadoop

三、 分布式文件系统HDFS

实现目标:

兼容廉价的硬件设备
支持大数据集
强大的跨平台兼容性
实现流数据读写
支持简单的文件模型

局限性:

不适合低延迟数据访问
无法高效储存大量小文件
不支持多用户写入数据访问及任意修改文件

最核心概念::默认64MB
好处:支持大规模文件存储 、简化系统设计、比较适合数据备份

名称节点——HDFS集群的管家(数据目录)
数据节点——存储实际数据
元数据:文件是什么、分成多少块、怎么隐射、那个服务器上

大数据概述学习(一)

FsImage:

文件的复制等级
块大小以及组成文件的块
修改和访问时间
访问权限
注:文件具体在哪分布是实时在内存中维护的
大数据概述学习(一)

更新的放在EditLog
第二名称节点:名称节点的冷备份,对EditLog不断增大的处理

体系结构:
大数据概述学习(一)

目录-文件-块

大数据概述学习(一)

局限性:

命名空间限制:名称节点保存在内存
性能瓶颈
隔离问题
可用性

相关标签: 数据库相关