大数据的数据体系、采集、存储技术总结
程序员文章站
2022-06-11 08:30:08
...
大数据的数据体系,自底向上包括四个层次:
1 数据采集与清洗层
2 数据加工与汇聚层
3 数据能力与开放层(体现平台即服务PAAS的概念)
4 数据价值与应用层
大数据采集技术:实时与离线采集
实时流处理模式:通过K-V查询接口,以流处理模式,逐条传输、ETL,融合并入库至业务平台。
离线批处理模式:通过SFTP传输接口,将数据离线批量采集至业务平台缓存中,再进行批量ETL、融合并入库到业务平台。
大数据的采集:基于开源爬虫Webmagic与内存数据库Redis的分布式爬虫技术
分布式存储技术:
使用大量普通PC服务器通过Internet互联,对外作为一个整体提供存储服务,以较低的成本满足大规模的存储需求
分布式块存储:将分布式的大量服务器硬盘经过分布式块存储变成统一的逻辑硬盘,再按逻辑卷分给虚拟机。适合于作为云主机资源池共享存储,IO要求高。
分布式文件存储:将大文件切分成多个小文件块。并将小文件块分布存储在服和器节点上,基于元数据服务器控制各个数据节点,适合于大数据文件的存储和处理,存储与计算一体化,例如作为Hadoop Spark的底层文件系统。
分布式对象存储:扁平化,文件之间没有层级或类型关系,适合于各种大小的海量文件基于互联网在线存储,访问和备份,如云存储服务等。
上一篇: Java 位运算符
推荐阅读
-
以代码实例总结iOS应用开发中数据的存储方式
-
总结JavaScript三种数据存储方式之间的区别
-
总结Docker不适合部署数据库的7大原因
-
对话LSI高管:大数据时代“沉睡”的存储技术将苏醒
-
以代码实例总结iOS应用开发中数据的存储方式
-
influx+grafana自定义python采集数据和一些坑的总结
-
Android 五大数据存储 (最实用的开发详解) 三 内部存储,外部存储
-
Docker学习总结(51)——为什么不建议把数据库部署在 Docker 容器内的7大原因?
-
阿里HBase超详实践总结 | 一文读懂大数据时代的结构化存储 hbasehadoop阿里巴巴
-
阿里HBase超详实践总结 | 一文读懂大数据时代的结构化存储 hbasehadoop阿里巴巴