大数据的数据体系、采集、存储技术总结

程序员文章站 2022-06-11 08:30:08

...

大数据的数据体系，自底向上包括四个层次：

1 数据采集与清洗层

2 数据加工与汇聚层

3 数据能力与开放层（体现平台即服务PAAS的概念）

4 数据价值与应用层

大数据采集技术：实时与离线采集

实时流处理模式：通过K-V查询接口，以流处理模式，逐条传输、ETL，融合并入库至业务平台。

离线批处理模式：通过SFTP传输接口，将数据离线批量采集至业务平台缓存中，再进行批量ETL、融合并入库到业务平台。

大数据的采集：基于开源爬虫Webmagic与内存数据库Redis的分布式爬虫技术

分布式存储技术：

使用大量普通PC服务器通过Internet互联，对外作为一个整体提供存储服务，以较低的成本满足大规模的存储需求

分布式块存储：将分布式的大量服务器硬盘经过分布式块存储变成统一的逻辑硬盘，再按逻辑卷分给虚拟机。适合于作为云主机资源池共享存储，IO要求高。

分布式文件存储：将大文件切分成多个小文件块。并将小文件块分布存储在服和器节点上，基于元数据服务器控制各个数据节点，适合于大数据文件的存储和处理，存储与计算一体化，例如作为Hadoop Spark的底层文件系统。

分布式对象存储：扁平化，文件之间没有层级或类型关系，适合于各种大小的海量文件基于互联网在线存储，访问和备份，如云存储服务等。

以代码实例总结iOS应用开发中数据的存储方式