大数据基础组件初步了解
程序员文章站
2022-06-27 20:45:28
大数据基础组件Hadoop 大数据生态圈HDFS 分布式文件存储系统MapReduce(MR) 基于磁盘计算Spark(RDD) 基于内存计算SparkSQL 一般情况都是基于离线数据处理Spark Streaming一般情况是基于微批(实时)处理Flink 正儿八经的流式计算–消息队列Kafka 可理解生产者和消费者之间的数据传递–数据库Hive 主要面向于(离线)数据仓库使用,内部执行引擎(MapReduce/Spark),读过Hive的朋友应该也知道可以自研一个开发引擎...
大数据基础组件
Hadoop
- HDFS:分布式文件存储系统,大数据环境的基石
- MapReduce(MR):基于磁盘计算,主要用于大量数据的批处理计算
- Spark(RDD):基于内存计算
SparkSQL:一般情况都是基于离线数据处理
Spark Streaming:一般情况是基于微批(实时)处理 - Flink 正儿八经的流式计算
Flink SQL:类似SparkSQL,可以写SQL,更快的使用批处理操作
Flink Streaming:流式数据,(开发思路)生产库产生数据一部分发送至kafka、一部分落库,后续Filnk对接kafka中的Topic ,实时对kafka中数据进行去重、清洗、汇总、计算,维度可以存放至redis中。。。
…
消息队列
- Kafka:可理解生产者和消费者之间的数据传递,大数据量发送传递及消费
- MQ:不知道、不了解
数据库(关系型、非关系型)
- Hive:主要面向于(离线)数据仓库使用,内部执行引擎(MapReduce/Spark),读过Hive的朋友应该也知道可以自研一个开发引擎用于Hive查询HDFS数据,Hive的数据是不可修改滴!!!除非做临时表进行整表替换(以后的版本说不准)
- Impala:号称是当前大数据领域最快的查询sql工具,我们在工作中都是使用Hive+Impala做离线数仓。
- Hbases: 典型的NoSQL、分布式存储的数据库,速度够快。
- Kudu:在更新更及时的基础上实现更快的数据分析,个人感觉是在大量数据中做到更快的查询速度。
- Kylin:分布式分析引擎,我们主要用于做OLAP多维数据立方体数据,就类似与Cognos中的动态CUBE。
- ClickHouse:(不基于Hadoop集群,可独立安装)列式数据库,主要用于实时数据仓库,这个也是基于内存的,特点就是快、快、快。
ETL工具
- sqoop 主要是用于关系型数据与分布式数据库的数据抽取任务,类似MYSQL数据抽取至HDFS/Hive.
- waterdrop 此工具是字节跳动开源的,挺强大的,Kakfa->PostgreSQL、ClinkHouse->PostgreSQL、MongoDB->PostgreSQL,PostgreSQL->HDFS等等。我就使用了这么多,其他的功能还需小伙伴继续钻研
- DataX 阿里开发
数据可视化
- DataV 阿里开发
- Davinci 宜信开发
有待更新中。。。。。。
本文地址:https://blog.csdn.net/qq_36712507/article/details/106933379