欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  IT编程

大数据基础组件初步了解

程序员文章站 2022-06-27 20:45:28
大数据基础组件Hadoop 大数据生态圈HDFS 分布式文件存储系统MapReduce(MR) 基于磁盘计算Spark(RDD) 基于内存计算SparkSQL 一般情况都是基于离线数据处理Spark Streaming一般情况是基于微批(实时)处理Flink 正儿八经的流式计算–消息队列Kafka 可理解生产者和消费者之间的数据传递–数据库Hive 主要面向于(离线)数据仓库使用,内部执行引擎(MapReduce/Spark),读过Hive的朋友应该也知道可以自研一个开发引擎...

Hadoop

  1. HDFS:分布式文件存储系统,大数据环境的基石
  2. MapReduce(MR):基于磁盘计算,主要用于大量数据的批处理计算
  3. Spark(RDD):基于内存计算
    SparkSQL:一般情况都是基于离线数据处理
    Spark Streaming:一般情况是基于微批(实时)处理
  4. Flink 正儿八经的流式计算
    Flink SQL:类似SparkSQL,可以写SQL,更快的使用批处理操作
    Flink Streaming:流式数据,(开发思路)生产库产生数据一部分发送至kafka、一部分落库,后续Filnk对接kafka中的Topic ,实时对kafka中数据进行去重、清洗、汇总、计算,维度可以存放至redis中。。。

消息队列

  1. Kafka:可理解生产者和消费者之间的数据传递,大数据量发送传递及消费
  2. MQ:不知道、不了解

数据库(关系型、非关系型)

  1. Hive:主要面向于(离线)数据仓库使用,内部执行引擎(MapReduce/Spark),读过Hive的朋友应该也知道可以自研一个开发引擎用于Hive查询HDFS数据,Hive的数据是不可修改滴!!!除非做临时表进行整表替换(以后的版本说不准)
  2. Impala:号称是当前大数据领域最快的查询sql工具,我们在工作中都是使用Hive+Impala做离线数仓。
  3. Hbases: 典型的NoSQL、分布式存储的数据库,速度够快。
  4. Kudu:在更新更及时的基础上实现更快的数据分析,个人感觉是在大量数据中做到更快的查询速度。
  5. Kylin:分布式分析引擎,我们主要用于做OLAP多维数据立方体数据,就类似与Cognos中的动态CUBE。
  6. ClickHouse:(不基于Hadoop集群,可独立安装)列式数据库,主要用于实时数据仓库,这个也是基于内存的,特点就是快、快、快。

ETL工具

  1. sqoop 主要是用于关系型数据与分布式数据库的数据抽取任务,类似MYSQL数据抽取至HDFS/Hive.
  2. waterdrop 此工具是字节跳动开源的,挺强大的,Kakfa->PostgreSQL、ClinkHouse->PostgreSQL、MongoDB->PostgreSQL,PostgreSQL->HDFS等等。我就使用了这么多,其他的功能还需小伙伴继续钻研
  3. DataX 阿里开发

数据可视化

  1. DataV 阿里开发
  2. Davinci 宜信开发

有待更新中。。。。。。

本文地址:https://blog.csdn.net/qq_36712507/article/details/106933379

相关标签: Hadoop