Spark 以及 spark streaming 核心原理及实践 - (2)

程序员文章站 2022-03-21 18:33:45

...

Spark Streaming运行原理

spark程序是使用一个spark应用实例一次性对一批历史数据进行处理，spark streaming是将持续不断输入的数据流转换成多个batch分片，使用一批spark应用实例进行处理。

Spark 以及 spark streaming 核心原理及实践 - (2)

博客分类：大数据

从原理上看，把传统的spark批处理程序变成streaming程序，spark需要构建什么？

Spark 以及 spark streaming 核心原理及实践 - (2)

博客分类：大数据

需要构建4个东西：

具体streaming的详细原理可以参考广点通出品的源码解析文章：

对于spark streaming需要注意以下三点：

Spark 以及 spark streaming 核心原理及实践 - (2)

博客分类：大数据

Spark 以及 spark streaming 核心原理及实践 - (2)

博客分类：大数据

Spark 以及 spark streaming 核心原理及实践 - (2)

博客分类：大数据

内存管理：

Spark 以及 spark streaming 核心原理及实践 - (2)

博客分类：大数据

Executor的内存主要分为三块：

第一块是让task执行我们自己编写的代码时使用，默认是占Executor总内存的20%；

第二块是让task通过shuffle过程拉取了上一个stage的task的输出后，进行聚合等操作时使用，默认也是占Executor总内存的20%；

第三块是让RDD持久化时使用，默认占Executor总内存的60%。

每个task以及每个executor占用的内存需要分析一下。每个task处理一个partiiton的数据，分片太少，会造成内存不够。

其他资源配置：

Spark 以及 spark streaming 核心原理及实践 - (2)

博客分类：大数据

具体调优可以参考美团点评出品的调优文章：

spark tdw以及tdbank api文档：

其他学习资料：

https://www.cnblogs.com/liuliliuli2017/p/6809094.html