欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

SparkStreaming的学习(一)

程序员文章站 2022-03-05 10:17:05
...

SparkStreaming

1.DStream
1.离散化流,与SPark的RDD相似,都是一种数据抽象。
2.DStream是随时间推移而收到的数据的序列
3.DStream是由多个RDD组成的序列
2.架构(微批次)

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-DK7YgE5J-1583249126129)(C:\Users\孙拾柒\AppData\Roaming\Typora\typora-user-images\1581754873002.png)]

3.转化操作
无状态:每个批次的处理不依赖于之前的批次的数据
有状态:需要使用之前批次的数据或是中间结果来计算当前批次的数据 操作包括基于滑动窗口的转化操作和
追踪状态变化的转化操作  需要打开检查点机制确保容错性

基于窗口的转换操作:
需要窗口时长和滑动步长,两者必须是StreamContext的批次间隔的整数倍。
4.SparkStreaming整合Flume
Spark提供两个不同的接收器使用Flume
	推式接收器
	拉式接收器

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-RNCMrn1C-1583249126130)(C:\Users\孙拾柒\AppData\Roaming\Typora\typora-user-images\1581755805595.png)]

5.检查点机制
1.它可以使SparkStreaming阶段性的把应用数据存储到hdfs等可靠的存储系统中
目的:
1.控制发生失败时需要重算的状态数
2.提供驱动程序容错
6.性能调优
调优方向
- 每个批次的处理时间尽可能短
	1.增加数据接受的并发量,然后进行union合并
	2.数据处理的并发度
	3.数据序列化
- 收到数据后,尽可能的处理  设置合理批次的间隔时间
相关标签: 大数据 大数据