大数据--Flink入门
程序员文章站
2022-03-01 22:01:33
官网:https://flink.apache.orgApache Flink = 数据流上有状态的计算简化流程:既可以做批处理,也可以做流处理Flink提供什么能力:Flink业务场景:Flink基础组件栈Flink基础架构图Flink基础语义状态状态和流式计算如何关联1,无状态的流式计算2,有状态的流式计算分布式时间(time)API状态容错...
目录
官网:https://flink.apache.org
Apache Flink = 数据流上有状态的计算
简化流程:
既可以做批处理,也可以做流处理
Flink提供什么能力:
Flink业务场景:
Flink基础组件栈
Flink基础架构图
Flink基础语义
状态
状态和流式计算如何关联
1,无状态的流式计算
2,有状态的流式计算
分布式
时间(time)
API
状态容错
分布式环境下的容错
每个任务都有自己的状态,便于恢复,将所有需要的状态保存到一个DFS
何时上传保存:checkpoint
JM发起一次checkpoint
checkpoint会跟着拓扑图走,并记录一些东西
到达最后sink算子的时候,它需要完成一张图
如果有计算节点算子挂掉了,我们只需提取相应节点的之前状态恢复一下即可。
状态维护
状态的保存和转移
引入savepoint(checkpoin的特例)概念,将算子状态快照持久化存储便于转移之后继续使用,另外还有数据对齐。
本文地址:https://blog.csdn.net/weixin_40959890/article/details/110478558
上一篇: Zabbix实战--监控Nginx
下一篇: 服务端与多客户端的通信案例(思路与实现)