Flink 实战:如何解决生产环境中的技术难题? 阿里巴巴算法英特尔
程序员文章站
2022-05-30 11:10:55
...
大数据作为未来技术的基石已成为国家基础性战略资源,挖掘数据无穷潜力,将算力推至极致是整个社会面临的挑战与难题。
Apache Flink 作为业界公认为最好的流计算引擎,不仅仅局限于做流处理,而是一套兼具流、批、机器学习等多种计算功能的大数据引擎,以其高吞吐低延时的优异实时计算能力、支持海量数据的亚秒级快速响应帮助企业和开发者实现数据算力升级,并成为阿里、腾讯、滴滴、美团、字节跳动、Netflix、Lyft 等国内外知名公司建设实时计算平台的首选。
![FFA_](https://yqfile.alicdn.com/7230d62f35ba347d3269537445b62bb3860f4975.jpeg)
更好的释放 Flink 的强大算力,需要解决哪些问题?如何进行技术选型?针对业务的特点如何进行相应改进? 实践过程中需要规避哪些坑?
11 月 28-30日,Flink Forward Asia 重磅开启!由来自阿里巴巴及 Ververica 的 19 位 Flink 技术专家们倾力打造的四门培训课程,针对不同阶段、不同学习需求提供技术支持,赋能一线开发者,是小白同学也适合深度学习课程。
培训仅剩的少量名额开放预约中,详情可加微信(ID:candy1764)咨询,从基础概念的准确理解到上手实操的精准熟练,四门线下实战课程,帮你从容应对生产环境中的技术难题。最后一周,不容错过!
参与培训课程你能收获什么?
-------------
1. 你将准确了解分布式数据流、事件时间和状态等核心概念以及在 API 中的体现,并学习如何将这些概念组合在一起来解决实际问题。
2. 你能充分学习 Flink 应用程序的部署和操作相关的实践性介绍、Flink 运行中涉及的核心概念,以及用于部署、升级和监控 Flink 应用程序的主要工具。
3. 你将知道如何更好的发挥用 SQL 编写 Flink 作业的潜力,现场研究流式 SQL 的不同案例,包括连接流数据、维表关联、窗口聚合、维护物化视图,以及使用 MATCH RECOGNIZE 子句进行模式匹配等。
4. 你能够提前了解流计算作业从早期 PoC 阶段慢慢过渡到生产过程中最常见的挑战,并为大家提供超实用的故障诊断工具集,还将介绍例如监控、水印、序列化、状态后端等领域的最佳实践和技巧,帮助你从 Flink 小白成长为 Flink 技术专家。
重要提示:该培训项目由四个实践和教学环节组成,于 11 月 29 日 下午- 30 日全天(共计 1.5天)同时进行,旨在帮助您提升流处理的编程能力和对 Apache Flink 技能学习。
中阶一:Apache Flink 开发人员培训
### 课程介绍
#### 课程时长:1.5 天
#### 课程目标:
1. 本课程是对想要学习构建流应用程序的 Java 和 Scala 开发人员进行的关于 Apache Flink 的实践介绍。
2. 培训将重点介绍分布式数据流、事件时间和状态等核心概念。
3. 这些练习将使您有机会了解这些概念在 API 中是如何被体现的,并了解如何将这些概念组合在一起来解决实际问题。
Tips:本课程为纯英文授课,同时配有中文技术专家支持解答问题。
**讲师介绍:**
**主讲:**
David:负责 Ververica 培训,Data Science Retreat 的老师和导师,建立了大数据工程课程并且带领团队构建了分析管道,推荐系统和可视化产品等。
**协助:**
* Qinjun:Ververica 解决方案架构师,因斯布鲁克大学博士,专注于分布式计算和系统架构。
* 戴资力(Gordon):Apache Flink PMC,Ververica Software Engineer,主要负责 Flink 的系统开发。
* 宋辛童(五藏):阿里巴巴高级开发工程师,主要负责 Apache Flink 及阿里云实时计算中资源调度与管理机制的研发工作。
#### 课程目录:
* 介绍流计算和 Apache Flink
* DataStream API 的基础
* 为 Flink 开发做准备(包括练习)
* 有状态的流处理(包括练习)
* 时间、定时器和 ProcessFunction(包括练习)
* 连接多个流(包括练习)
* 测试(包括练习)
说明:不需要 Apache Flink 的相关知识。
中阶二:Apache Flink 运维培训
---------------------
### 课程介绍
#### 课程时长:1.5 天
#### 课程目标:
1. 本课程是针对 Apache Flink 应用程序的部署和操作相关的实践性介绍。
2. 目标受众包括负责部署 Flink 应用程序和维护 Flink 集群的开发人员和运维人员。
3. 演示将重点介绍 Flink 运行中涉及的核心概念,以及用于部署、升级和监控 Flink 应用程序的主要工具。
#### 讲师介绍:
**主讲:**
* 徐帅(辅机):阿里巴巴实时计算平台高级专家,目前负责 Flink CEP 引擎及部分 Runtime 模块。
* 高赟(云骞):阿里巴巴技术专家,主要从事 Flink Runtime 层的设计与研发。
* 朱翥(长耕):阿里巴巴技术专家,主要负责阿里云实时计算的调度和容错相关的工作。
#### 协助:
* 沙晟阳(成阳):阿里巴巴技术专家,目前主要关注 K8s 生态下的 Flink 研发。
* 赵开兴(纯庚):阿里巴巴技术专家,对 Flink 和阿里云实时计算产品的技术特点、应用场景、应用过程可能遇到的问题有丰富的经验和理解。
#### 课程目录:
* 介绍流计算和 Apache Flink
* 数据中心里的 Flink
* 分布式架构介绍
* 容器化部署(包括实际操作)
* 状态后端和容错(包括实际操作)
* 升级和状态迁移(包括实际操作)
* 指标(包括实践)
* 容量规划
说明:不需要对 Apache Flink 有先验知识。
中阶三:SQL 开发人员培训
--------------
### 课程介绍
#### 课程时长:1.5 天
#### 课程目标:
* 您将学习到如何充分发挥使用 SQL 来编写 Apache Flink 作业的潜力。
* 我们将研究流式 SQL 的不同案例,包括连接流数据、维表关联、窗口聚合、维护物化视图,以及使用 MATCH RECOGNIZE 子句进行模式匹配(这是 SQL 2016 新提出的标准)。
#### 讲师介绍:
**主讲:**
* 伍翀(云邪):Apache Flink PMC,阿里巴巴技术专家,Flink/Blink SQL 模块的核心开发之一。目前主要专注于分布式处理和实时计算。
* 李锐:Apache Hive PMC,阿里巴巴技术专家,主要参与 Hive、HDFS、Spark 等开源项目。
* 程鹤群(军长):阿里巴巴技术专家,核心参与 Flink Table API 相关的研发。
* 陈玉兆(玉兆):Apache Calcite PMC,阿里巴巴高级工程师,参与 Flink 相关的研发。
**协助:**
* 张冉,主要协助阿里巴巴集团内部及广大外部用户使用实时计算产品上的疑难杂症,致力于优化实时计算产品。
#### 课程目录:
* 介绍 SQL on Flink
* 使用 SQL 查询动态表
* 连接动态表
* 模式匹配与 match\_recognition
* 生态系统&写外部表
说明:不需要 Apache Flink 的先验知识,但是需要基本的 SQL 知识。
高阶:Apache Flink 调优和问题排查
-----------------------
### 课程介绍
#### 课程时长:1.5 天
#### 课程目标:
1. 介绍将流计算作业从早期 PoC 阶段慢慢过渡到生产过程中最常见的挑战,并且帮助大家一起消除它。
2. 提供有用的故障诊断工具集,并介绍例如监控、水印、序列化、状态后端等领域的最佳实践和技巧。
3. 有机会使用新学习到的知识来解决一些异常 Flink 作业表现出来的问题。
4. 归纳那些使作业没有进展或吞吐量没有达到预期,或作业延迟的常见原因。
#### 讲师介绍:
**主讲:**
* 唐云(茶干):阿里巴巴高级研发工程师,长期从事 Flink state & Checkpoint 相关研发,目前也积极参与 Flink on K8s 相关软件化输出开发和社区开发推广工作。
* 邱从贤(山智):阿里巴巴高级研发工程师,专注于 Flink 核心引擎开发,主要从事 Flink State&Checkpoint 相关研发工作。
* 周凯波(宝牛): 阿里巴巴技术专家,专注于基于Flink的一站式计算平台的建设。
**协助:**
* 何健超(迟南):阿里巴巴技术专家,专注于基于 Flink 的新一代实时计算平台的建设。
* 方舒:参与阿里巴巴实时计算产品服务,为集团内部及广大外部用户使用实时计算提供技术支持及产品方案的优化。
#### 课程目录:
* 时间和水印
* 状态处理和状态后端
* Flink 的容错机制
* 检查点和保存点
[原文链接](https://yq.aliyun.com/articles/727785?utm_content=g_1000090284)
本文为云栖社区原创内容,未经允许不得转载。
Apache Flink 作为业界公认为最好的流计算引擎,不仅仅局限于做流处理,而是一套兼具流、批、机器学习等多种计算功能的大数据引擎,以其高吞吐低延时的优异实时计算能力、支持海量数据的亚秒级快速响应帮助企业和开发者实现数据算力升级,并成为阿里、腾讯、滴滴、美团、字节跳动、Netflix、Lyft 等国内外知名公司建设实时计算平台的首选。
![FFA_](https://yqfile.alicdn.com/7230d62f35ba347d3269537445b62bb3860f4975.jpeg)
更好的释放 Flink 的强大算力,需要解决哪些问题?如何进行技术选型?针对业务的特点如何进行相应改进? 实践过程中需要规避哪些坑?
11 月 28-30日,Flink Forward Asia 重磅开启!由来自阿里巴巴及 Ververica 的 19 位 Flink 技术专家们倾力打造的四门培训课程,针对不同阶段、不同学习需求提供技术支持,赋能一线开发者,是小白同学也适合深度学习课程。
培训仅剩的少量名额开放预约中,详情可加微信(ID:candy1764)咨询,从基础概念的准确理解到上手实操的精准熟练,四门线下实战课程,帮你从容应对生产环境中的技术难题。最后一周,不容错过!
参与培训课程你能收获什么?
-------------
1. 你将准确了解分布式数据流、事件时间和状态等核心概念以及在 API 中的体现,并学习如何将这些概念组合在一起来解决实际问题。
2. 你能充分学习 Flink 应用程序的部署和操作相关的实践性介绍、Flink 运行中涉及的核心概念,以及用于部署、升级和监控 Flink 应用程序的主要工具。
3. 你将知道如何更好的发挥用 SQL 编写 Flink 作业的潜力,现场研究流式 SQL 的不同案例,包括连接流数据、维表关联、窗口聚合、维护物化视图,以及使用 MATCH RECOGNIZE 子句进行模式匹配等。
4. 你能够提前了解流计算作业从早期 PoC 阶段慢慢过渡到生产过程中最常见的挑战,并为大家提供超实用的故障诊断工具集,还将介绍例如监控、水印、序列化、状态后端等领域的最佳实践和技巧,帮助你从 Flink 小白成长为 Flink 技术专家。
重要提示:该培训项目由四个实践和教学环节组成,于 11 月 29 日 下午- 30 日全天(共计 1.5天)同时进行,旨在帮助您提升流处理的编程能力和对 Apache Flink 技能学习。
中阶一:Apache Flink 开发人员培训
### 课程介绍
#### 课程时长:1.5 天
#### 课程目标:
1. 本课程是对想要学习构建流应用程序的 Java 和 Scala 开发人员进行的关于 Apache Flink 的实践介绍。
2. 培训将重点介绍分布式数据流、事件时间和状态等核心概念。
3. 这些练习将使您有机会了解这些概念在 API 中是如何被体现的,并了解如何将这些概念组合在一起来解决实际问题。
Tips:本课程为纯英文授课,同时配有中文技术专家支持解答问题。
**讲师介绍:**
**主讲:**
David:负责 Ververica 培训,Data Science Retreat 的老师和导师,建立了大数据工程课程并且带领团队构建了分析管道,推荐系统和可视化产品等。
**协助:**
* Qinjun:Ververica 解决方案架构师,因斯布鲁克大学博士,专注于分布式计算和系统架构。
* 戴资力(Gordon):Apache Flink PMC,Ververica Software Engineer,主要负责 Flink 的系统开发。
* 宋辛童(五藏):阿里巴巴高级开发工程师,主要负责 Apache Flink 及阿里云实时计算中资源调度与管理机制的研发工作。
#### 课程目录:
* 介绍流计算和 Apache Flink
* DataStream API 的基础
* 为 Flink 开发做准备(包括练习)
* 有状态的流处理(包括练习)
* 时间、定时器和 ProcessFunction(包括练习)
* 连接多个流(包括练习)
* 测试(包括练习)
说明:不需要 Apache Flink 的相关知识。
中阶二:Apache Flink 运维培训
---------------------
### 课程介绍
#### 课程时长:1.5 天
#### 课程目标:
1. 本课程是针对 Apache Flink 应用程序的部署和操作相关的实践性介绍。
2. 目标受众包括负责部署 Flink 应用程序和维护 Flink 集群的开发人员和运维人员。
3. 演示将重点介绍 Flink 运行中涉及的核心概念,以及用于部署、升级和监控 Flink 应用程序的主要工具。
#### 讲师介绍:
**主讲:**
* 徐帅(辅机):阿里巴巴实时计算平台高级专家,目前负责 Flink CEP 引擎及部分 Runtime 模块。
* 高赟(云骞):阿里巴巴技术专家,主要从事 Flink Runtime 层的设计与研发。
* 朱翥(长耕):阿里巴巴技术专家,主要负责阿里云实时计算的调度和容错相关的工作。
#### 协助:
* 沙晟阳(成阳):阿里巴巴技术专家,目前主要关注 K8s 生态下的 Flink 研发。
* 赵开兴(纯庚):阿里巴巴技术专家,对 Flink 和阿里云实时计算产品的技术特点、应用场景、应用过程可能遇到的问题有丰富的经验和理解。
#### 课程目录:
* 介绍流计算和 Apache Flink
* 数据中心里的 Flink
* 分布式架构介绍
* 容器化部署(包括实际操作)
* 状态后端和容错(包括实际操作)
* 升级和状态迁移(包括实际操作)
* 指标(包括实践)
* 容量规划
说明:不需要对 Apache Flink 有先验知识。
中阶三:SQL 开发人员培训
--------------
### 课程介绍
#### 课程时长:1.5 天
#### 课程目标:
* 您将学习到如何充分发挥使用 SQL 来编写 Apache Flink 作业的潜力。
* 我们将研究流式 SQL 的不同案例,包括连接流数据、维表关联、窗口聚合、维护物化视图,以及使用 MATCH RECOGNIZE 子句进行模式匹配(这是 SQL 2016 新提出的标准)。
#### 讲师介绍:
**主讲:**
* 伍翀(云邪):Apache Flink PMC,阿里巴巴技术专家,Flink/Blink SQL 模块的核心开发之一。目前主要专注于分布式处理和实时计算。
* 李锐:Apache Hive PMC,阿里巴巴技术专家,主要参与 Hive、HDFS、Spark 等开源项目。
* 程鹤群(军长):阿里巴巴技术专家,核心参与 Flink Table API 相关的研发。
* 陈玉兆(玉兆):Apache Calcite PMC,阿里巴巴高级工程师,参与 Flink 相关的研发。
**协助:**
* 张冉,主要协助阿里巴巴集团内部及广大外部用户使用实时计算产品上的疑难杂症,致力于优化实时计算产品。
#### 课程目录:
* 介绍 SQL on Flink
* 使用 SQL 查询动态表
* 连接动态表
* 模式匹配与 match\_recognition
* 生态系统&写外部表
说明:不需要 Apache Flink 的先验知识,但是需要基本的 SQL 知识。
高阶:Apache Flink 调优和问题排查
-----------------------
### 课程介绍
#### 课程时长:1.5 天
#### 课程目标:
1. 介绍将流计算作业从早期 PoC 阶段慢慢过渡到生产过程中最常见的挑战,并且帮助大家一起消除它。
2. 提供有用的故障诊断工具集,并介绍例如监控、水印、序列化、状态后端等领域的最佳实践和技巧。
3. 有机会使用新学习到的知识来解决一些异常 Flink 作业表现出来的问题。
4. 归纳那些使作业没有进展或吞吐量没有达到预期,或作业延迟的常见原因。
#### 讲师介绍:
**主讲:**
* 唐云(茶干):阿里巴巴高级研发工程师,长期从事 Flink state & Checkpoint 相关研发,目前也积极参与 Flink on K8s 相关软件化输出开发和社区开发推广工作。
* 邱从贤(山智):阿里巴巴高级研发工程师,专注于 Flink 核心引擎开发,主要从事 Flink State&Checkpoint 相关研发工作。
* 周凯波(宝牛): 阿里巴巴技术专家,专注于基于Flink的一站式计算平台的建设。
**协助:**
* 何健超(迟南):阿里巴巴技术专家,专注于基于 Flink 的新一代实时计算平台的建设。
* 方舒:参与阿里巴巴实时计算产品服务,为集团内部及广大外部用户使用实时计算提供技术支持及产品方案的优化。
#### 课程目录:
* 时间和水印
* 状态处理和状态后端
* Flink 的容错机制
* 检查点和保存点
[原文链接](https://yq.aliyun.com/articles/727785?utm_content=g_1000090284)
本文为云栖社区原创内容,未经允许不得转载。