欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  科技

LearningApacheKafka2ndEdition教程

程序员文章站 2022-05-24 19:05:10
Chap 1 Kafka简介 1.Apache Kafka是一款开源的,分布式的,基于分区、日志提交和订阅推送的消息系统。设计用于: - 持久化消息到硬盘,TB级别 - 高吞吐量,每秒数...

Chap 1 Kafka简介

1.Apache Kafka是一款开源的,分布式的,基于分区、日志提交和订阅推送的消息系统。设计用于:
- 持久化消息到硬盘,TB级别
- 高吞吐量,每秒数百M读写
- 分布式,支持弹性伸缩
- 实时性

Chap 2 搭建Kafka集群

1.Kafka集群支持
- 单节点,单broker
- 单节点,多broker
- 多节点,多broker

2.Kafka组成
- Topic:消息目录名,类似于数据库表名Topic是可以分区的,消息在Topic中有唯一的序列号:offset。
-Broker:运行的一个kafka server进程。Topic在Broker处理进程中创建。
-ZK:充当broker和消费者之间的协调器,记录状态/配置/标记信息等。
-Producers:产生Tpoic中的消息
-Consumers:消费Producers产生的消息

3.一些操作说明
-创建topic时,replication-factor指定副本数,partitions指定分区数目。
-创建生产者时,使用broker-list指定broker列表并指定topic。
-创建消费者时,使用from-beginning指定从头读取并需要指定topic

Chap 3 Kafka设计

1.Kafka设计准则
-topic是逻辑的概念,可以分为多个partition。partition是物理的概念,对应于有序/不可修改的日志文件。新消息写入topic,日志文件会新增记录,并在消息达到配置数量或者超时时写入硬盘。需要注意的是,flushed的消息才能被消费者读取到。
-分区中的消息使用offset唯一记录自己,每个分区可以设置副本用以容错
-分区至少有一个leader负责数据读写,其副本称之为follower。主副本信息存储在ZK中。主本出现问题后,副本会选举变成leader。
-消费者通过消费者组进行管理,对于消费者组订阅的主题,组内的消费者只能有一个消费者进行消费。消费者顺序消费消息并设置当前消息的offset。
-Kafka定义基于时间的消息保存策略,超期后会自动清除消息。
-为了让生产者知道消息是否写入成功,提供获取回执和等待时间的配置。
- 消费者读取消息然后记录处理位置offset,如果读取消息进行处理后,写入位置信息前消费者出现错误,下一个消费者会重复消费该消息。

2.日志压缩:相同key的消息,只保存最新的value,删除key相同的旧数据。Kafka支持的保存策略有:基于时间、基于文件大小和基于日志压缩。基于日志压缩的保存策略:
- 消息的排序始终不变
- 消息有序偏移,offset保持不变
- 从0偏移开始遍历消息,能读取所有key的最新值

3.与其它消息系统不同,消费消息的元数据由consumer发起(保存在ZK中)而不是server。这可能导致:丢失消息和重复消费。所有的broker地位相同,没有master,broker的元数据保存在ZK。生产者发送消息支持同步和异步模式。

4.支持消息压缩,可以将一批消息压缩发送给broker,可以减少网络消耗。0.7版本之前,这批压缩消息会被同一个consumer消费,0.8之后的版本可以根据offset拆分访问。支持的压缩协议:GZIP和Snappy。

5.消息分区策略由生产者决定,broker按照消息到达的顺序存储消息,有几个分区由broker决定。

6.通过复制策略提供容灾,分为leader和fffollower,leader保存follower的列表:ISR(in-sync replicas)。支持的复制策略有:
-同步复制:生产者从ZK获取leader并写入消息,然后leader将消息写到follower并获取回执,全部回执成功后leader提交写入log并给生产者返回响应。此时,消费者便能拉去新写入的消息。
-异步复制:不等待follower回执就写入log,可能由于broker错误而不能保证消息的有效投递。

7.当有follpwer失效时,leader将从ISR列表中将其删除。当follower又回来时,首先重置日志到上次的checkpoint,然后从leader同步数据,同步完成后,leader将其写入到ISR列表中。

当leader出现错误(写入分区日志或者发送回执到生产者之前),消息会重新发送到新leader。优先选择早注册的follower成为leader,然后将其offset设置为集群的offset。其他follower通过注册在ZK的监听器察觉此动作,重置日志到上次checkpoint并向新leader开始同步数据。新leader在等待超时或者所有follower完成同步后将ISR列表写入ZK并承接读写工作。

Chap 4消费者

1.生产者连接任意节点,获取关于当前分区leader的元数据信息,然后将消息写入当前分区。写入时可以通过key并进行hash操作确定写入哪个分区。为了提高效率,支持按照时间或者条数进行批量异步写入,并提供回调函数处理写入错误,用以防止数据丢失。
2.通过实现Partitioner接口来实现分区计算。

Chap 5消费者

1.消费者连接任意节点获取leader分区信息。每个分区只能由订阅该topic的一个消费者消费,消费后会更新offset,然后根据offset由另一个消费者消费其他分区。

2.消费者API分为顶层API和底层API:
- 顶层API:只读取数据,不与broker交互,不需要用户处理offset。内部自动从ZK读取offset并存储最终的offset,offset是基于消费者组进行存储的。同一消费者组,已经有运行的消费者进程,新增消费者进程,会进行reblance,可能造成消息的不确定性,因此,必须停已经运行的消费者进程。
- 底层API:无状态,需要进行broker与消费者进行交互。