欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  IT编程

kafka

程序员文章站 2022-05-31 22:37:58
Kafka 是LinkedIn 开发的一个高性能、分布式的消息系统. 用途:广泛用于日志收集、流式数据处理、在线和离线消息分发等场景。 Kafka 将消息流按Topic 组织,保存消息的服务器称为Broker,消费者可以订阅一个或者多个Topic。为了均衡负载,一个Topic 的消息又可以划分到多个 ......

kafka 是linkedin 开发的一个高性能、分布式的消息系统.

用途:广泛用于日志收集、流式数据处理、在线和离线消息分发等场景。

 

kafka 将消息流按topic 组织,保存消息的服务器称为broker,消费者可以订阅一个或者多个topic。为了均衡负载,一个topic 的消息又可以划分到多个分区(partition),分区越多,kafka并行能力和吞吐量越高。

 

kafka 集群需要zookeeper 支持来实现集群,最新的kafka 发行包中已经包含了zookeeper,部署的时候可以在一台服务器上同时启动一个zookeeper server 和 一个kafka server,也可以使用已有的其他zookeeper集群。

 

kafka 对比 activemq:

 

如何保证消息队列的幂等性?

幂等性:一个请求,不管重复来多少次,结果是不会改变的。

在什么场景会出现消息重复消费?

kafka: 比如说消费端已经消费了 offset=2,offset=3,offset=4 的三条数据,正准备把这个 offset 的值传给 kafka,这时候消费端机器宕机了,这个数据没传过去;重启之后,消费端同步 kafka,kafka 那边消费的记录 offset 还是 1,那么 kafka 会认为之前的 2、3、4 都没有消费过,会把这几个数据在传给消费端;这样消费端这边就重复对这几条数据进行消费了。在数据库里面可能就多了很多重复的数据。像其他的 mq,也是一样,消费端再返回给 mq 的时候,当机了或者重启了,那么都会出现重复消费的问题。

每个消息都会有唯一的消息 id。
1)、先查再保存
每次保存数据的时候,都先查一下,如果数据存在了那么就不保存。这个情况是并发不高的情况。

2)、添加消息表

再数据库里面,添加一张消息消费记录表,表字段加上唯一约束条件(unique),消费完之后就往表里插入一条数据。因为加了唯一约束条件,第二次保存的时候,mysql 就会报错,就插入不进去;通过数据库可以限制重复消费。

3)、使用 redis
如果你的系统是分布式的,又做了分库分表,那么可以使用 redis 来做记录,把消息 id 存在 redis 里,下次再有重复消息 id 在消费的时候,如果发现 redis 里面有了就不能进行消费。

4)、高并发下
如果你的系统并发很高,那么可以使用 redis 或者 zookeeper 的分布式对消息 id 加锁,然后使用上面的几个方法进行幂等性控制。