kafka

程序员文章站 2023-11-14 09:01:16

Kafka 是LinkedIn 开发的一个高性能、分布式的消息系统. 用途：广泛用于日志收集、流式数据处理、在线和离线消息分发等场景。 Kafka 将消息流按Topic 组织，保存消息的服务器称为Broker，消费者可以订阅一个或者多个Topic。为了均衡负载，一个Topic 的消息又可以划分到多个 ......

kafka 是linkedin 开发的一个高性能、分布式的消息系统.

用途：广泛用于日志收集、流式数据处理、在线和离线消息分发等场景。

kafka 将消息流按topic 组织，保存消息的服务器称为broker，消费者可以订阅一个或者多个topic。为了均衡负载，一个topic 的消息又可以划分到多个分区(partition)，分区越多，kafka并行能力和吞吐量越高。

kafka 集群需要zookeeper 支持来实现集群，最新的kafka 发行包中已经包含了zookeeper，部署的时候可以在一台服务器上同时启动一个zookeeper server 和一个kafka server，也可以使用已有的其他zookeeper集群。

kafka 对比 activemq：

如何保证消息队列的幂等性？

幂等性：一个请求，不管重复来多少次，结果是不会改变的。

在什么场景会出现消息重复消费？

kafka: 比如说消费端已经消费了 offset=2，offset=3，offset=4 的三条数据，正准备把这个 offset 的值传给 kafka，这时候消费端机器宕机了，这个数据没传过去；重启之后，消费端同步 kafka，kafka 那边消费的记录 offset 还是 1，那么 kafka 会认为之前的 2、3、4 都没有消费过，会把这几个数据在传给消费端；这样消费端这边就重复对这几条数据进行消费了。在数据库里面可能就多了很多重复的数据。像其他的 mq，也是一样，消费端再返回给 mq 的时候，当机了或者重启了，那么都会出现重复消费的问题。

每个消息都会有唯一的消息 id。
1）、先查再保存
每次保存数据的时候，都先查一下，如果数据存在了那么就不保存。这个情况是并发不高的情况。

2）、添加消息表

再数据库里面，添加一张消息消费记录表，表字段加上唯一约束条件（unique），消费完之后就往表里插入一条数据。因为加了唯一约束条件，第二次保存的时候，mysql 就会报错，就插入不进去；通过数据库可以限制重复消费。

3）、使用 redis
如果你的系统是分布式的，又做了分库分表，那么可以使用 redis 来做记录，把消息 id 存在 redis 里，下次再有重复消息 id 在消费的时候，如果发现 redis 里面有了就不能进行消费。

4）、高并发下
如果你的系统并发很高，那么可以使用 redis 或者 zookeeper 的分布式对消息 id 加锁，然后使用上面的几个方法进行幂等性控制。

上一篇： .NET MVC后台获得VIEW对应的html

下一篇：解决使用canvas生成含有微信头像的邀请海报没有微信头像

kafka

kafka 对比 activemq：

Kafka 常用命令行详细介绍及整理

kafka cmd首个单机例子配置

kafka

带你涨姿势的认识一下 Kafka

Python通过kerberos安全认证操作kafka方式

Spring Boot集成Kafka的示例代码

Kafka入门宝典（详细截图版）

全网最通俗易懂的Kafka入门！

Linux下Kafka分布式集群安装教程

ELK6.x_Kafka 安装配置文档