欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

kafka windows环境的搭建之路

程序员文章站 2022-06-18 18:55:37
...

简介:kafka是一个分布式的、可分区的、可复制的消息系统,它常常用于处理日志信息,是Apache下的一个开源项目(觉得Apache简直太牛逼了。。)

 

(一)基本的消息术语:

    Kafka将消息以topic为单位进行归纳。

  将向Kafka topic发布消息的程序成为producers.

  将预订topics并消费消息的程序成为consumer.

  Kafka以集群的方式运行,可以由一个或多个服务组成,每个服务叫做一个broker.

    topic及分区:一个topic是对一组消息的归纳。对每个topic,Kafka 对它的日志进行了分区。每个分区都由一系列有序的、不可变的消息组成,这些消息被连续的追加到分区中。

分区中的每个消息都有一个连续的序列号叫做offset,用来在分区中唯一的标识这个消息。

    分布式:每个分区在Kafka集群的若干服务中都有副本,这样这些持有副本的服务可以共同处理数据和请求,副本数量是可以配置的。副本使Kafka具备了容错能力。

每个分区都由一个服务器作为“leader”,零或若干服务器作为“followers”,leader负责处理消息的读和写,followers则去复制leader.如果leader down了,followers中的一台则会自动成为leader。

集群中的每个服务都会同时扮演两个角色:作为它所持有的一部分分区的leader,同时作为其他分区的followers,这样集群就会据有较好的负载均衡。

    producers通过网络将消息发送到Kafka集群,集群向消费者提供消息。如图:


kafka windows环境的搭建之路
            
    
    博客分类: kafka kafkazookeeperwindows环境搭建修改配置 
 

    zookeeper在kafak中的作用是用来做软负载均衡的。

客户端和服务端通过TCP协议通信。Kafka提供了Java客户端,并且对多种语言都提供了支持。

 

(二)Producer & Consumer

Producer将消息发布到它指定的topic中,并负责决定发布到哪个分区。通常简单的由负载均衡机制随机选择分区,但也可以通过特定的分区函数选择分区。使用的更多的是第二种。

发布消息通常有两种模式:队列模式(queuing)和发布-订阅模式(publish-subscribe)。队列模式中,consumers可以同时从服务端读取消息,每个消息只被其中一个consumer读到;发布-订阅模式中消息被广播到所有的consumer中。

Consumers可以加入一个consumer 组,共同竞争一个topic,topic中的消息将被分发到组中的一个成员中。同一组中的consumer可以在不同的程序中,也可以在不同的机器上。如果所有的consumer都在一个组中,这就成为了传统的队列模式,在各consumer中实现负载均衡。

如果所有的consumer都不在不同的组中,这就成为了发布-订阅模式,所有的消息都被分发到所有的consumer中。

更常见的是,每个topic都有若干数量的consumer组,每个组都是一个逻辑上的“订阅者”,为了容错和更好的稳定性,每个组由若干consumer组成。这其实就是一个发布-订阅模式,只不过订阅者是个组而不是单个consumer。

 

(三)kafak windows环境搭建

好吧,搭建kafka windows还是花费了一番功夫的,网络上关于kafak windows的配置文章不多,即使参照网络上的文章,也是失败N多次。。后来在F哥的帮助下,终于弄好了,再次衷心向他表示感谢。

 

step1:前往Kafak官网下载页面http://kafka.apache.org/downloads.html下载kafak压缩包(注意下载的kafak版本不要是kafka-xx-src.tgz的哦),这里我下载的版本为

kafka_2.9.2-0.8.1.tgz,下载完毕之后解压。

 

step2: 下载完毕之后需要检查config目录下几个配置文件:

1)producer.proerties:metadata.broker.list 如果你配置了集群,这里要加上多个broker节点,每个节点用,隔开。形如:localhost:9092, ip2:9093, ip3:9092(broker节点在

不同机器上)或者ip:9092, ip:9093, ip:9094(broker节点在同一机器不同端口)

 

2)server.properties:log.dirs 指定kafka服务端启动后日志存放的目录。一般下载下来之后,log.dirs=/tmp/kafka-logs,如果你不修改,启动kafak-server-start.bat的话很容易

报关于Log4j的错的。建议在kafka解压后的根目录下,创建一个tmp的目录,下面可以有kafka-logs和zookeeper两个目录分别存放kafka和zookeeper的日志;

检查zookeeper.connect的路径是否是本地路径

 

3)同理(2),检查zookeeper.properties的dataDir(解压后默认为/tmp/zookeeper),可以修改成2)里面tmp下的zookeeper目录

 

step3:修改bin/windows下面的kafak-run-class.bat文件,这个文件也是最容易导致kafak启动出错的地方!

修改set ivyPath对应的路径要指向你解压后libs的路径,如E:\kafka_2.9.2-0.8.1\libs,不然也超级容易报错!

依次检查下面几个set  call的代码,形如:

 

 

set snappy=%ivyPath%\snappy-java-1.0.5.jar
call :concat %snappy%

 因为可能他set xxx = %ivyPath%\yyy.jar ,但你下载后的libs目录下的jar包不一定有yyy.jar,如果是这样,把你libs下面不存在的jar包,但该.bat文件里又set的jar包的代码删除即可!

 

继续检查

 

IF ["%KAFKA_OPTS%"] EQU [""] (
	set KAFKA_OPTS=-Xmx512M -server -Dlog4j.configuration=file:"%BASE_DIR%\config\log4j.properties"
)

 看KAFKA_OPTS指定的路径是否正确,建议手动修改成config下面log4j.properties的路径

 

 

step4:检查config/log4j.properties文件,kafka.logs.dir= 看看指定的路径在你本地是否存在,建议修改成你本地的日志文件目录。

 

step5:几个主要的配置文件修改完毕之后。不妨把config下面的server.properties和zookeeper.properties拷贝到bin/windows/下面。然后在bin/windows下建立2个.bat文件分别用于

启动zookeeper和kafka。内容如下:

zookeeper-start.bat:

 

zookeeper-server-start.bat zookeeper.properties

 kafka-start.bat

 

 

kafak-server-start.bat server.properties

 

 

以上,windows操作系统下kafka的环境搭建就准备了。想要启动kafka,即可先运行zookeeper-start.bat文件,再运行kafka-start.bat文件。

 

说下在搭建kafak的windwos运行环境出现的异常:

Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/zookeeper/

server/quorum/QuorumPeerMain

Caused by: java.lang.ClassNotFoundException: org.apache.zookeeper.server.quorum.

QuorumPeerMain

        at java.net.URLClassLoader$1.run(URLClassLoader.java:202)

        at java.security.AccessController.doPrivileged(Native Method)

        at java.net.URLClassLoader.findClass(URLClassLoader.java:190)

        at java.lang.ClassLoader.loadClass(ClassLoader.java:306)

        at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:301)

        at java.lang.ClassLoader.loadClass(ClassLoader.java:247)

Could not find the main class: org.apache.zookeeper.server.quorum.QuorumPeerMain

.  Program will exit.

这个就是因为你拿到一个从官网上下载下来的kafak压缩包解压之后,未做任何配置文件以及.bat文件的修改所造成的错误之一。

 

(四)需要注意的几点:

1)kafka之所以开源,就意味着你download一个版本之后,如果启动报错,必须打开响应的.bat文件,看看是哪里报的错。最有可能的就是一些配置未做修改,并不是下载完之后就万事大吉了;

2).bat文件是windows环境下类似Linux操作系统的Shell脚本,是可执行文件。想看看里面定义的变量,要学会echo(回显) %变量名% 的命令,pause(打断点)命令的使用!

3)启动kafka之前必须先启动zookeeper,但是这不意味着你必须单独再开启一个zookeepr,因为查看zookeeper.bat你会发现:

kafka-run-class.bat org.apache.zookeeper.server.quorum.QuorumPeerMain %*

而再查看kafka-run-class.bat 又会发现:

 

set zookeeper=%ivyPath%\zookeeper-3.3.4.jar
	call :concat %zookeeper%

 这说明,kafka对于zookeeper的支持是在libs目录下有一个zookeeper-xx.jar包的。

 

  • kafka windows环境的搭建之路
            
    
    博客分类: kafka kafkazookeeperwindows环境搭建修改配置 
  • 大小: 8.5 KB