欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

Flume学习

程序员文章站 2022-06-14 13:03:26
...

第 1 章 Flume 概述

1.1 Flume 定义

Flume学习
Flume学习
爬虫数据和后台日志数据都是在本地文件系统内的

1.2 Flume 基础架构

Flume学习
Flume学习
Flume学习
Flume学习
Flume学习
Flume学习

第 2 章 Flume 快速入门

2.1 Flume 安装部署

1)将 apache-flume-1.7.0-bin.tar.gz 上传到 linux 的/opt/software 目录下
Flume学习

2)解压 apache-flume-1.7.0-bin.tar.gz 到102的/opt/module/目录下

[atguigu@hadoop102 software]$ tar -zxf apache-flume-1.7.0-bin.tar.gz -C /opt/module/

3) 修改 apache-flume-1.7.0-bin 的名称为 flume

[BW@hadoop102 module]$ mv apache-flume-1.7.0-bin/ flume

4) 将 flume/conf 下的 flume-env.sh.template 文件修改为 flume-env.sh,并配置 flumeenv.sh 文件

[atguigu@hadoop102 conf]$ mv flume-env.sh.template flume-env.sh
[atguigu@hadoop102 conf]$ vi flume-env.sh
export JAVA_HOME=/opt/module/jdk1.8.0_144

Flume学习
至此Flume安装完成
注意 没有分发Flume到103 104 上。

2.2 Flume 入门案例

2.2.1 监控端口数据官方案例

Flume学习
Flume学习
3)实现步骤:

1.在102 103 104安装 netcat 工具

[atguigu@hadoop102 software]$ sudo yum install -y nc

Flume学习
安装了就可以使用netcat工具了 它可以开启一个客户端,也可以开启一个服务端

在102开启服务端:

[BW@hadoop102 flume]$ nc -lk 4444

发现会阻塞:
Flume学习
在103开启客户端:

[BW@hadoop103 module]$ nc hadoop102 4444

相互发消息 都可以收到 所以是利用端口做通信用的

Flume学习
Flume学习
利用 ^C 关闭102服务端,会发现103客户端也被关闭

2.判断 44444 端口是否被占用

[atguigu@hadoop102 flume-telnet]$ sudo netstat -tunlp | grep 44444

3.创建 Flume Agent 配置文件 flume-netcat-logger.conf
在 flume 目录下创建 job 文件夹并进入 job 文件夹:

[atguigu@hadoop102 flume]$ mkdir job
[atguigu@hadoop102 flume]$ cd job/

Flume学习
在 job 文件夹下创建 Flume Agent 配置文件 flume-netcat-logger.conf

[atguigu@hadoop102 job]$ vim flume-netcat-logger.conf

在 flume-netcat-logger.conf 文件中添加如下内容。

添加内容如下:
# Name the components on this agent
a1.sources = r1
a1.sinks = k1
a1.channels = c1

# Describe/configure the source
a1.sources.r1.type = netcat
a1.sources.r1.bind = localhost
a1.sources.r1.port = 44444

# Describe the sink
a1.sinks.k1.type = logger

# Use a channel which buffers events in memory
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100

# Bind the source and sink to the channel
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

解释:
Flume学习
a1 表示当前agent的名字
sources sinks channels 都是负数 说明可能配置多个组件
r1 k1 c1 分别是命名。
Flume学习
Flume学习
Flume学习
Flume学习
一个sinks只能绑定一个channels(只能有一个channels连接一个sink) 但是一个channels 可以指向连接多个sinks
Flume学习
4. 先开启 flume 监听端口
第一种写法:

[atguigu@hadoop102 flume]$ bin/flume-ng agent --conf conf/ --name a1 --conf-file job/flume-netcat-logger.conf -Dflume.root.logger=INFO,console

第二种写法:

[atguigu@hadoop102 flume]$ bin/flume-ng agent -c conf/ -n a1 -f job/flume-netcat-logger.conf -Dflume.root.logger=INFO,console

Flume学习

Flume学习
相当于开启了一个服务端

5.使用 netcat 工具向本机的 44444 端口发送内容

[atguigu@hadoop102 ~]$ nc localhost 44444
hello
atguigu

在102 上开启客户端:发现阻塞了
Flume学习
然后打印hello
Flume学习
发现日志接收成功:
Flume学习

2.2.2 实时监控单个追加文件

Flume学习
Flume学习
3)实现步骤:

1.Flume 要想将数据输出到 HDFS,须持有 Hadoop 相关 jar 包

P9 1 分钟