Flume学习
20.1.28 Flume日志收集 学习
第 1 章 Flume 概述
1.1 Flume 定义
爬虫数据和后台日志数据都是在本地文件系统内的
1.2 Flume 基础架构
第 2 章 Flume 快速入门
2.1 Flume 安装部署
1)将 apache-flume-1.7.0-bin.tar.gz 上传到 linux 的/opt/software 目录下
2)解压 apache-flume-1.7.0-bin.tar.gz 到102的/opt/module/目录下
[atguigu@hadoop102 software]$ tar -zxf apache-flume-1.7.0-bin.tar.gz -C /opt/module/
3) 修改 apache-flume-1.7.0-bin 的名称为 flume
[BW@hadoop102 module]$ mv apache-flume-1.7.0-bin/ flume
4) 将 flume/conf 下的 flume-env.sh.template 文件修改为 flume-env.sh,并配置 flumeenv.sh 文件
[atguigu@hadoop102 conf]$ mv flume-env.sh.template flume-env.sh
[atguigu@hadoop102 conf]$ vi flume-env.sh
export JAVA_HOME=/opt/module/jdk1.8.0_144
至此Flume安装完成
注意 没有分发Flume到103 104 上。
2.2 Flume 入门案例
2.2.1 监控端口数据官方案例
3)实现步骤:
1.在102 103 104安装 netcat 工具
[atguigu@hadoop102 software]$ sudo yum install -y nc
安装了就可以使用netcat工具了 它可以开启一个客户端,也可以开启一个服务端
在102开启服务端:
[BW@hadoop102 flume]$ nc -lk 4444
发现会阻塞:
在103开启客户端:
[BW@hadoop103 module]$ nc hadoop102 4444
相互发消息 都可以收到 所以是利用端口做通信用的
利用 ^C 关闭102服务端,会发现103客户端也被关闭
2.判断 44444 端口是否被占用
[atguigu@hadoop102 flume-telnet]$ sudo netstat -tunlp | grep 44444
3.创建 Flume Agent 配置文件 flume-netcat-logger.conf
在 flume 目录下创建 job 文件夹并进入 job 文件夹:
[atguigu@hadoop102 flume]$ mkdir job
[atguigu@hadoop102 flume]$ cd job/
在 job 文件夹下创建 Flume Agent 配置文件 flume-netcat-logger.conf
[atguigu@hadoop102 job]$ vim flume-netcat-logger.conf
在 flume-netcat-logger.conf 文件中添加如下内容。
添加内容如下:
# Name the components on this agent
a1.sources = r1
a1.sinks = k1
a1.channels = c1
# Describe/configure the source
a1.sources.r1.type = netcat
a1.sources.r1.bind = localhost
a1.sources.r1.port = 44444
# Describe the sink
a1.sinks.k1.type = logger
# Use a channel which buffers events in memory
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100
# Bind the source and sink to the channel
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1
解释:
a1 表示当前agent的名字
sources sinks channels 都是负数 说明可能配置多个组件
r1 k1 c1 分别是命名。
一个sinks只能绑定一个channels(只能有一个channels连接一个sink) 但是一个channels 可以指向连接多个sinks
4. 先开启 flume 监听端口
第一种写法:
[atguigu@hadoop102 flume]$ bin/flume-ng agent --conf conf/ --name a1 --conf-file job/flume-netcat-logger.conf -Dflume.root.logger=INFO,console
第二种写法:
[atguigu@hadoop102 flume]$ bin/flume-ng agent -c conf/ -n a1 -f job/flume-netcat-logger.conf -Dflume.root.logger=INFO,console
相当于开启了一个服务端
5.使用 netcat 工具向本机的 44444 端口发送内容
[atguigu@hadoop102 ~]$ nc localhost 44444
hello
atguigu
在102 上开启客户端:发现阻塞了
然后打印hello
发现日志接收成功:
2.2.2 实时监控单个追加文件
3)实现步骤:
1.Flume 要想将数据输出到 HDFS,须持有 Hadoop 相关 jar 包
P9 1 分钟