Spark Streaming实时流处理项目实战笔记—— Flume实战案例（一）

程序员文章站 2022-03-14 14:14:02

...

实时流处理概述：数据量大时效性高

需求：使用分布式日志收集框架Flume，从指定网络端口采集数据输出到控制台

环境参数

scala 2.11.8

官网

【地址】http://flume.apache.org/FlumeUserGuide.html

Spark Streaming实时流处理项目实战笔记—— Flume实战案例（一）

【配置文件截图】

# example.conf: A single-node Flume configuration

# Name the components on this agent
a1.sources = r1
a1.sinks = k1
a1.channels = c1

# Describe/configure the source
a1.sources.r1.type = netcat
a1.sources.r1.bind = localhost
a1.sources.r1.port = 44444

# Describe the sink
a1.sinks.k1.type = logger

# Use a channel which buffers events in memory
a1.channels.c1.type = memory
a1.channels.c1.capacity = 1000
a1.channels.c1.transactionCapacity = 100

# Bind the source and sink to the channel
a1.sources.r1.channels = c1
a1.sinks.k1.channel = c1

配置文件解析

agent 代理人 source 来源 sink 下沉 channel 通道

启动Flume

flume-ng agent --name a1 --conf $FLUME_HOME/conf --conf-file $FLUME_HOME/conf/flume.conf -Dflume.root.logger=INFO,console
【参数解析】

指定代理 name conf文件位置 conf 文件打印到控制台

用另一个控制台使用命令 telnet hadoop 44444

Spark Streaming实时流处理项目实战笔记—— Flume实战案例（一）

Spark Streaming实时流处理项目实战笔记——从词频统计功能着手入门Spark Streaming

Spark Streaming实时流处理项目实战笔记——updateStateByKey算子的使用

Spark Streaming实时流处理项目实战笔记——Push方式整合之本地环境联调

Spark Streaming实时流处理项目实战笔记——使用Flume采集Log4j产生的日志

Spark Streaming实时流处理项目实战笔记——Kafka实战之整合Flume和Kafka完成实时数据采集

Spark Streaming实时流处理项目实战笔记——实战之黑名单过滤

Spark Streaming实时流处理项目实战笔记—— Flume实战案例（一）