Spark Streaming实时流处理项目实战笔记——从词频统计功能着手入门Spark Streaming

程序员文章站 2022-06-15 14:38:11

...

spark streaming

scalable 可扩展 highthroughput 高吞吐量 fault-tolerant 高容错

Spark一栈式开发

Spark Streaming结合 Sparkcore 实现离线数据和实时统计的整合

spark两种提交作业的方式

1、spark-submit--master local【2】--class xx --name 启动名位置

spark-submit --master local[2] --calss org.apache.examples.streaming.NetworkWordCount --name NetworkWordCount /opt/spark/spark/examples/jars/spark-examples_2.11-2.4.4.jar

Spark Streaming实时流处理项目实战笔记——从词频统计功能着手入门Spark Streaming

2、spark-shell（测试用途） --master local【2】

spark-shell --master local[2]

import org.apache.spark.streaming.{Seconds,StreamingContext}
val ssc = new StreamingContext(sc,Seconds(5))
val lines = ssc.socketTextStream("hadoop",9999)
lines.print()
ssc.start()
ssc.awaitTermination()

Spark Streaming实时流处理项目实战笔记——从词频统计功能着手入门Spark Streaming

测试通信效果

nc -lk hadoop 9999

Spark Streaming实时流处理项目实战笔记——从词频统计功能着手入门Spark Streaming

Spark Streaming实时流处理项目实战笔记——从词频统计功能着手入门Spark Streaming

Spark Streaming实时流处理项目实战笔记——updateStateByKey算子的使用

Spark Streaming实时流处理项目实战笔记——Push方式整合之本地环境联调

Spark Streaming实时流处理项目实战笔记——使用Flume采集Log4j产生的日志

Spark Streaming实时流处理项目实战笔记——Kafka实战之整合Flume和Kafka完成实时数据采集

Spark Streaming实时流处理项目实战笔记——实战之黑名单过滤

Spark Streaming实时流处理项目实战笔记—— Flume实战案例（一）