欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页  >  IT编程

Spark Streaming的实时词频和累加词频统计

程序员文章站 2022-03-18 16:33:21
(注:运行环境是Ubuntu16, pycharm) 1、 按时段统计:获取scoket端口传输的数据(英文数据即可,方便分词),统计各个时间段内每个单词出现的次数(每个时间段都分别统计,需要使用的关键的DStream成员函数:flatMap, map, reduceByKey)。 checkpoi ......

(注:运行环境是ubuntu16, pycharm)

1、

按时段统计:获取scoket端口传输的数据(英文数据即可,方便分词),统计各个时间段内每个单词出现的次数(每个时间段都分别统计,需要使用的关键的dstream成员函数:flatmap, map, reducebykey)。

Spark Streaming的实时词频和累加词频统计

checkpoint是设置检查点,实时统计不需设置,累加统计时需要。

运行结果:

打开terminal ,输入 :nc -lp 9999   回车   (9999是端口号,可以是随意的数字,但是要与第5行代码设置的端口号一致)

Spark Streaming的实时词频和累加词频统计 

控制台输出的结果:

 Spark Streaming的实时词频和累加词频统计

2、

累加统计:获取scoket端口传输的数据(英文数据即可,方便分词),统计历史时间段内每个单词累计出现的次数(所有时间段都共一个统计数,需要使用的关键的dstream成员函数:flatmap, map, updatestatebykey)。

(导入的包、实例化、设置端口与上一步一致,且要设置检查点,设置命令看上一步第6行代码)

Spark Streaming的实时词频和累加词频统计

运行结果:

Spark Streaming的实时词频和累加词频统计

Spark Streaming的实时词频和累加词频统计