Spark入门之WordCount

程序员文章站 2022-05-25 15:01:13

...

环境:
Hadoop版本：Apache Hadoop2.7.1
Spark版本：Apache Spark1.4.1
核心代码：

Spark入门之WordCount

博客分类： ScalaSpark sparkscalawordcounthadoop

测试数据：

a,b,a
c,d,f
a,b,h,p,z
a,f,o

在命令行使用sbt打包：sbt clean package
上传jar至Hadoop或者Spark的集群上，如何提交？

三种模式提交:
（1）需要启动HDFS+YRAN，无须启动spark的standalone集群
bin/spark-submit  --class com.spark.helloword.WordCount   --master yarn-client  ./spark-hello_2.11-1.0.jar

（2）启动spark的standalone集群，并启动的Hadoop的HDFS分布式存储系统即可
bin/spark-submit  --class  com.spark.helloword.WordCount  --master spark://h1:7077 ./spark-hello_2.11-1.0.jar 

（3）//需要启动HDFS+YRAN，无须启动spark的standalone集群
//--name 指定作业名字
bin/spark-submit  --class com.spark.helloword.WordCount   --master yarn-cluster  --name test-spark-wordcount   ./spark-hello_2.11-1.0.jar

执行结果：

(a,4)
(b,2)
(f,2)
(d,1)
(z,1)
(p,1)
(h,1)
(o,1)
(c,1)

运行模式截图：

最后欢迎大家扫码关注微信公众号：我是攻城师(woshigcs)，我们一起学习，进步和交流!（woshigcs）
本公众号的内容是有关搜索和大数据技术和互联网等方面内容的分享，也是一个温馨的技术互动交流的小家园，有什么问题随时都可以留言，欢迎大家来访！

Spark入门之WordCount

博客分类： ScalaSpark sparkscalawordcounthadoop