欢迎您访问程序员文章站本站旨在为大家提供分享程序员计算机编程知识!
您现在的位置是: 首页

Spark入门之WordCount

程序员文章站 2022-05-25 15:01:13
...

Spark入门之WordCount
            
    
    博客分类: ScalaSpark sparkscalawordcounthadoop 


环境:
Hadoop版本:Apache Hadoop2.7.1
    Spark版本:Apache Spark1.4.1
核心代码:


Spark入门之WordCount
            
    
    博客分类: ScalaSpark sparkscalawordcounthadoop 
测试数据:
a,b,a
c,d,f
a,b,h,p,z
a,f,o


在命令行使用sbt打包:sbt clean package
上传jar至Hadoop或者Spark的集群上,如何提交?

三种模式提交:
(1)需要启动HDFS+YRAN,无须启动spark的standalone集群
bin/spark-submit  --class com.spark.helloword.WordCount   --master yarn-client  ./spark-hello_2.11-1.0.jar

(2)启动spark的standalone集群,并启动的Hadoop的HDFS分布式存储系统即可
bin/spark-submit  --class  com.spark.helloword.WordCount  --master spark://h1:7077 ./spark-hello_2.11-1.0.jar 

(3)//需要启动HDFS+YRAN,无须启动spark的standalone集群
//--name 指定作业名字
bin/spark-submit  --class com.spark.helloword.WordCount   --master yarn-cluster  --name test-spark-wordcount   ./spark-hello_2.11-1.0.jar 

执行结果:
(a,4)
(b,2)
(f,2)
(d,1)
(z,1)
(p,1)
(h,1)
(o,1)
(c,1)

运行模式截图:

Spark入门之WordCount
            
    
    博客分类: ScalaSpark sparkscalawordcounthadoop 


Spark入门之WordCount
            
    
    博客分类: ScalaSpark sparkscalawordcounthadoop 



最后欢迎大家扫码关注微信公众号:我是攻城师(woshigcs),我们一起学习,进步和交流!(woshigcs)
本公众号的内容是有关搜索和大数据技术和互联网等方面内容的分享,也是一个温馨的技术互动交流的小家园,有什么问题随时都可以留言,欢迎大家来访!

Spark入门之WordCount
            
    
    博客分类: ScalaSpark sparkscalawordcounthadoop 

  • Spark入门之WordCount
            
    
    博客分类: ScalaSpark sparkscalawordcounthadoop 
  • 大小: 31.4 KB
  • Spark入门之WordCount
            
    
    博客分类: ScalaSpark sparkscalawordcounthadoop 
  • 大小: 439.9 KB
  • Spark入门之WordCount
            
    
    博客分类: ScalaSpark sparkscalawordcounthadoop 
  • 大小: 569.9 KB
  • Spark入门之WordCount
            
    
    博客分类: ScalaSpark sparkscalawordcounthadoop 
  • 大小: 85.8 KB