spark平台基本组成(spark安装详细教程)
提起大数据技术,我们常常会想到大数据技术所需要的生态平台hadoop和spark,其中的spark的概念及学习路线是如何的呢?一起来跟小编看看吧~
一、spark概念
1、spark描述
apache spark是专为大规模数据处理而设计的快速通用的计算引擎。
spark是一种与hadoop相似的开源集群计算环境,但是两者之间还存在一些不同之处,这些有用的不同之处使spark在某些工作负载方面表现得更加优越,因为spark启用了内存分布数据集,除了能够提供交互式查询外,它还可以优化迭代工作负载。
spark是在scala语言中实现的,它将scala用作其应用程序框架。
spark和scala能够紧密集成,其中的scalable可以像操作本地集合对象一样轻松地操作分布式数据集。
2、spark特点
① 高级api将焦点从集群本身剥离出来,spark应用程序开发人员可以将焦点放在应用程序需要执行的计算本身。
② spark速度快,支持交互式计算和复杂算法。
③ spark是一个通用的引擎,它可以用来完成各种操作,包括sql查询、文本处理、机器学习等,在spark出现之前,我们一般需要学习各种引擎来处理这些需求。
二、spark学习路线
spark的学习路线可以分成编程语言、linux、spark三个阶段来学习。
1、编程语言
学习spark主要学习java和scala这两种编程语言。
① java学习:javase基础语法、java面向对象、javase api、线程、网络编程、反射基本原理。
② scala学习:scala基础语言、scala类、scala对象、scala特征、scala模式匹配,其中需要重点掌握scala的trait、apply、函数式编程、泛型、逆变与协变等。
2、linux
spark是基于linux系统开发并运行的,因此需要学习linux系统。
linux:linux基础知识、centos、maven。
3、spark
在spark阶段中主要学习spark编程模型、spark内核、sparksql、sparkstreaming。
① spark编程模型:spark模型组成、spark弹性分布式数据集rdd、spark转换transformation、spark操作actions。
② spark内核:spark专业术语定义、spark运行原理、spark运行基本流程、spark运行架构特点、spark核心原理透视、spark运行模式、standalone运行模式、yarn-client运行模式、yarn-cluster运行模式。
③ sparksql:sparksql概念、overview、sparksql程序开发数据源、sparksql程序开发dataframe、sparksql程序开发dataset、sparksql程序开发数据类型。
④ sparkstreaming:spark streming概念、spark streaming执行步骤、sparkstreaming程序开发dstream的输入源、sparkstreaming程序开发dstream的操作、sparkstreaming程序开发程序开发–性能优化、sparkstreaming程序开发容错容灾。
spark作为大数据技术的重要内容之一,是每一个学习大数据的同学所要必学的生态框架,通过这篇文章大家掌握到spark的概念及学习路线了吗?