hadoop和spark的区别

程序员文章站 2022-07-02 16:14:35

hadoop是基于磁盘的，它的运算结果保存在磁盘当中；而spark的运算是基于内存的。因此spark的运算速度是 hadoop的100倍；即使在磁盘当中运算，spark也是hadoop的10倍左右，原因就是spark具有优秀的作业调度策略。故spark的速度快与hadoop的两个原因：（1）sp ......

hadoop是基于磁盘的，它的运算结果保存在磁盘当中；而spark的运算是基于内存的。因此spark的运算速度是

hadoop的100倍；即使在磁盘当中运算，spark也是hadoop的10倍左右，原因就是spark具有优秀的作业调度策略。

故spark的速度快与hadoop的两个原因：

（1）spark是基于内存，hadoop基于磁盘：

hadoop和spark的区别

在hadoop中HDFS用于数据的存储，MapReduce用于计算。 MapReduce：从磁盘中读取文件->把迭代结果存储到磁盘中->再从磁盘中读取文件->.................. Spark:从磁盘中读取文件->把迭代后的结果存储到内存当中->再从内存中读取数据->.................. Spark的计算速度是hadoop的100倍，即使再磁盘中操作数据也是hadoop的10倍。

（2）spark具有优秀的作业调度策略（使用了有向无环图，关于这部分会在RDD学习模块中介绍）。

上一篇： Html5 + Websocket 实现的Web聊天（可群聊）

下一篇： Requests库

hadoop和spark的区别

JSP中include指令和include行为的区别

DDL、DML和DCL的区别与理解

web服务器和应用服务器的区别，一分钟带你搞懂这两者的关联

android handler.post和handler.sendMessage的区别和联系

java中静态变量和实例变量的区别详细介绍

C#中重载重写和覆盖的定义与区别

web服务器和应用服务器的区别，一分钟带你搞懂这两者的关联

C#中String和StringBuilder的简介与区别

简单谈谈SpringMVC转发和重定向的区别

锚文本和超链接的区别是什么，超级链接与其作用介绍