MapReduce的shuffle过程详解

程序员文章站 2022-05-15 14:50:26

[学习笔记] 结果分析：shuffle的英文是洗牌，混洗的意思，洗牌就是越乱越好的意思。当在集群的情况下是这样的，假如有三个map节点和三个reduce节点，一号reduce节点的数据会来自于三个map节点，而不是就来自于一号map节点。所以说它们的数据会混合，路线会交叉， 3叉3。想象一下，像不像 ......

[学习笔记]

结果分析：
shuffle的英文是洗牌，混洗的意思，洗牌就是越乱越好的意思。当在集群的情况下是这样的，假如有三个map节点和三个reduce节点，一号reduce节点的数据会来自于三个map节点，而不是就来自于一号map节点。所以说它们的数据会混合，路线会交叉， 3叉3。想象一下，像不像洗牌？马克-to-win @ 马克java社区：shuffle在mapreduce中是指map输出后到reduce接收前，按下面的官方shuffle图：具体可以分为map端和reduce端两个部分。在最开始，假设我们就提交一个大文件，mapreduce会对要处理的大文件数据进行分片（split）操作放到多台机器的集群里，（想象一个搬走大山的大活给一个师的人马，是不是要把人，部署一圈，展开，一人干一块儿，现在是一样的道理。现在你要摆弄一个1.5t的文件，需要先把它切开，分配到不同机器）为每一个分片分配一个maptask任务，接下来会对每一个分片中的每一行数据进行处理，得到键值对（key,value），其中key为偏移量，value为一行的内容。准备给咱们的自己的map方法。执行完咱自己的map方法，便进入shuffle阶段。马克-to-win @ 马克java社区：为提高效率，mapreduce会把我们的写出的结果先存储到map节点的“环形内存缓冲区”（不深入探讨），当写入的数据量达到预先设置的阙值后（默认80%）便会启动溢出（spill）线程将缓冲区中的那部分数据溢出写（spill）到磁盘的临时文件中，可能会产生很多，并在写入前根据key进行排序（sort）和合并（combine，本章不讨论）。

文章转载自原文：

上一篇： Go基础编程实践（一）—— 操作字符串

下一篇：揭秘薛仁贵到底是怎么死民间都有哪些死亡的传闻呢

MapReduce的shuffle过程详解

关于单台MongoDB实例开启Oplog的过程详解

python使用scapy模块实现ping扫描的过程详解

新浪微博OAuth认证和储存的主要过程详解

MySQL5.7.24版本的数据库安装过程图文详解

C#中应用程序集的装载过程详解

将DataTable作为存储过程参数的用法实例详解

Python 变量的创建过程详解

Linux系统下配置squid代理服务器的过程详解

PHP调用MsSQL Server 2012存储过程获取多结果集(包含output参数)的详解

详解一次Vue低版本安卓白屏问题的解决过程