Spark调优指南
spark相关问题
- spark比mr快的原因?
1) spark的计算结果可以放入内存,支持基于内存的迭代,mr不支持。
2) spark有dag有向无环图,可以实现pipeline的计算模式。
3) 资源调度模式:spark粗粒度资源调度,mr是细粒度资源调度。
资源复用:spark中的task可以复用同一批executor的资源。
mr里面每一个map task对应一个jvm,不能复用资源。
- spark中主要进程的作用?
driver进程:负责任务的分发和结果的回收。
executor进程:负责具体任务的执行。
master进程:spark资源管理的主进程,负责资源调度。
worker进程:spark资源管理的从进程,woker节点主要运行executor
- spark调优
1. 资源调优
1) .搭建spark集群的时候要给spark集群足够的资源(core,memory)
在spark安装包的conf下spark-env.sh
spark_worker_cores
spark_worker_memory
spark_worker_instance
2) .在提交application的时候给application分配更多的资源。
提交命令选项:(在提交application的时候使用选项)
--executor-cores
--executor-memory
--total-executor-cores
配置信息:(在application的代码中设置
在spark-default.conf中设置)
spark.executor.cores
spark.executor.memory
spark.max.cores
- 并行度调优
原则:一个core一般分配2~3个task,每一个task一般处理1g数据(task的复杂度类似wc)
提高并行度的方式:
1) .如果读取的数据在hdfs上,降低block块的大小
2) .sc.textfile(path,numpartitions)
3) sc.parallelize(list,numpartitions) 一般用于测试
4) coalesce、repartition可以提高rdd的分区数。
5) 配置信息:
spark.default.parallelism not set (默认executor core的总个数)
spark.sql.shuffle.partitions 200
6) 自定义分区器
- 代码调优
- 避免创建重复的rdd,复用同一个rdd
- 对多次使用的rdd进行持久化
如何选择一种最合适的持久化策略?
默认情况下,性能最高的当然是memory_only,但前提是你的内存必须足够足够大,可以绰绰有余地存放下整个rdd的所有数据。因为不进行序列化与反序列化操作,就避免了这部分的性能开销;对这个rdd的后续算子操作,都是基于纯内存中的数据的操作,不需要从磁盘文件中读取数据,性能也很高;而且不需要复制一份数据副本,并远程传送到其他节点上。但是这里必须要注意的是,在实际的生产环境中,恐怕能够直接用这种策略的场景还是有限的,如果rdd中数据比较多时(比如几十亿),直接用这种持久化级别,会导致jvm的oom内存溢出异常。
如果使用memory_only级别时发生了内存溢出,那么建议尝试使用memory_only_ser级别。该级别会将rdd数据序列化后再保存在内存中,此时每个partition仅仅是一个字节数组而已,大大减少了对象数量,并降低了内存占用。这种级别比memory_only多出来的性能开销,主要就是序列化与反序列化的开销。但是后续算子可以基于纯内存进行操作,因此性能总体还是比较高的。此外,可能发生的问题同上,如果rdd中的数据量过多的话,还是可能会导致oom内存溢出的异常。
如果纯内存的级别都无法使用,那么建议使用memory_and_disk_ser策略,而不是memory_and_disk策略。因为既然到了这一步,就说明rdd的数据量很大,内存无法完全放下。序列化后的数据比较少,可以节省内存和磁盘的空间开销。同时该策略会优先尽量尝试将数据缓存在内存中,内存缓存不下才会写入磁盘。
通常不建议使用disk_only和后缀为_2的级别:因为完全基于磁盘文件进行数据的读写,会导致性能急剧降低,有时还不如重新计算一次所有rdd。后缀为_2的级别,必须将所有数据都复制一份副本,并发送到其他节点上,数据复制以及网络传输会导致较大的性能开销,除非是要求作业的高可用性,否则不建议使用。
持久化算子:
cache:
memory_only
persist:
memory_only
memory_only_ser
memory_and_disk_ser
一般不要选择带有_2的持久化级别。
checkpoint:
① 如果一个rdd的计算时间比较长或者计算起来比较复杂,一般将这个rdd的计算结果保存到hdfs上,这样数据会更加安全。
② 如果一个rdd的依赖关系非常长,也会使用checkpoint,会切断依赖关系,提高容错的效率。
- 尽量避免使用shuffle类的算子
使用广播变量来模拟使用join,使用情况:一个rdd比较大,一个rdd比较小。
join算子=广播变量+filter、广播变量+map、广播变量+flatmap
- 使用map-side预聚合的shuffle操作
即尽量使用有combiner的shuffle类算子。
combiner概念:
在map端,每一个map task计算完毕后进行的局部聚合。
combiner好处:
1) 降低shuffle write写磁盘的数据量。
2) 降低shuffle read拉取数据量的大小。
3) 降低reduce端聚合的次数。
有combiner的shuffle类算子:
1) reducebykey:这个算子在map端是有combiner的,在一些场景中可以使用reducebykey代替groupbykey。
2) aggregatebykey(fun1,func2)
- 尽量使用高性能的算子
使用reducebykey替代groupbykey
使用mappartition替代map
使用foreachpartition替代foreach
filter后使用coalesce减少分区数
使用使用repartitionandsortwithinpartitions替代repartition与sort类操作
使用repartition和coalesce算子操作分区。
- 使用广播变量
开发过程中,会遇到需要在算子函数中使用外部变量的场景(尤其是大变量,比如100m以上的大集合),那么此时就应该使用spark的广播(broadcast)功能来提升性能,函数中使用到外部变量时,默认情况下,spark会将该变量复制多个副本,通过网络传输到task中,此时每个task都有一个变量副本。如果变量本身比较大的话(比如100m,甚至1g),那么大量的变量副本在网络中传输的性能开销,以及在各个节点的executor中占用过多内存导致的频繁gc,都会极大地影响性能。如果使用的外部变量比较大,建议使用spark的广播功能,对该变量进行广播。广播后的变量,会保证每个executor的内存中,只驻留一份变量副本,而executor中的task执行时共享该executor中的那份变量副本。这样的话,可以大大减少变量副本的数量,从而减少网络传输的性能开销,并减少对executor内存的占用开销,降低gc的频率。
广播大变量发送方式:executor一开始并没有广播变量,而是task运行需要用到广播变量,会找executor的blockmanager要,bloackmanager找driver里面的blockmanagermaster要。
使用广播变量可以大大降低集群中变量的副本数。不使用广播变量,变量的副本数和task数一致。使用广播变量变量的副本和executor数一致。
使用广播变量可以大大的降低集群中变量的副本数。
不使用广播变量:变量的副本数和task数一致。
使用广播变量:变量的副本数与executor数一致。
广播变量最大可以是多大?
executormemory*60%*90%*80% = executormemory *0.42
- 使用kryo优化序列化性能
在spark中,主要有三个地方涉及到了序列化:
1) 在算子函数中使用到外部变量时,该变量会被序列化后进行网络传输。
2) 将自定义的类型作为rdd的泛型类型时(比如javardd<sxt>,sxt是自定义类型),所有自定义类型对象,都会进行序列化。因此这种情况下,也要求自定义的类必须实现serializable接口。
3) 使用可序列化的持久化策略时(比如memory_only_ser),spark会将rdd中的每个partition都序列化成一个大的字节数组。
kryo序列化器介绍:
spark支持使用kryo序列化机制。kryo序列化机制,比默认的java序列化机制,速度要快,序列化后的数据要更小,大概是java序列化机制的1/10。所以kryo序列化优化以后,可以让网络传输的数据变少;在集群中耗费的内存资源大大减少。
对于这三种出现序列化的地方,我们都可以通过使用kryo序列化类库,来优化序列化和反序列化的性能。spark默认使用的是java的序列化机制,也就是objectoutputstream/objectinputstream api来进行序列化和反序列化。但是spark同时支持使用kryo序列化库,kryo序列化类库的性能比java序列化类库的性能要高很多。官方介绍,kryo序列化机制比java序列化机制,性能高10倍左右。spark之所以默认没有使用kryo作为序列化类库,是因为kryo要求最好要注册所有需要进行序列化的自定义类型,因此对于开发者来说,这种方式比较麻烦。
spark中使用kryo:
sparkconf.set("spark.serializer", "org.apache.spark.serializer.kryoserializer") .registerkryoclasses(new class[]{speedsortkey.class}) |
- 优化数据结构
java中有三种类型比较消耗内存:
1) 对象,每个java对象都有对象头、引用等额外的信息,因此比较占用内存空间。
2) 字符串,每个字符串内部都有一个字符数组以及长度等额外信息。
3) 集合类型,比如hashmap、linkedlist等,因为集合类型内部通常会使用一些内部类来封装集合元素,比如map.entry。
因此spark官方建议,在spark编码实现中,特别是对于算子函数中的代码,尽量不要使用上述三种数据结构,尽量使用字符串替代对象,使用原始类型(比如int、long)替代字符串,使用数组替代集合类型,这样尽可能地减少内存占用,从而降低gc频率,提升性能。
- 使用高性能的库fastutil
fasteutil介绍:
fastutil是扩展了java标准集合框架(map、list、set;hashmap、arraylist、hashset)的类库,提供了特殊类型的map、set、list和queue;fastutil能够提供更小的内存占用,更快的存取速度;我们使用fastutil提供的集合类,来替代自己平时使用的jdk的原生的map、list、set,好处在于,fastutil集合类,可以减小内存的占用,并且在进行集合的遍历、根据索引(或者key)获取元素的值和设置元素的值的时候,提供更快的存取速度。fastutil的每一种集合类型,都实现了对应的java中的标准接口(比如fastutil的map,实现了java的map接口),因此可以直接放入已有系统的任何代码中。
fastutil最新版本要求java 7以及以上版本。
使用:
见randomextractcars.java类
- 数据本地化
- 数据本地化的级别:
1) process_local
task要计算的数据在本进程(executor)的内存中。
2) node_local
① task所计算的数据在本节点所在的磁盘上。
② task所计算的数据在本节点其他executor进程的内存中。
3) no_pref
task所计算的数据在关系型数据库中,如mysql。
4) rack_local
task所计算的数据在同机架的不同节点的磁盘或者executor进程的内存中
5) any
跨机架。
- spark数据本地化调优:
spark中任务调度时,taskscheduler在分发之前需要依据数据的位置来分发,最好将task分发到数据所在的节点上,如果taskscheduler分发的task在默认3s依然无法执行的话,taskscheduler会重新发送这个task到相同的executor中去执行,会重试5次,如果依然无法执行,那么taskscheduler会降低一级数据本地化的级别再次发送task。
如上图中,会先尝试1,process_local数据本地化级别,如果重试5次每次等待3s,会默认这个executor计算资源满了,那么会降低一级数据本地化级别到2,node_local,如果还是重试5次每次等待3s还是失败,那么还是会降低一级数据本地化级别到3,rack_local。这样数据就会有网络传输,降低了执行效率。
1) 如何提高数据本地化的级别?
可以增加每次发送task的等待时间(默认都是3s),将3s倍数调大, 结合webui来调节:
• spark.locality.wait
• spark.locality.wait.process
• spark.locality.wait.node
• spark.locality.wait.rack
注意:等待时间不能调大很大,调整数据本地化的级别不要本末倒置,虽然每一个task的本地化级别是最高了,但整个application的执行时间反而加长。
2) 如何查看数据本地化的级别?
通过日志或者webui
- spark shuffle调优
- sparkshuffle
spark1.x 中有 两种类型的shuffle (hashshufflemanager 另外一个是sortshufflemanager)
到spark2.x以后 只有一种shuffle 机制 sortshuffle 管理器叫做sortshufflemanager
- sparkshuffle概念
reducebykey会将上一个rdd中的每一个key对应的所有value聚合成一个value,然后生成一个新的rdd,元素类型是<key,value>对的形式,这样每一个key对应一个聚合起来的value。
问题:聚合之前,每一个key对应的value不一定都是在一个partition中,也不太可能在同一个节点上,因为rdd是分布式的弹性的数据集,rdd的partition极有可能分布在各个节点上。
如何聚合?
– shuffle write:上一个stage的每个map task就必须保证将自己处理的当前分区的数据相同的key写入一个分区文件中,可能会写入多个不同的分区文件中。
– shuffle read:reduce task就会从上一个stage的所有task所在的机器上寻找属于己的那些分区文件,这样就可以保证每一个key所对应的value都会汇聚到同一个节点上去处理和聚合。
spark中有两种shuffle管理类型,hashshufflmanager和sortshufflemanager,spark1.2之前是hashshufflemanager, spark1.2引入sortshufflemanager,在spark 2.0+版本中已经将hashshufflemanager丢弃。
- hashshufflemanager
1) 普通机制
- 普通机制示意图
- 执行流程
a) 每一个map task将不同结果写到不同的buffer中,每个buffer的大小为32k。buffer起到数据缓存的作用。
b) 每个buffer文件最后对应一个磁盘小文件。
c) reduce task来拉取对应的磁盘小文件。
- 总结
① .map task的计算结果会根据分区器(默认是hashpartitioner)来决定写入到哪一个磁盘小文件中去。reducetask会去map端拉取相应的磁盘小文件。
② .产生的磁盘小文件的个数:
m(map task的个数)*r(reduce task的个数)
- 存在的问题
产生的磁盘小文件过多,会导致以下问题:
a) 在shuffle write过程中会产生很多写磁盘小文件的对象。
b) 在shuffle read过程中会产生很多读取磁盘小文件的对象。
c) 在jvm堆内存中对象过多会造成频繁的gc,gc还无法解决运行所需要的内存 的话,就会oom。
d) 在数据传输过程中会有频繁的网络通信,频繁的网络通信出现通信故障的可能性大大增加,一旦网络通信出现了故障会导致shuffle file cannot find 由于这个错误导致的task失败,taskscheduler不负责重试,由dagscheduler负责重试stage。
2) 合并机制(considation机制)
- 合并机制示意图
- 总结
产生磁盘小文件的个数:c(core的个数)*r(reduce的个数)
如果核数比较多的话 那么产生的小文件个数 是不是也很多啊?
- sortshufflemanager
1) 普通机制
- 普通机制示意图
- 执行流程
a) map task 的计算结果会写入到一个内存数据结构里面,内存数据结构默认是5m
b) 在shuffle的时候会有一个定时器,不定期的去估算这个内存结构的大小,当内存结构中的数据超过5m时,比如现在内存结构中的数据为5.01m,那么他会申请5.01*2-5=5.02m内存给内存数据结构。
c) 如果申请成功不会进行溢写,如果申请不成功,这时候会发生溢写磁盘。
d) 在溢写之前内存结构中的数据会进行排序分区
e) 然后开始溢写磁盘,写磁盘是以batch的形式去写,一个batch是1万条数据,
f) map task执行完成后,会将这些磁盘小文件合并成一个大的磁盘文件,同时生成一个索引文件。
g) reduce task去map端拉取数据的时候,首先解析索引文件,根据索引文件再去拉取对应的数据。
- 总结
产生磁盘小文件的个数: 2*m(map task的个数)
2) bypass机制
- bypass机制示意图
- 总结
① .bypass运行机制的触发条件如下:
shuffle reduce task的数量小于spark.shuffle.sort.bypassmergethreshold的参数值。这个值默认是200。
② .产生的磁盘小文件为:2*m(map task的个数)
- shuffle文件寻址
1) mapoutputtracker
mapoutputtracker是spark架构中的一个模块,是一个主从架构。管理磁盘小文件的地址。
- mapoutputtrackermaster是主对象,存在于driver中。
- mapoutputtrackerworker是从对象,存在于excutor中。
2) blockmanager
blockmanager块管理者,是spark架构中的一个模块,也是一个主从架构。
- blockmanagermaster,主对象,存在于driver中。
blockmanagermaster会在集群中有用到广播变量和缓存数据或者删除缓存数据的时候,通知blockmanagerslave传输或者删除数据。
- blockmanagerslave,从对象,存在于excutor中。
blockmanagerslave会与blockmanagerslave之间通信。
¬ 无论在driver端的blockmanager还是在excutor端的blockmanager都含有三个对象:
① diskstore:负责磁盘的管理。
② memorystore:负责内存的管理。
③ blocktransferservice:负责数据的传输。
3) shuffle文件寻址图
4) shuffle文件寻址流程
a) 当map task执行完成后,会将task的执行情况和磁盘小文件的地址封装到mpstatus对象中,通过mapoutputtrackerworker对象向driver中的mapoutputtrackermaster汇报。
b) 在所有的map task执行完毕后,driver中就掌握了所有的磁盘小文件的地址。
c) 在reduce task执行之前,会通过excutor中mapoutputtrackerworker向driver端的mapoutputtrackermaster获取磁盘小文件的地址。
d) 获取到磁盘小文件的地址后,会通过blockmanager连接数据所在节点,然后通过blocktransferservice进行数据的传输。
e) blocktransferservice默认启动5个task去节点拉取数据。默认情况下,5个task拉取数据量不能超过48m。
-
shuffle调优
- sparkshuffle调优配置项如何使用?
1) 在代码中,不推荐使用,硬编码。
new sparkconf().set(“spark.shuffle.file.buffer”,”64”)
2) 在提交spark任务的时候,推荐使用。
spark-submit --conf spark.shuffle.file.buffer=64 –conf ….
3) 在conf下的spark-default.conf配置文件中,不推荐,因为是写死后所有应用程序都要用。
- buffer大小
- shuffle read拉取数据量的大小
- shuffle聚合内存的比例
- 拉取数据重试次数
- 重试间隔时间60s
- spark shuffle的种类
- hashshuffle 合并机制
- sortshuffle bypass机制 200次
- spark内存管理
spark执行应用程序时,spark集群会启动driver和executor两种jvm进程,driver负责创建sparkcontext上下文,提交任务,task的分发等。executor负责task的计算任务,并将结果返回给driver。同时需要为需要持久化的rdd提供储存。driver端的内存管理比较简单,这里所说的spark内存管理针对executor端的内存管理。
spark内存管理分为静态内存管理和统一内存管理,spark1.6之前使用的是静态内存管理,spark1.6之后引入了统一内存管理。
静态内存管理中存储内存、执行内存和其他内存的大小在 spark 应用程序运行期间均为固定的,但用户可以应用程序启动前进行配置。
统一内存管理与静态内存管理的区别在于储存内存和执行内存共享同一块空间,可以互相借用对方的空间。
spark1.6以上版本默认使用的是统一内存管理,可以通过参数spark.memory.uselegacymode 设置为true(默认为false)使用静态内存管理。
- 静态内存管理分布图
- 统一内存管理分布图
- reduce 中oom如何处理?
1) 减少每次拉取的数据量
2) 提高shuffle聚合的内存比例
3) 提高excutor的总内存
- 内存调优
比如我们创建对象 先往伊甸园和s1 中放 满了 发生minogc 此时 会清空 伊甸园和s1 如果还有对象 那么就往s2中放 如果s2放的下 就放在s2中 s2也满了 会发生小型的minogc 将对象清空
如果还有数据 将数据+1 加到15 会放入到老年代中
但是 老年代中的对象 都是常用的对象 比如数据库连接池等 老年代如果满了 会发生full gc 如果清空后 还不够用 就会发生gc
我们上面讨论的问题 讨论的task 的内存够不够用
jvm堆内存分为一块较大的eden和两块较小的survivor,每次只使用eden和其中一块survivor,当回收时将eden和survivor中还存活着的对象一次性复制到另外一块survivor上,最后清理掉eden和刚才用过的survivor。也就是说当task创建出来对象会首先往eden和survivor1中存放,survivor2是空闲的,当eden和survivor1区域放满以后就会触发minor gc小型垃圾回收,清理掉不再使用的对象。会将存活下来的对象放入survivor2中。
如果存活下来的对象大小大于survivor2的大小,那么jvm就会将多余的对象直接放入到老年代中。
如果这个时候年轻代的内存不是很大的话,就会经常的进行minor gc,频繁的minor gc会导致短时间内有些存活的对象(多次垃圾回收都没有回收掉,一直在用的又不能被释放,这种对象每经过一次minor gc都存活下来)频繁的倒来倒去,会导致这些短生命周期的对象(不一定长期使用)每进行一次垃圾回收就会长一岁。年龄过大,默认15岁,垃圾回收还是没有回收回去就会跑到老年代里面去了。
这样会导致在老年代中存放大量的短生命周期的对象,老年代应该存放的是数量比较少并且会长期使用的对象,比如数据库连接池对象。这样的话,老年代就会满溢(full gc 因为本来老年代中的对象很少,很少进行full gc 因此采取了不太复杂但是消耗性能和时间的垃圾回收算法)。不管minor gc 还是 full gc都会导致jvm的工作线程停止。
总结-堆内存不足造成的影响:
1) 频繁的minor gc。
2) 老年代中大量的短生命周期的对象会导致full gc。
3) gc 多了就会影响spark的性能和运行的速度。
spark jvm调优主要是降低gc时间,可以修改executor内存的比例参数。
rdd缓存、task定义运行的算子函数,可能会创建很多对象,这样会占用大量的堆内存。堆内存满了之后会频繁的gc,如果gc还不能够满足内存的需要的话就会报oom。比如一个task在运行的时候会创建n个对象,这些对象首先要放入到jvm年轻代中。比如在存数据的时候我们使用了foreach来将数据写入到内存,每条数据都会封装到一个对象中存入数据库中,那么有多少条数据就会在jvm中创建多少个对象。
spark中如何内存调优?
spark executor堆内存中存放(以静态内存管理为例):rdd的缓存数据和广播变量(spark.storage.memoryfraction 0.6),shuffle聚合内存(spark.shuffle.memoryfraction 0.2),task的运行(0.2)那么如何调优呢?
1) 提高executor总体内存的大小
2) 降低储存内存比例或者降低聚合内存比例
如何查看gc?
spark webui中job->stage->task
- 调节executor的堆外内存
spark底层shuffle的传输方式是使用netty传输,netty在进行网络传输的过程会申请堆外内存(netty是零拷贝),所以使用了堆外内存。默认情况下,这个堆外内存上限默认是每一个executor的内存大小的10%;真正处理大数据的时候,这里都会出现问题,导致spark作业反复崩溃,无法运行;此时就会去调节这个参数,到至少1g(1024m),甚至说2g、4g。
executor在进行shuffle write,优先从自己本地关联的mapoutputworker中获取某份数据,如果本地block manager没有的话,那么会通过transferservice,去远程连接其他节点上executor的block manager去获取,尝试建立远程的网络连接,并且去拉取数据。频繁创建对象让jvm堆内存满溢,进行垃圾回收。正好碰到那个exeuctor的jvm在垃圾回收。处于垃圾回过程中,所有的工作线程全部停止;相当于只要一旦进行垃圾回收,spark / executor停止工作,无法提供响应,spark默认的网络连接的超时时长是60s;如果卡住60s都无法建立连接的话,那么这个task就失败了。task失败了就会出现shuffle file cannot find的错误。
那么如何调节等待的时长呢?
在./spark-submit提交任务的脚本里面添加:
--conf spark.core.connection.ack.wait.timeout=300
executor由于内存不足或者堆外内存不足了,挂掉了,对应的executor上面的block manager也挂掉了,找不到对应的shuffle map output文件,reducer端不能够拉取数据。我们可以调节堆外内存的大小,如何调节?
在./spark-submit提交任务的脚本里面添加
yarn下:
--conf spark.yarn.executor.memoryoverhead=2048 单位m
standalone下:
--conf spark.memory.offheap.size=2048单位m
- 解决数据倾斜
- 提高shuffle操作的并行度
方案实现思路:
在对rdd执行shuffle算子时,给shuffle算子传入一个参数,比如reducebykey(1000),该参数就设置了这个shuffle算子执行时shuffle read task的数量。对于spark sql中的shuffle类语句,比如group by、join等,需要设置一个参数,即spark.sql.shuffle.partitions,该参数代表了shuffle read task的并行度,该值默认是200,对于很多场景来说都有点过小。
方案实现原理:
增加shuffle read task的数量,可以让原本分配给一个task的多个key分配给多个task,从而让每个task处理比原来更少的数据。举例来说,如果原本有5个不同的key,每个key对应10条数据,这5个key都是分配给一个task的,那么这个task就要处理50条数据。而增加了shuffle read task以后,每个task就分配到一个key,即每个task就处理10条数据,那么自然每个task的执行时间都会变短了。
- 双重聚合
方案适用场景:
对rdd执行reducebykey等聚合类shuffle算子或者在spark sql中使用group by语句进行分组聚合时,比较适用这种方案。
方案实现思路:
这个方案的核心实现思路就是进行两阶段聚合。第一次是局部聚合,先给每个key都打上一个随机数,比如10以内的随机数,此时原先一样的key就变成不一样的了,比如(hello, 1) (hello, 1) (hello, 1) (hello, 1),就会变成(1_hello, 1) (1_hello, 1) (2_hello, 1) (2_hello, 1)。接着对打上随机数后的数据,执行reducebykey等聚合操作,进行局部聚合,那么局部聚合结果,就会变成了(1_hello, 2) (2_hello, 2)。然后将各个key的前缀给去掉,就会变成(hello,2)(hello,2),再次进行全局聚合操作,就可以得到最终结果了,比如(hello, 4)。
方案实现原理:
将原本相同的key通过附加随机前缀的方式,变成多个不同的key,就可以让原本被一个task处理的数据分散到多个task上去做局部聚合,进而解决单个task处理数据量过多的问题。接着去除掉随机前缀,再次进行全局聚合,就可以得到最终的结果。
如果一个rdd中有一个key导致数据倾斜,同时还有其他的key,那么一般先对数据集进行抽样,然后找出倾斜的key,再使用filter对原始的rdd进行分离为两个rdd,一个是由倾斜的key组成的rdd1,一个是由其他的key组成的rdd2,那么对于rdd1可以使用加随机前缀进行多分区多task计算,对于另一个rdd2正常聚合计算,最后将结果再合并起来。
- 将reduce join转为map join
broadcast+filter(或者map)
方案适用场景:
在对rdd使用join类操作,或者是在spark sql中使用join语句时,而且join操作中的一个rdd或表的数据量比较小(比如几百m或者一两g),比较适用此方案。
方案实现思路:
不使用join算子进行连接操作,而使用broadcast变量与map类算子实现join操作,进而完全规避掉shuffle类的操作,彻底避免数据倾斜的发生和出现。将较小rdd中的数据直接通过collect算子拉取到driver端的内存中来,然后对其创建一个broadcast变量;接着对另外一个rdd执行map类算子,在算子函数内,从broadcast变量中获取较小rdd的全量数据,与当前rdd的每一条数据按照连接key进行比对,如果连接key相同的话,那么就将两个rdd的数据用你需要的方式连接起来。
方案实现原理:
普通的join是会走shuffle过程的,而一旦shuffle,就相当于会将相同key的数据拉取到一个shuffle read task中再进行join,此时就是reduce join。但是如果一个rdd是比较小的,则可以采用广播小rdd全量数据+map算子来实现与join同样的效果,也就是map join,此时就不会发生shuffle操作,也就不会发生数据倾斜。
- 采样倾斜key并分拆join操作
方案适用场景:
两个rdd/hive表进行join的时候,如果数据量都比较大,无法采用“解决方案五”,那么此时可以看一下两个rdd/hive表中的key分布情况。如果出现数据倾斜,是因为其中某一个rdd/hive表中的少数几个key的数据量过大,而另一个rdd/hive表中的所有key都分布比较均匀,那么采用这个解决方案是比较合适的。
方案实现思路:
对包含少数几个数据量过大的key的那个rdd,通过sample算子采样出一份样本来,然后统计一下每个key的数量,计算出来数据量最大的是哪几个key。然后将这几个key对应的数据从原来的rdd中拆分出来,形成一个单独的rdd,并给每个key都打上n以内的随机数作为前缀,而不会导致倾斜的大部分key形成另外一个rdd。接着将需要join的另一个rdd,也过滤出来那几个倾斜key对应的数据并形成一个单独的rdd,将每条数据膨胀成n条数据,这n条数据都按顺序附加一个0~n的前缀,不会导致倾斜的大部分key也形成另外一个rdd。再将附加了随机前缀的独立rdd与另一个膨胀n倍的独立rdd进行join,此时就可以将原先相同的key打散成n份,分散到多个task中去进行join了。而另外两个普通的rdd就照常join即可。最后将两次join的结果使用union算子合并起来即可,就是最终的join结果 。
- 使用随机前缀和扩容rdd进行join
方案适用场景:
如果在进行join操作时,rdd中有大量的key导致数据倾斜,那么进行分拆key也没什么意义,此时就只能使用最后一种方案来解决问题了。
方案实现思路:
该方案的实现思路基本和“解决方案六”类似,首先查看rdd/hive表中的数据分布情况,找到那个造成数据倾斜的rdd/hive表,比如有多个key都对应了超过1万条数据。然后将该rdd的每条数据都打上一个n以内的随机前缀。同时对另外一个正常的rdd进行扩容,将每条数据都扩容成n条数据,扩容出来的每条数据都依次打上一个0~n的前缀。最后将两个处理后的rdd进行join即可。
- spark故障解决(troubleshooting)
- shuffle file cannot find:磁盘小文件找不到。
1) connection timeout ----shuffle file cannot find
提高建立连接的超时时间,或者降低gc,降低gc了那么spark不能堆外提供服务的时间就少了,那么超时的可能就会降低。
2) fetch data fail ---- shuffle file cannot find
提高拉取数据的重试次数以及间隔时间。
3) oom/executor lost ---- shuffle file cannot find
提高堆外内存大小,提高堆内内存大小。
- reduce oom
blockmanager拉取的数据量大,reduce task处理的数据量小
解决方法:
1) 降低每次拉取的数据量
2) 提高shuffle聚合的内存比例
3) 提高executor的内存比例
- 序列化问题
- null值问题
val rdd = rdd.map{x=>{
x+”~”;
}}
rdd.foreach{x=>{
system.out.println(x.getname())
}}
上一篇: 禧云数芯大数据平台技术白皮书