Spark中Broadcast的理解
程序员文章站
2022-06-24 22:42:03
广播变量应用场景:在提交作业后,task在执行的过程中, 有一个或多个值需要在计算的过程中多次从Driver端拿取时,此时会必然会发生大量的网络IO, 这时,最好用广播变量的方式,将Driver端的变量的值事先广播到每一个Worker端, 以后再计算过程中只需要从本地拿取该值即可,避免网络IO,提 ......
广播变量
应用场景:在提交作业后,task在执行的过程中,
有一个或多个值需要在计算的过程中多次从driver端拿取时,此时会必然会发生大量的网络io,
这时,最好用广播变量的方式,将driver端的变量的值事先广播到每一个worker端,
以后再计算过程中只需要从本地拿取该值即可,避免网络io,提高计算效率。
广播变量在广播的时候,将driver端的变量广播到每一个每一个worker端,一个worker端会收到一份仅一份该变量的值
注意:广播的值必须是一个确切的值,不能广播rdd(因为rdd是一个数据的描述,没有拿到确切的值),
如果想要广播rdd对应的值,需要将该rdd对应的数据获取到driver端然后再进行广播。
广播的数据是不可改变的。
广播变量的数据不可太大,如果太大,会在executor占用大量的缓存,相对于计算的时候的缓存就少很多。
推荐阅读
-
windows 中 \r\n 区别于 类unix中的\n 疑问理解(crlf回车换行)
-
OpenGL中的glutInitDisplayMode()函数的理解
-
如何简单地理解Python中的if __name__ == '__main__'
-
Python中浅拷贝和深拷贝的理解与研究
-
理解JavaScript中BOM和DOM的关系
-
对pytorch中x = x.view(x.size(0), -1) 的理解说明
-
java 中Spring task定时任务的深入理解
-
深入理解JavaScript编程中的同步与异步机制
-
C#中38个常用运算符的优先级的划分和理解
-
深入理解在JS中通过四种设置事件处理程序的方法