4.累加器和广播变量 - 二、广播变量 - 《AI算法工程师手册》

会自动的把闭包中所有引用到的变量都发送到工作节点上。虽然这很方便，但是也很低效。原因有二：
- 默认的任务发射机制是专门为小任务进行优化的
- 事实上，你很可能在多个并行操作中使用同一个变量。但是spark 会为每个操作分别发送。

Broadcast 变量的value 中存放着广播的值，该值只会被发送到各节点一次
Broadcast 的方法：
- ：加载Broadcast 变量
- .unpersist(blocking=False)：删除Broadcast 变量在executor 上的缓存备份。
  - 如果在此之后，该Broadcast 被使用，则需要从驱动器程序重新发送Broadcast 变量到executor
  - 参数：
    - blocking：如果为True，则阻塞直到unpersist 完成
使用Broadcast 的流程：
- 通过SparkContext.broadcast(xx) 创建一个Broadcast 变量
- 通过.value 属性访问该对象的值
- 该变量只会被发送到各节点一次，应该作为只读值来处理（修改这个值并不会影响到其他的节点）
示例：

当广播一个较大的值时，选择既快又好的序列化格式非常重要
- 如果序列化对象的时间较长，或者传送花费的时间太久，则这个时间很容易成为性能瓶颈
spark 中的Java API 和 Scala API 默认使用的序列化库为Java 序列化库，它对于除了基本类型的数组以外的任何对象都比较低效。