• 读取一个外部数据集。

    2.2 Pair RDD

    1. 键值对 的元素通常是一个二元元组(而不是单个值)

      • 键值对RDD 也被称作Pair RDD
      • spark 为键值对RDD 提供了并行操作各个键、跨节点重新进行数据分组的接口
      • 通过对常规 执行转化来创建Pair RDD

        • 我们从常规RDD 中抽取某些字段,将该字段作为Pair RDD的键
      • 当数据集已经在内存时,如果数据集由二元元组组成,那么直接调用sc.parallelize() 方法就可以创建Pair RDD