-
读取一个外部数据集。
2.2 Pair RDD
键值对 的元素通常是一个二元元组(而不是单个值)
- 键值对
RDD
也被称作Pair RDD
spark
为键值对RDD
提供了并行操作各个键、跨节点重新进行数据分组的接口
- 键值对
-
通过对常规 执行转化来创建
Pair RDD
- 我们从常规
RDD
中抽取某些字段,将该字段作为Pair RDD
的键
- 我们从常规
当数据集已经在内存时,如果数据集由二元元组组成,那么直接调用
sc.parallelize()
方法就可以创建Pair RDD