3.dataframe使用 - 一、概述 - 《AI算法工程师手册》

- 通过spark sql ，可以使用SQL 或者 HQL 来查询数据，查询结果以Dataset/DataFrame 的形式返回
- 它支持多种数据源，如Hive 表、Parquet 以及 JSON 等
- 它是Spark 1.6 中被添加的新接口
- 它提供了RDD的优点与Spark SQL 执行引擎的优点
- 它的概念等价于一个关系型数据库中的表
- 在Scala/Python 中，DataFrame 由DataSet 中的 RowS (多个Row) 来表示。