通过spark sql ,可以使用SQL 或者 HQL 来查询数据,查询结果以Dataset/DataFrame 的形式返回它支持多种数据源,如Hive 表、Parquet 以及 JSON 等 它是Spark 1.6 中被添加的新接口它提供了RDD的优点与Spark SQL 执行引擎的优点 它的概念等价于一个关系型数据库中的表在Scala/Python 中,DataFrame 由DataSet 中的 RowS (多个Row) 来表示。