• 通过spark sql ,可以使用SQL 或者 HQL 来查询数据,查询结果以Dataset/DataFrame 的形式返回
      • 它支持多种数据源,如Hive 表、Parquet 以及 JSON
      • 它是Spark 1.6 中被添加的新接口
      • 它提供了RDD的优点与Spark SQL 执行引擎的优点
      • 它的概念等价于一个关系型数据库中的表
      • Scala/Python 中,DataFrameDataSet 中的 RowS (多个Row) 来表示。