• 参数:

        • data:输入数据。可以为一个RDD、一个列表、或者一个pandas.DataFrame

        • schema:给出了DataFrame 的结构化信息。可以为:

          • None:此时要求data 是一个RDD,且元素类型为Row、namedtuple、dict 之一。此时结构化信息从data 中推断(推断列名、列类型)
          • 为:此时直接指定了每一列数据的类型。
          • pyspark.sql.types.DataType 或者datatype string:此时直接指定了一列数据的类型,会自动封装成pyspqrk.sql.types.StructType(只有一列)。此时要求指定的类型与data 匹配(否则抛出异常)
      • 返回值:一个DataFrame实例

    1. .newSession():返回一个新的SparkSession实例,它拥有独立的SQLConfregistered temporary views and UDFs,但是共享同样的以及table cache

    2. .sql(sqlQuery):查询SQL 并以DataFrame 的形式返回查询结果

    3. .table(tableName):以的形式返回指定的table