• 如果在类路径中找到Hive 依赖项,则Spark 将会自动加载它们
      • 这些Hive 的依赖关系也必须存在于所有工作节点上
    1. 配置:将hive-site.xmlcore-site.html(用于安全配置)、hdfs-site.xml(用户HDFS 配置) 文件放在conf/ 目录中完成配置。

    2. 当使用Hive 时,必须使用启用 支持的SparkSession 对象(enableHiveSupport

    3. 访问示例:

    4. 创建Hive 表时,需要定义如何向/从文件系统读写数据,即:输入格式、输出格式。还需要定义该表的数据的序列化与反序列化。

      1. spark_sess.sql("CREATE TABLE IF NOT EXISTS src (key INT, value STRING) USING hive OPTIONS(fileFormat 'parquet')")

      可用的选项有:

      • fileFormat:文件格式。目前支持6种文件格式:'sequencefile'、'rcfile'、'orc'、'parquet'、'textfile'、'avro'

      • serde:该选项指定了serde 类的名称

        • 如果给定的fileFormat 已经包含了serde 信息(如何序列化、反序列化的信息),则不要指定该选项
        • 目前的sequencefile、textfile、rcfile 不包含serde 信息,因此可以使用该选项