-
- 如果在类路径中找到
Hive
依赖项,则Spark
将会自动加载它们 - 这些
Hive
的依赖关系也必须存在于所有工作节点上
- 如果在类路径中找到
配置:将
hive-site.xml
、core-site.html
(用于安全配置)、hdfs-site.xml
(用户HDFS
配置) 文件放在conf/
目录中完成配置。当使用
Hive
时,必须使用启用 支持的SparkSession
对象(enableHiveSupport
)访问示例:
创建
Hive
表时,需要定义如何向/从文件系统读写数据,即:输入格式、输出格式。还需要定义该表的数据的序列化与反序列化。spark_sess.sql("CREATE TABLE IF NOT EXISTS src (key INT, value STRING) USING hive OPTIONS(fileFormat 'parquet')")
可用的选项有:
fileFormat
:文件格式。目前支持6种文件格式:'sequencefile'、'rcfile'、'orc'、'parquet'、'textfile'、'avro'
。serde
:该选项指定了serde
类的名称- 如果给定的
fileFormat
已经包含了serde
信息(如何序列化、反序列化的信息),则不要指定该选项 - 目前的
sequencefile、textfile、rcfile
不包含serde
信息,因此可以使用该选项
- 如果给定的