如果您不想使用与Hadoop相关的PXF连接器,则无需执行此过程。

配置PXF Hadoop连接器需要将配置文件从Hadoop群集复制到Greenplum master主机。如果你使用的是MapR Hadoop发行版,则还必须将某些JAR文件复制到master主机。在配置PXF Hadoop连接器之前,请确保可以将文件从Hadoop群集中的主机复制到Greenplum数据库master服务器。

在GPDB master主机上执行以下操作去配置PXF映射hadoop的连接器。在你配置连接器完成后,需要运行命令拷贝PXF的配置到Greenplum数据库集群。 在此过程中,您将使用default,或创建新的PXF服务器配置。您将Hadoop配置文件复制到Greenplum数据库master主机上的服务器配置目录。您也可以将库复制到$PXF_CONF/lib以获取MapR支持。然后,您可以将master主机上的PXF配置同步到standby和segment主机。(当您运行pxf cluster init时,PXF将创建$PXF_CONF/*目录。)

  1. 登录到GPDB master节点:

  2. 确定您的PXF Hadoop服务器配置的名称。如果您的Hadoop集群是Kerberized,则必须使用defaultPXF服务器。

    1. gpadmin@gpmaster$ mkdir $PXF_CONF/servers/hdp3
  3. 转到服务器目录。例如:

    或,

  4. 如果你想要使用PXF的HIVE连接器访问hive表的数据,同样拷贝hive的配置到GPDB master上。例如:

    1. gpadmin@gpmaster$ scp hiveuser@hivehost:/etc/hive/conf/hive-site.xml .
  5. 如果你想要使用PXF的HBASE连接器访问hbase表数据,同样需要拷贝hbase的配置到GPDB master上。例如:

  6. 同步PXF的配置到Greenplum数据库集群。例如:

  7. Greenplum数据库最终用户访问Hadoop服务。默认情况下,PXF服务尝试使用GPDB的用户去验证访问HDFS, Hive, and HBase。为了支持此功能,如果要使用这些PXF连接器,则必须为Hadoop以及Hive和HBase配置代理设置。参照 中的过程为Hadoop服务配置用户模拟和代理,或关闭PXF用户模拟。

  8. 授予HDFS文件和目录的读取权限,这些文件和目录将作为Greenplum数据库中的外部表进行访问。 如果启用了用户模拟(默认设置),则必须向每个Greenplum数据库用户/角色名称授予此权限,这些用户/角色名称将使用引用HDFS文件的外部表。如果未启用用户模拟,则必须将此权限授予gpadmin用户。

在PXF服务运行时,如果你想要更新Hadoop、Hive或者HBase的配置,你必须在你的GPDB集群上重新同步PXF的配置并且在每个segment节点上重启pxf服务。例如: