SparkSQL

    只要Spark的安装配置符合要求,通过SparkSQL实例访问SequoiaDB是很简单的。

    使用Spark API以及Spark自带的命令行工具spark-shell、spark-sql、beeline均可以通过SQL访问SequoiaDB。

    在SparkSQL中创建SequoiaDB表的SQL语句如下

    • temporary表示为临时表或视图,只在创建表或视图的会话中有效,会话退出后自动删除;
    • option为参数列表,参数是键和值都为字符串类型的键值对,其中值的前后需要有单引号,多个参数之间用逗号分隔。

    假设集合名为“test.data”,协调节点在 serverX 和 serverY 上,以下指令可以在spark-sql执行,并创建一个表来对应SequoiaDB的Collection(集合):

    也可以不指定schema,由连接器自动生成:

    创建表或视图之后就可以在表上执行SQL语句。以下query 查询可被用于统计表中的记录数

    如果两个表的schema相同,则不需指定列名,否则需要指定。

    Y表示兼容,N表示不兼容