SparkSQL
只要Spark的安装配置符合要求,通过SparkSQL实例访问SequoiaDB是很简单的。
使用Spark API以及Spark自带的命令行工具spark-shell、spark-sql、beeline均可以通过SQL访问SequoiaDB。
在SparkSQL中创建SequoiaDB表的SQL语句如下
- temporary表示为临时表或视图,只在创建表或视图的会话中有效,会话退出后自动删除;
- option为参数列表,参数是键和值都为字符串类型的键值对,其中值的前后需要有单引号,多个参数之间用逗号分隔。
假设集合名为“test.data”,协调节点在 serverX 和 serverY 上,以下指令可以在spark-sql执行,并创建一个表来对应SequoiaDB的Collection(集合):
也可以不指定schema,由连接器自动生成:
创建表或视图之后就可以在表上执行SQL语句。以下query 查询可被用于统计表中的记录数
如果两个表的schema相同,则不需指定列名,否则需要指定。
Y表示兼容,N表示不兼容