分区表和分区索引管理 - 分区裁剪 - 《OceanBase v3.1.1 官方教程》

分区裁剪本身是一个比较复杂的过程，优化器需要根据用户表的分区信息和 SQL 中给定的条件，抽取出相关的分区信息。由于 SQL 中的条件往往比较复杂，整个抽取逻辑的复杂性也随之增加，这一过程由 OceanBase 数据库中的 Query Range 子模块完成。

以下示例中当用户使用如下 SQL 访问分区表时，由于 c1 为 1 的数据全部处于第 1 号分区（p1)，实际上我们只需要访问该分区即可（避免访问第 0、2、3、4 号分区）：

通过查看执行计划可以看到分区裁剪的结果：

obclient> EXPLAIN SELECT * FROM t1 WHERE c1 = 1 \G
*************************** 1. row ***************************
Query Plan: ===================================
|ID|OPERATOR  |NAME|EST. ROWS|COST|
-----------------------------------
|0 |TABLE SCAN|t1  |1        |1303|
===================================
Outputs & filters:
-------------------------------------
  0 - output([t1.c1], [t1.c2]), filter([t1.c1 = 1]),
      access([t1.c1], [t1.c2]), partitions(p1)

分区裁剪就是根据 where 子句里面的条件并且计算得到分区列的值，然后通过结果判断需要访问哪些分区。如果分区函数为表达式，且该表达式作为一个整体出现在等值条件里，也可以做分区裁剪。

示例如下：

Range 分区

下述示例中，分区条件为表达式，而查询条件为非等值条件（c1 < 150 and c1 > 100），则无法进行分区裁剪：

obclient> CREATE TABLE t1
(
  c1 INT,
  c2 INT
)
PARTITION BY RANGE(c1 + 1)
(
  PARTITION p0 VALUES less than (100),
  PARTITION p1 VALUES less than (200)
);
obclient> EXPLAIN SELECT * FROM t1 WHERE c1 < 150 and c1 > 110 \G
*************************** 1. row ***************************
Query Plan: ============================================
|ID|OPERATOR           |NAME|EST. ROWS|COST|
--------------------------------------------
|0 |EXCHANGE IN DISTR  |    |19       |1410|
|1 | EXCHANGE OUT DISTR|    |19       |1303|
|2 |  TABLE SCAN       |t1  |19       |1303|
============================================
Outputs & filters:
-------------------------------------
  0 - output([t1.c1], [t1.c2]), filter(nil)
  1 - output([t1.c1], [t1.c2]), filter(nil)
  2 - output([t1.c1], [t1.c2]), filter([t1.c1 < 150], [t1.c1 > 110]),
      access([t1.c1], [t1.c2]), partitions(p[0-1])

如果查询条件是等值条件，则可以进行分区裁剪。示例如下：

二级分区裁剪的基本原理

对于二级分区，先按照一级分区键确定一级需要访问的分区，然后在通过二级分区键确定二级分区需要访问的分区。然后做一个乘积确定二级分区访问的所有物理分区。

obclient> CREATE TABLE t1
(
  c1 INT ,
  c2 INT
)
PARTITION BY hash(c1)
SUBPARTITION BY RANGE(c2)
  SUBPARTITION sp0 VALUES less than(100),
  SUBPARTITION sp1 VALUES less than(200)
) partitions 5
SELECT * FROM t1
WHERE
(c1 = 1 OR c1 = 2) AND
(c2 > 101 AND c2 < 150)
obclient> EXPLAIN SELECT * FROM t1 WHERE (c1 = 1 or c1 = 2) and (c2 > 101 and c2 < 150) \G
*************************** 1. row ***************************
Query Plan: ============================================
|ID|OPERATOR           |NAME|EST. ROWS|COST|
--------------------------------------------
|0 |EXCHANGE IN DISTR  |     |1        |1403|
|1 |EXCHANGE OUT DISTR|    |1        |1303|
|2 |         TABLE SCAN       |t1  |1        |1303|
============================================
Outputs & filters:
-------------------------------------
  0 - output([t1.c1], [t1.c2]), filter(nil)
  1 - output([t1.c1], [t1.c2]), filter(nil)
      access([t1.c1], [t1.c2]), partitions(p1sp1, p2sp1)

某些场景下，分区裁剪可能会存在一定程度的放大，但优化器可以确保裁剪的结果是所需访问数据的超集，不会存在丢失数据的情况。