批量删除

对于类似于cdc 数据的导入的场景，数据数据中insert 和delete 一般是穿插出现的，面对这种场景我们目前的导入方式也无法满足，即使我们能够分离出insert 和delete 虽然可以解决导入的问题，但是仍然解决不了删除的问题。使用批量删除功能可以解决这些个场景的需求。数据导入有三种合并方式：

APPEND: 数据全部追加到现有数据中
DELETE: 删除所有与导入数据key 列值相同的行
MERGE: 根据 DELETE ON 的决定 APPEND 还是 DELETE

通过增加一个隐藏列实现，因为我们只是在unique 模型上做批量删除，因此只需要增加一个类型为bool 聚合函数为replace 的隐藏列即可。在be 各种聚合写入流程都和正常列一样，读取方案有两个：

在fe遇到 * 等扩展时去去掉__DORIS_DELETE_SIGN__，并且默认加上 __DORIS_DELETE_SIGN__ != true 的条件 be 读取时都会加上一列进行判断，通过条件确定是否删除。

导入时在fe 解析时将隐藏列的值设置成 DELETE ON 表达式的值，其他的聚合行为和replace的聚合列相同

读取时在所有存在隐藏列的olapScanNode上增加__DORIS_DELETE_SIGN__ != true 的条件，be 不感知这以过程，正常执行

Cumulative Compaction 时将隐藏列看作正常的列处理，Compaction逻辑没有变化

Base Compaction 时要将标记为删除的行的删掉，以减少数据占用的空间

stream load

stream load 的写法在在header 中的 columns 字段增加一个设置删除标记列的字段，示例 -H "columns: k1, k2, label_c3" -H "merge_type: [MERGE|APPEND|DELETE]" -H "delete: label_c3=1"

broker load

在PROPERTIES 处设置删除标记列的字段

routine load

routine load 在columns 字段增加映射映射方式同上，示例如下

   CREATE ROUTINE LOAD example_db.test1 ON example_tbl 
    [WITH MERGE|APPEND|DELETE]
    COLUMNS(k1, k2, k3, v1, v2, label),
    WHERE k1 > 100 and k2 like "%doris%"
    [DELETE ON label=true]
    PROPERTIES
    (
        "desired_concurrent_number"="3",
        "max_batch_interval" = "20",
        "max_batch_size" = "209715200",
        "strict_mode" = "false"
    )
    FROM KAFKA
    (
        "kafka_topic" = "my_topic",
        "kafka_partitions" = "0,1,2,3",
        "kafka_offsets" = "101,0,0,200"
    );

启用批量删除支持有两种形式：

通过在fe 配置文件中增加enable_batch_delete_by_default=true 重启fe 后新建表的都支持批量删除，此选项默认为false
对于没有更改上述fe 配置或对于以存在的不支持批量删除功能的表，可以使用如下语句： ALTER TABLE tablename ENABLE FEATURE "BATCH_DELETE" 来启用批量删除。本操作本质上是一个schema change 操作，操作立即返回，可以通过show alter table column 来确认操作是否完成。

如果确定一个表是否支持批量删除，可以通过设置一个session variable 来显示隐藏列 SET show_hidden_columns=true ，之后使用desc tablename，如果输出中有__DORIS_DELETE_SIGN__ 列则支持，如果没有则不支持

由于除stream load 外的导入操作在doris 内部有可能乱序执行，因此在使用MERGE 方式导入时如果不是stream load，需要与 load sequence 一起使用，具体的语法可以参照sequence列相关的文档
DELETE ON 条件只能与 MERGE 一起使用

正常导入数据：

curl --location-trusted -u root: -H "column_separator:," -H "columns: siteid, citycode, username, pv" -H "merge_type: APPEND"  -T ~/table1_data http://127.0.0.1:8130/api/test/table1/_stream_load

其中的APPEND 条件可以省略，与下面的语句效果相同：

curl --location-trusted -u root: -H "column_separator:," -H "columns: siteid, citycode, username, pv" -T ~/table1_data http://127.0.0.1:8130/api/test/table1/_stream_load

将与导入数据key 相同的数据全部删除

假设导入表中原有数据为:

+--------+----------+----------+------+
| siteid | citycode | username | pv   |
+--------+----------+----------+------+
|      3 |        2 | tom      |    2 |
|      4 |        3 | bush     |    3 |
|      5 |        3 | helen    |    3 |

导入数据为：

3,2,tom,0

导入后数据变成:


| siteid | citycode | username | pv   |
+--------+----------+----------+------+
|      4 |        3 | bush     |    3 |
|      5 |        3 | helen    |    3 |
+--------+----------+----------+------+

将导入数据中与site_id=1 的行的key列相同的行

假设导入前数据为：

+--------+----------+----------+------+
| siteid | citycode | username | pv   |
+--------+----------+----------+------+
|      4 |        3 | bush     |    3 |
|      5 |        3 | helen    |    3 |
|      1 |        1 | jim      |    2 |
+--------+----------+----------+------+

导入数据为：

2,1,grace,2
3,2,tom,2
1,1,jim,2

导入后为：

+--------+----------+----------+------+
| siteid | citycode | username | pv   |
+--------+----------+----------+------+
|      4 |        3 | bush     |    3 |
|      2 |        1 | grace    |    2 |
|      3 |        2 | tom      |    2 |
+--------+----------+----------+------+