TiCDC 简介
- 数据库灾备:TiCDC 可以用于同构数据库之间的灾备场景,能够在灾难发生时保证主备集群数据的最终一致性,目前该场景仅支持 TiDB 作为主备集群。
- 数据集成:TiCDC 提供 ,支持其他系统订阅数据变更,能够为监控、缓存、全文索引、数据分析、异构数据库的主从复制等场景提供数据源。
要快速了解 TiCDC 的基本原理和使用方法,建议先观看下面的培训视频(时长 33 分钟)。注意本视频只为学习参考,具体操作步骤和最新功能,请以文档内容为准。
TiCDC 架构
TiCDC 运行时是一种无状态节点,通过 PD 内部的 etcd 实现高可用。TiCDC 集群支持创建多个同步任务,向多个不同的下游进行数据同步。
TiCDC 的系统架构如下图所示:
TiKV CDC 组件:只输出 key-value (KV) change log。
- 内部逻辑拼装 KV change log。
- 提供输出 KV change log 的接口,发送数据包括实时 change log 和增量扫的 change log。
capture
:TiCDC 运行进程,多个capture
组成一个 TiCDC 集群,负责 KV change log 的同步。- 每个
capture
负责拉取一部分 KV change log。 - 对拉取的一个或多个 KV change log 进行排序。
- 向下游还原事务或按照 TiCDC Open Protocol 进行输出。
- 每个
同步功能介绍
本部分介绍 TiCDC 的同步功能。
sink 支持
目前 TiCDC sink 模块支持同步数据到以下下游:
- MySQL 协议兼容的数据库,提供最终一致性支持。
- 以 TiCDC Open Protocol 输出到 Kafka,可实现行级别有序、最终一致性或严格事务一致性三种一致性保证。
数据同步顺序
- TiCDC 对于所有的 DDL/DML 都能对外输出至少一次。
- TiCDC 在 TiKV/TiCDC 集群故障期间可能会重复发相同的 DDL/DML。对于重复的 DDL/DML:
- MySQL sink 可以重复执行 DDL,对于在下游可重入的 DDL (譬如 truncate table)直接执行成功;对于在下游不可重入的 DDL(譬如 create table),执行失败,TiCDC 会忽略错误继续同步。
- Kafka sink 会发送重复的消息,但重复消息不会破坏 Resolved Ts 的约束,用户可以在 Kafka 消费端进行过滤。
数据同步一致性
MySQL sink
- TiCDC 不拆分单表事务,保证单表事务的原子性。
- TiCDC 不保证下游事务的执行顺序和上游完全一致。
- TiCDC 保证单行的更新与上游更新顺序一致。
-
- TiCDC 提供不同的数据分发策略,可以按照表、主键或 ts 等策略分发数据到不同 Kafka partition。
- 不同分发策略下 consumer 的不同实现方式,可以实现不同级别的一致性,包括行级别有序、最终一致性或跨表事务一致性。
- TiCDC 没有提供 Kafka 消费端实现,只提供了 ,用户可以依据该协议实现 Kafka 数据的消费端。
使用 TiCDC 进行同步的时候,请注意以下相关限制要求以及暂不支持的场景。
有效索引的相关要求
TiCDC 只能同步至少存在一个有效索引的表,有效索引的定义如下:
- 主键 (
PRIMARY KEY
) 为有效索引。 - 同时满足下列条件的唯一索引 (
UNIQUE INDEX
) 为有效索引:- 索引中每一列在表结构中明确定义非空 (
NOT NULL
)。 - 索引中不存在虚拟生成列 (
VIRTUAL GENERATED COLUMNS
)。
- 索引中每一列在表结构中明确定义非空 (
TiCDC 从 4.0.8 版本开始,可通过修改任务配置来同步没有有效索引的表,但在数据一致性的保证上有所减弱。具体使用方法和注意事项参考同步没有有效索引的表。
目前 TiCDC 暂不支持的场景如下:
- 暂不支持单独使用 RawKV 的 TiKV 集群。
- 暂不支持在 TiDB 中创建 SEQUENCE 的 DDL 操作和 。在上游 TiDB 使用 SEQUENCE 时,TiCDC 将会忽略掉上游执行的 SEQUENCE DDL 操作/函数,但是使用 SEQUENCE 函数的 DML 操作可以正确地同步。
- 对上游存在较大事务的场景提供部分支持,详见 TiCDC 是否支持同步大事务?有什么风险吗?
TiCDC 安装和部署
要安装 TiCDC,可以选择随新集群一起部署,也可以对现有 TiDB 集群新增 TiCDC 组件。详请参阅 TiCDC 安装部署。
TiCDC 集群管理和同步任务管理
目前支持使用 cdc cli
工具或 HTTP 接口来管理 TiCDC 集群状态和数据同步任务。详细操作见:
TiCDC Open Protocol 是一种行级别的数据变更通知协议,为监控、缓存、全文索引、分析引擎、异构数据库的主从复制等提供数据源。TiCDC 遵循 TiCDC Open Protocol,向 MQ (Message Queue) 等第三方数据媒介复制 TiDB 的数据变更。详细信息参考 。
兼容性问题
使用 TiCDC v5.0.0-rc 版本的 cdc cli
工具操作 v4.0.x 集群导致不兼容问题
使用 TiCDC v5.0.0-rc 版本的 cdc cli
工具操作 v4.0.x 版本的 TiCDC 集群时,可能会遇到如下异常情况:
- 若 TiCDC 集群版本为 v4.0.8 或以下,使用 v5.0.0-rc 版本的
cdc cli
创建同步任务 changefeed 时,可能导致 TiCDC 集群陷入异常状态,导致同步卡住。 - 若 TiCDC 集群版本为 v4.0.9 或以上,使用 v5.0.0-rc 版本的
cdc cli
创建同步任务 changefeed,会导致 Old Value 和 Unified Sorter 特性被非预期地默认开启。
处理方案:
使用和 TiCDC 集群版本对应的 cdc
可执行文件进行如下操作:
- 删除使用 v5.0.0-rc 版本创建的 changefeed,例如:。
- 如果 TiCDC 同步已经卡住,重启 TiCDC 集群,例如:
tiup cluster restart <cluster_name> -R cdc
。
注意:
上述问题仅在
cdc cli
的版本是 v5.0.0-rc 时存在。未来其他 v5.0.x 版本的cdc cli
可以兼容 v4.0.x 版本的集群。
sort-dir
配置项用于给 TiCDC 内部的排序器指定临时文件目录,其作用在各版本有过如下兼容性更改:
全局临时表兼容性说明
TiCDC 从 v5.3.0 开始支持全局临时表。
你需要使用 TiCDC v5.3.0 及以上版本同步全局临时表到下游。低于该版本,会导致表定义错误。
如果 TiCDC 的上游集群包含全局临时表,下游集群也必须是 TiDB 5.3.0 及以上版本,否则同步报错。