恢复 Kubernetes 上的 TiDB 集群数据

    TiDB Lightning 包含两个组件:tidb-lightning 和 tikv-importer。在 Kubernetes 上,tikv-importer 位于 TiDB 集群的 Helm chart 内,被部署为一个副本数为 1 () 的 StatefulSet;tidb-lightning 位于单独的 Helm chart 内,被部署为一个 Job

    为了使用 TiDB Lightning 恢复数据,tikv-importer 和 tidb-lightning 都必须分别部署。

    tikv-importer 可以在一个现有的 TiDB 集群上启用,或者在新建 TiDB 集群时启用。

    • 在新建一个 TiDB 集群时启用 tikv-importer:

      1. tidb-clustervalues.yaml 文件中将 importer.create 设置为 true

      2. 部署该集群。

    • 配置一个现有的 TiDB 集群以启用 tikv-importer:

      1. 升级该 TiDB 集群。

    1. 配置 TiDB Lightning

      使用如下命令获得 TiDB Lightning 的默认配置。

      • 本地模式

        本地模式要求 Mydumper 备份数据位于其中一个 Kubernetes 节点上。要启用该模式,你需要将 dataSource.local.nodeName 设置为该节点名称,将 dataSource.local.hostPath 设置为 Mydumper 备份数据目录路径,该路径中需要包含名为 的文件。

      • 远程模式

        与本地模式不同,远程模式需要使用 将 Mydumper 备份 tarball 文件从网络存储中下载到 PV 中。远程模式能在 rclone 支持的任何云存储下工作,目前已经有以下存储进行了相关测试:Google Cloud Storage (GCS)、 和 Ceph Object Storage

        1. 确保 values.yaml 中的 dataSource.local.nodeNamedataSource.local.hostPath 被注释掉。

        2. 新建一个包含 rclone 配置的 Secret。rclone 配置示例如下。一般只需要配置一种云存储。有关其他的云存储,请参考 。

          使用你的实际配置替换上述配置中的占位符,并将该文件存储为 secret.yaml。然后通过 kubectl apply -f secret.yaml -n <namespace> 命令创建该 Secret

        3. dataSource.remote.storageClassName 设置为 Kubernetes 集群中现有的一个存储类型。

    当 TiDB Lightning 未能成功恢复数据时,不能简单地直接重启进程,必须进行手动干预,否则将很容易出现错误。因此,tidb-lightning 的 Job 重启策略被设置为 Never

    如果 TiDB Lightning 未能成功恢复数据,需要采用以下步骤进行手动干预:

    1. 运行 ,删除 lightning Job

    2. 运行 helm template pingcap/tidb-lightning --name <tidb-lightning-release-name> --set failFast=false -f tidb-lightning-values.yaml | kubectl apply -n <namespace> -f -,重新创建禁用 failFast 的 lightning Job

    3. 当 lightning pod 重新运行时,在 lightning 容器中执行 kubectl exec -it -n <namesapce> <tidb-lightning-pod-name> sh 命令。

    4. 运行 cat /proc/1/cmdline,获得启动脚本。

    5. 参考故障排除指南,对 lightning 进行诊断。

    目前,TiDB Lightning 只能在线下恢复数据。当恢复过程结束、TiDB 集群需要向外部应用提供服务时,可以销毁 TiDB Lightning 以节省开支。

    删除 tikv-importer 的步骤:

    1. 在 TiDB 集群 chart 的 values.yaml 文件中将 importer.create 设置为 false

    2. 然后运行 helm upgrade <tidb-cluster-release-name> pingcap/tidb-cluster -f values.yaml

    删除 tidb-lightning 的方法: