不要在安装 Rancher 的 Kubernetes 集群中运行其他工作负载或微服务。

不要在托管的 Kubernetes 环境中运行 Rancher

当 Rancher Server 安装在 Kubernetes 集群上时,它不应该在托管的 Kubernetes 环境中运行,比如谷歌的 GKE、Amazon 的 EKS 或 Microsoft 的 AKS。这些托管的 Kubernetes 解决方案没有将 etcd 开放到 Rancher 可以管理的程度,并且它们的自定义设置可能会干扰 Rancher 的操作。

建议使用托管的基础设施,如 Amazon 的 EC2 或谷歌的 GCE。在基础设施提供者上使用 RKE 创建集群时,您可以配置集群创建 etcd 快照作为备份。然后,您可以使用 RKE 或 从这些快照之一恢复您的集群。在托管的 Kubernetes 环境中,不支持这种备份和恢复功能。

使用 RKE 备份状态文件

对于之前的版本,ETCD 备份会自动将/etc/kubernetes/ssl/目录下的所有证书打包为pki.bundle.tar.gz文件,然后保存在目录中。

对于RKE v0.2之后的版本,RKE 将集群状态记录在一个名为cluster.rkestate的文件中,这个文件存放于与 RKE 配置文件相同目录。这个文件保存了集群的 SSL 证书信息,对于通过 RKE 恢复集群集群的后期维护非常重要。由于该文件包含证书信息,我们强烈建议在备份之前对该文件进行加密,并且每次运行rke up之后,您都应该备份此状态文件。

为了获得最佳性能,请在同一个的数据中心中运行所有集群节点。

开发和生产环境应该类似

强烈建议使用 Rancher 创建staging或环境的 Kubernetes 集群,这个环境应该在软件和硬件配置方面尽可能的与生产环境相同。

Rancher Server 的 Local Kubernetes 集群应该尽可能符合系统和硬件需求。您越偏离系统和硬件需求,您承担的风险就越大。

但是,基于指标的容量规划分析应该是扩展 Rancher 的最终指导,因为我们发布的需求建议考虑了各种工作负载类型。

在集群中之后,您可以设置通知和,让您知道您的集群是否接近其容量。您还可以使用 Prometheus 和 Grafana 监控框架来建立适合您的规模的关键指标基准。