有一些告警使用 Prometheus 表达式作为触发指标,请参考 Rancher Prometheus 表达式有关文档或者查询 ,获取表达式的使用指南。

etcd 告警

Etcd 是键值存储数据库,它存储了 Kubernetes 集群状态。Rancher 提供 Etcd 健康状态告警和表达式告警,健康状态告警不必启用监控即可接收这些告警。

集群的 leader 变更是正常现象,但是 leader 在短时间内频繁改变,则很可能是网络出现问题或 CPU 负载过高导致的问题。延迟较长时,默认的 etcd 配置可能会导致频繁的心跳超时,从而触发新的 leader 选举。

当核心 Kubernetes 系统组件变得不正常时,Rancher 会发出告警。

调度器服务是 Kubernetes 的核心组件。它负责根据各种配置,指标,资源需求和特定工作负载的需求,将集群工作负载调度到节点。

事件告警

Kubernetes 事件是可以深入了解集群内部事件的对象,例如调度程序做出了哪些决定或为什么从节点上驱逐了某些 Pod。在 Rancher UI 中,从项目视图中,您可以查看每个工作负载的事件。

项目级别告警

启用对项目的监视时,将提供一些项目级别的告警。有关详细信息,请参阅。