集群参数 - 重要指标 - 《Rancher v2.4.4 中文文档》

集群指标用于展示集群内所有节点的硬件资源利用率，它们可以让您洞悉集群的全局状况。

以下是 Rancher 集群指标的说明：

CPU 利用率

当集群的 CPU 利用率处于高水平时，这表明集群可能在高效的运行，也可能是 CPU 资源不足。
磁盘利用率

当某个节点快满时，需要特别留意这个节点的磁盘读写速率。这一点对于部署运行了 etcd 的节点尤为重要，因为集群会由于这类节点的存储空间不足而崩溃。
内存利用率

内存利用率的异常增量通常意味着内存泄露。
平均负载

理想的情况下，平均负载与集群的逻辑 CPU 数量应该保持一致。例如，如果集群有 8 个逻辑 CPU，则理想的平均负载也应该等于 8。如果平均负载远低于集群的逻辑 CPU 数量，则可能需要减少集群资源。相反，集群可能需要更多资源。

Etcd 指标用于展示 etcd 数据库的操作情况。当确立了 etcd 数据库操作的”基准指标”后，您就可以通过这些”基准指标”来观察异常的增量。当出现异常的增量时，这表明 etcd 集群可能存在问题，您应该尽快予以解决。

另外，您还需要关注位于 Etcd 指标顶部的文本。这些文本代表着 etcd 集群领导者选举的信息，描述了当前 etcd 集群是否具有领导者，即协调集群中其他 etcd 实例的 etcd 实例。如果出现大幅度的 etcd 领导者变化，那将意味着 etcd 集群处于不稳定的状态。

Etcd 有领导者

etcd 通常以集群形式部署，部署到多个节点上并选举出一个领导者来协调集群操作。如果 ectd 集群没有领导者，集群的操作将无法被协调。
领导者变更次数

如果该统计数字突然增长，通常表明网络通信问题不断迫使 etcd 集群选举新的领导者。

Kubernetes 组件指标用于展示集群里各个 Kubernetes 组件的监控数据。它表示每个组件的链接和延迟的信息：API Server，Controller Manager，Scheduler 以及 Ingress Controller。

当分析 Kubernetes 组件指标时，不能仅关注图表内的某时刻的单个独立指标。相反，您应该观察一段时间以确立”指标基准”，通过它们来观察异常的增量。这些增量通常表明集群可能存在问题，您需要进行调查。

下面几个重要的组件指标需要做些说明：

API Server 请求延迟

API 响应时间的增加表明存在普遍的问题，需要进行调查。
API Server 请求率

API 请求率的上升通常和响应时间的增加相吻合。请求率的增加也表明存在普片的问题，需要进行调查。
Scheduler 抢占请求

如果看到 Scheduler 抢占请求图表内出现高峰，则表明硬件资源已消耗完，Kubernetes 没有足够的资源来运行所有 Pod，只能优先处理更重要的 Pod。
Ingress Controller 请求处理时长

Ingress 路由请求到集群内的速度。

Rancher 日志指标可以展示日志服务相关组件的操作情况，前提是您需要为 Rancher 启用日志服务。

工作负载的指标用于展示某个 Kubernetes 工作负载的硬件资源利用率。您可以查看关于 Deployment，等工作负载的指标。

在全局页面找到需要查看工作负载指标的目标项目。
在导航栏中下拉资源菜单，选择工作负载（在早于 v2.3.0 的版本中，可直接在导航栏中选择工作负载）。
点选对应的工作负载。
展开工作负载指标查看。
如果需要进一步查看 Pod 指标，可以点选该工作负载的 Pod 部分，
- 展开 Pod 指标查看。
- 如果需要再进一步查看 容器指标，可以点选该 Pod 的容器部分，