使用 Nagios 监控
使用 Nagios 监控 DC/OS 集群
本指南假设您已安装且为集群配置了 Nagios。以下是流行配置管理套件的链接:
- 木偶模块:
- 厨师食谱:schubergphilis/nagios
- 手动安装:
-
最常见的 Nagios 实现错误是构建过度复杂的脚本,而这些脚本不会注意检查所需的资源。这可能会影响集群的性能。确保您的检查清洁,需要较少的资源开销,并充分利用其被催生的过程(例如,不将 传输至
awk
)。 通过 DC/OS 运行 Nagios
我们不建议通过 DC/OS 运行 Nagios。在您正在监控的集群上运行监控平台存在固有缺陷:如果集群出问题,监控平台也会出问题。
监控内容
DC/OS 仅在 上运行。使用 Nagios 来跟踪装置很容易。您可以使用 NRPE 远程检查的一个流行脚本,如 ,或者设计您自己的脚本。
虽然代理节点和管理节点的装置不同,但您可以很容易确定监控哪些装置而不对它们进行硬编码(因为它们易于更改或添加)。通过添加简单的包装器来修改 jonschipp/nagios-plugins/check_service.sh,以便仅监控 DC/OS 装置:
如果组件服务(如 Admin Router)不健康,此脚本将引发故障:
ip-10-0-6-126 core # ./dcos_unit_check.sh
如果您打算监控容器内部的情况,我们建议您运行一项服务,如 。