check_ganglia_metric是Nagios的插件,它允许你触发警报的任何神经节的度量。
check_ganglia_metric沉重弗拉基米尔Vuksan的check_ganglia_metric.php的启发,但它配备了多项改进。
安装
#画中画安装check_ganglia_metric
...或者:
#easy_install的check_ganglia_metric
神经节的配置
除非你的Nagios服务器和神经节元守护在同一主机上运行,你可能需要编辑gmetad.conf允许来自Nagios服务器的远程连接。
允许从nagios-server.example.com连接:
trusted_hosts nagios-server.example.com
要允许所有主机(可能是安全风险)连接:
all_trusted上
测试在命令行
首先,让我们看看check_ganglia_metric可以与神经节元守护通信:
check_ganglia_metric.py --gmetad_host = gmetad-server.example.com
  - metric_host = host.example.com --metric_name = cpu_idle
状态好,CPU空闲= 99.3%| cpu_idle = 99.3%;;;;
“状态好”的消息表明,check_ganglia_metric正在工作。如果你遇到了麻烦这项工作,有详细记录再试一次启用(--verbose)为了更加深入地了解正在发生的事情是错误的。
现在让我们来尝试设置警告阈值:
check_ganglia_metric.py --gmetad_host = gmetad-server.example.com
  - metric_host = host.example.com --metric_name = cpu_idle --critical = 99
状态严重,CPU空闲= 99.6%| cpu_idle = 99.6%;; ;; 99
我们告诉check_ganglia_metric返回一个“关键”的状态,如果空闲CPU大于99.“临界状态”的消息表明,它的工作。注意:根据官方的Nagios插件开发指导方针,check_ganglia_metric解析的范围和阈值。
要查看简短的解释命令行选项,运行check_ganglia_metric用--help选项的完整列表。
Nagios的配置
首先,创建一个命令定义:
定义命令{
  COMMAND_NAME check_ganglia_metric
  COMMAND_LINE /usr/bin/check_ganglia_metric.py --gmetad_host = gmetad-server.example.com --metric_host = $ HOSTADDRESS $ --metric_name = $ ARG1 $ --warning = $ ARG2 $ --critical = $ ARG3 $
}
现在你可以在你的服务定义使用上面的命令:
定义服务{
  SERVICE_DESCRIPTION CPU空闲 - 神经节
 使用some_template
!  check_command check_ganglia_metric cpu_idle 0:0 20:0!
  HOST_NAME host.example.com
}
这将很好地工作,直到出现问题,check_ganglia_metric(如缓存文件不能被读取/写入,神经节元守护进程无法达到,等等)。在这一点上,每一个依赖于check_ganglia_metric服务会失败,可能会淹没你的警报。我们可以防止这种通过使用服务的依赖关系。
我们需要做的第一件事是检查文件的年龄命令定义:
定义命令{
  COMMAND_NAME check_file_age
  COMMAND_LINE / usr / lib中/的nagios /插件/ check_file_age -f $ ARG1 $ -w $ ARG2 $ -c $ ARG3 $
}
接下来,我们定义它检查check_ganglia_metric的缓存文件年龄的服务。需要注意的是,为了真正有效,这种服务需要被检查至少为(优选更多)经常比所有依赖check_ganglia_metric另一检查:
定义服务{
  SERVICE_DESCRIPTION缓存check_ganglia_metric
 使用some_template
 !!!check_command check_file_age /var/lib/nagios/.check_ganglia_metric.cache 60 120
  HOST_NAME本地主机
  check_interval 1
  max_check_attempts 1
}
最后,我们建立了实际的服务的依赖。请注意,我已经启用use_regexp_matching在Nagios的,这让我使用正则表达式在我的指令。通过坚持“ - 神经节”在每一个依赖于check_ganglia_metric服务结束后,我能救自己很多的努力:
定义servicedependency {
  HOST_NAME本地主机
  SERVICE_DESCRIPTION缓存check_ganglia_metric
  dependent_host_name *。
  dependent_service_description * - 神经节$
  execution_failure_criteria C,P
}
现在,如果出现错误与check_ganglia_metric,只有一个警报将被发送了关于缓存文件,以及所有相关的服务检查将暂停,直到你解决引起check_ganglia_metric失败的问题。一旦问题是固定的,你需要更新缓存文件的时间戳,以把“缓存check_ganglia_metric”的服务回一个OK状态(这将使相关服务的检查,以继续):
 触摸/var/lib/nagios/.check_ganglia_metric.cache
提示和技巧
这是可能通过启用以获取可用的主机和度量的完整列表“更详细”记录(-vv)。由于metric_host和METRIC_NAME选项是必需的,你有一个“鸡和蛋”的问题在这里一点点,不过没关系。只是提供一些虚拟数据。该插件将错误出在结尾加上一个“主机/公吨未找到”它转储其高速缓存错误,而不是之前:
  check_ganglia_metric.py --gmetad_host = gmetad-server.example.com
  - metric_host =假--metric_name =假-vv
什么是此版本中的新:
- 添加 - -metrics_max_age选项
- 在合并CHANGELOG.rst到README.rst
要求:
- 在Python中
- 的Nagios
限制:
- 在不使用Python 2.4正常工作
评论没有发现