监控

监控层次

监控系统的性能和告警功能对集群的运维至关重要,通过监控系统的历史性能数据可以了解系统的过去、现在的运行的状态,为性能优化和扩容提供依据;监控系统同时在系统异常时及时告警,让我们能时刻感知到系统的故障。 目前我们对集群的不同层面都做了监控。

监控层 监控项
网络设备 端口
物理主机 CPU、磁盘、内存、网络等
Ceph集群 健康状态、容量、读写IOPS、PG等

与zabbix监控系统集成

我们没有使用Ceph自带的calamari系统,因界面虽然漂亮,但缺乏必要的告警功能,不能满足项目需求。 我们采用了与开源监控领域大名鼎鼎的zabbix系统的方案。 同时Zabbix系统也是整个云平台的监控系统。

具体集成过程可以看下面的git项目,过程很简单不再累述。 Ceph zabbix 采集脚本: https://github.com/thelan/ceph-zabbix

告警条件设置

下图是集群告警条件的设置供参考:

监控面板

下图展示一下YY云平台Ceph集群的监控面板:

results matching ""

    No results matching ""