监控
监控层次
监控系统的性能和告警功能对集群的运维至关重要,通过监控系统的历史性能数据可以了解系统的过去、现在的运行的状态,为性能优化和扩容提供依据;监控系统同时在系统异常时及时告警,让我们能时刻感知到系统的故障。 目前我们对集群的不同层面都做了监控。
监控层 | 监控项 |
---|---|
网络设备 | 端口 |
物理主机 | CPU、磁盘、内存、网络等 |
Ceph集群 | 健康状态、容量、读写IOPS、PG等 |
与zabbix监控系统集成
我们没有使用Ceph自带的calamari系统,因界面虽然漂亮,但缺乏必要的告警功能,不能满足项目需求。 我们采用了与开源监控领域大名鼎鼎的zabbix系统的方案。 同时Zabbix系统也是整个云平台的监控系统。
具体集成过程可以看下面的git项目,过程很简单不再累述。 Ceph zabbix 采集脚本: https://github.com/thelan/ceph-zabbix
告警条件设置
下图是集群告警条件的设置供参考:
监控面板
下图展示一下YY云平台Ceph集群的监控面板: