2021-02-23 分类: 网站建设
下面将主要从白盒监控的采集入手,解答上面关于新系统如何添加监控的问题。
图 1 黑盒与白盒监控
监控指标的采集
配置监控时,我们首要面对的是监控数据如何采集的问题。一般我们可以把监控指标分为两类:基础监控和业务监控。
基础监控
包括CPU、内存、磁盘、端口和进程等机器、网络的操作系统级别的信息。通常情况下,成熟的监控系统(例如开源的Prometheus、Zabbix等)均会提供基础监控项的采集能力,这里不做过多介绍。但需要注意的一点,机器级别的基础监控指标一般并不能代表服务的真实运行状况,例如单台实例的故障对一个设计合理的分布式系统来说并不会带来严重后果。所以只有结合业务相关监控指标,基础监控指标才有意义。
业务监控
业务监控指标由业务系统内部的服务产生,一般能够真实反应业务运行状态。设计合理的系统一般都会提供相关监控指标供监控系统采集。监控数据的采集方法一般可以分为以下几大类:
以上列出了几种常见的监控指标采集方法,在实际工作,如果没有现成的监控采集插件,则需要我们自行开发采集脚本。
四个黄金指标
图 2 四个黄金指标
无论业务系统如何复杂,监控指标如何眼花缭乱,但万变不离其宗,监控的目的无非是为了解服务运行状况、发现服务故障和帮助定位故障原因。为了达成这个目的,Google SRE总结的监控四个黄金指标对我们添加监控具有非常重要的指导意义。图 2给出四个黄金指标所包含的主要监控指标,下面我们就这四个黄金指标分别展开说明,并给出一些监控项的采集实例。
错误:错误是指当前系统发生的错误请求
和错误率
说明:
错误是需要在添加监控时首要关注的指标。在添加错误相关监控时,我们应该关注以下几个方面:
基础监控:宕机、磁盘(坏盘或文件系统错误)、进程或端口挂掉、网络丢包等故障
业务监控:
注意:除白盒监控外,主要功能或接口、以及内部存在明显边界的功能模块和上游依赖模块,都应该添加黑盒端到端监控。
延迟:服务请求所需时间
说明:
服务延迟的上升不仅仅体现在用户体验的下降,也有可能会导致请求堆积并最终演变为整个业务系统的雪崩。以下为延迟指标的主要关注点:
注意:与错误指标类似,白盒延迟指标通常仅能代表系统内部延迟,建议为主要功能或接口添加黑盒监控来采集端到端的延迟指标。
流量:当前系统的流量
说明:
流量指标可以指系统层面的网络和磁盘IO,服务层面的QpS、PV和UV等数据。流量和突增或突减都可能预示着系统可能出现问题(攻击事件、系统故障…)。
饱和度:用于衡量当前服务的利用率
说明:
更为通俗的讲,饱和度可以理解为服务的利用率,可以代表系统承受的压力。所以饱和度与流量息息相关,流量的上升一般也会导致饱和度的上升。通常情况下,每种业务系统都应该有各自的饱和度指标。在很多业务系统中,消息队列长度是一个比较重要的饱和度指标,除此之外CPU、内存、磁盘、网络等系统资源利用率也可以作为饱和度的一种体现方式。
基础监控:CPU、内存、磁盘和网络利用率、内存堆栈利用率、文件句柄数、TCP连接数等
业务监控:
总结
以上总结了常见的监控指标采集方法,以及四个黄金指标所包含的常见内容。在实际工作中,不同的监控系统的设计多种多样,没有统一标准,并且不同的业务系统通常也有着特定的监控采集方法和不同的黄金指标定义,具体如何采集监控指标和添加告警都需要我们针对不同系统特点灵活应对。
在前面的监控系列文章中,我们介绍了Kafka、Zookeeper、ElasticSearch、Hadoop以及电商商城平台等一系列开源软件和业务系统的监控实践。但通常情况下,线上业务一般是由众多开源或自研中间件加上层业务系统组成。而业务系统的复杂度会随着系统变更和新业务上线而发生快速增长。不断变化的业务环境下,新业务层出不穷。当面临一个新系统时,监控工作应该如何开展?
本文标题:运维监控的终极秘籍,盘它!
当前地址:/news0/102500.html
成都网站建设公司_创新互联,为您提供网站营销、网站收录、云服务器、虚拟主机、小程序开发、网站策划
声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-86922220;邮箱:631063699@qq.com。内容未经允许不得转载,或转载时需注明来源: 创新互联
猜你还喜欢下面的内容