分布式系统的监控方法和装置制造方法及图纸

技术编号:21476983 阅读:21 留言:0更新日期:2019-06-29 04:40
本说明书实施例提供一种分布式系统的监控方法和装置,所述分布式系统为由多个单机构成的集群,方法包括:首先获取所述分布式系统在当前预设时间周期内的多项高可用指标数据,所述多项高可用指标数据包括,各单机的多项单机高可用指标数据,以及集群的多项集群高可用指标数据,然后获取当前预设时间周期内的每项高可用指标对应的异动衡量函数,再分别利用对应的所述异动衡量函数,评估当前预设时间周期内的每项高可用指标数据,得到每项高可用指标数据是否需要预警的结果,从而能够及时发现高可用问题并精准定位问题点,以促进快速应急恢复。

【技术实现步骤摘要】
分布式系统的监控方法和装置
本说明书一个或多个实施例涉及计算机领域,尤其涉及分布式系统的监控方法和装置。
技术介绍
系统/软件/网站/平台等在运行过程中,高可用性是其非常重要的一个健壮性指标之一,保持持续对外提供高度可用的特性和状态,是衡量一个系统好坏非常重要的一点。而实际过程中,会因为各种各样的主客观原因(比如代码缺陷、网络故障、服务器硬件故障等),导致系统(或软件等)发生各种各样的高可用方面的问题,比如中央处理器(centralprocessingunit,CPU)飙升、频繁垃圾回收(garbagecollection,GC)等问题。这个时候最需要的是能第一时间识别并精细化定位到是哪方面的高可用问题,以便进行第一时间的应急恢复,来避免系统的可用性持续受损。分布式系统:支持分布式处理的软件系统,是在由通信网络互联的多处理机体系结构上执行任务的系统。它包括分布式操作系统、分布式程序设计语言及其编译(解释)系统、分布式文件系统和分布式数据库系统等。分布式系统为由多个单机构成的集群。当前对于分布式系统的监控方法有两类:一类监控方法是只提供业务异动监控,这类监控解决方案能做到业务发生异动了通过信息预警出来,但这类业务监控更多是从业务变化的角度进行的异动感知,如果是因为高可用方面的问题引发的话,不能精准的定位到问题根源,带来系统人员接收到预警后,还需要结合一些其他信息再进一步分析问题的源头,增加了问题排查和应急的耗时。另一类监控方法是对于系统的部分高可用指标进行检测,基本上监控的都是集群平均异动,而有时候并不会所有单机一起发生异动,而只是其中个别单机发生了问题,这个时候集群整体的平均结果来看,异动的量级是极小的,不会触发到预警,导致问题无法被发现。并且,因为单机的数目很多以及链路比较复杂,当发生问题后,很难精准的定位到是哪个单机的哪个高可用指标发生了异动,无法做到快速定位。因此,希望能有改进的方案,能够及时发现高可用问题并精准定位问题点,以促进快速应急恢复。
技术实现思路
本说明书一个或多个实施例描述了一种分布式系统的监控方法和装置,能够及时发现高可用问题并精准定位问题点,以促进快速应急恢复。第一方面,提供了一种分布式系统的监控方法,所述分布式系统为由多个单机构成的集群,方法包括:获取所述分布式系统在当前预设时间周期内的多项高可用指标数据,所述多项高可用指标数据包括,各单机的多项单机高可用指标数据,以及集群的多项集群高可用指标数据;获取当前预设时间周期内的每项高可用指标对应的异动衡量函数;分别利用对应的所述异动衡量函数,评估当前预设时间周期内的每项高可用指标数据,得到每项高可用指标数据是否需要预警的结果。在一种可能的实施方式中,所述获取所述分布式系统在当前预设时间周期内的多项高可用指标数据,包括:获取所述分布式系统在当前预设时间周期内的日志;针对同一来源地址的所述日志按照预设模型进行解析,得到所述各单机的多项单机高可用指标数据。进一步地,其中,所述获取所述分布式系统在当前预设时间周期内的多项高可用指标数据,还包括:对所述各单机的多项单机高可用指标数据按照预设算法进行运算,确定所述集群的多项集群高可用指标数据。进一步地,其中,所述日志包括运行性能日志和/或基础服务日志。进一步地,其中,所述运行性能日志包括CPU的使用情况数据、负荷情况数据、内存使用情况数据和GC次数数据中的至少一项;所述高可用指标包括CPU的使用情况参数、负荷情况参数、内存使用情况参数和GC参数中的至少一项。进一步地,其中,所述基础服务日志包括接口方法调用耗时、接口方法调用结果、数据库操作的接口方法耗时和数据库操作的接口方法结果中的至少一项;所述高可用指标包括接口方法调用耗时参数、接口方法调用结果参数、数据库操作的接口方法耗时参数和数据库操作的接口方法结果参数中的至少一项。在一种可能的实施方式中,其中,所述异动衡量函数通过以下方式确定:对所述当前预设时间周期之前的至少一个预设时间周期内获取的所述多项高可用指标数据分别进行统计分析,确定所述当前预设时间周期的每项高可用指标对应的指标基线公式;根据所述当前预设时间周期的每项高可用指标对应的指标基线公式,确定所述当前预设时间周期的每项高可用指标对应的异动衡量函数。进一步地,其中,所述对所述当前预设时间周期之前的至少一个预设时间周期内获取的所述多项高可用指标数据分别进行统计分析,确定所述当前预设时间周期的每项高可用指标对应的指标基线公式,包括:假定所述当前预设时间周期之前的至少一个预设时间周期内获取的所述多项高可用指标数据按照正态分布,根据数值分布的概率确定所述当前预设时间周期的每项高可用指标对应的指标基线公式。进一步地,其中,所述根据所述当前预设时间周期的每项高可用指标对应的指标基线公式,确定所述当前预设时间周期的每项高可用指标对应的异动衡量函数,包括:根据所述当前预设时间周期的每项高可用指标对应的指标基线公式,以及所述当前预设时间周期的每项高可用指标与上一个预设时间周期的每项高可用指标的环比比值,和/或同比比值,确定所述当前预设时间周期的每项高可用指标对应的异动衡量函数。在一种可能的实施方式中,其中,所述方法还包括:对所述多项高可用指标数据以及每项高可用指标数据是否需要预警的结果分别按照集群维度和单机维度进行信息聚合,组装成预警信息报文;根据所述预警信息报文对应的单机或集群,将所述预警信息报文以预设方式发送给与该单机或集群对应的预设终端。进一步地,其中,所述预设方式包括以下一种或多种方式:即时通信(instantmessaging,IM)通知、短信和电话。第二方面,提供了一种分布式系统的监控装置,所述分布式系统为由多个单机构成的集群,装置包括:第一获取单元,用于获取所述分布式系统在当前预设时间周期内的多项高可用指标数据,所述多项高可用指标数据包括,各单机的多项单机高可用指标数据,以及集群的多项集群高可用指标数据;第二获取单元,用于获取当前预设时间周期内的每项高可用指标对应的异动衡量函数;评估单元,用于分别利用所述第二获取单元获取的对应的所述异动衡量函数,评估当前预设时间周期内的每项高可用指标数据,得到每项高可用指标数据是否需要预警的结果。第三方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面的方法。第四方面,提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面的方法。通过本说明书实施例提供的方法和装置,所述分布式系统为由多个单机构成的集群,首先获取所述分布式系统在当前预设时间周期内的多项高可用指标数据,所述多项高可用指标数据包括,各单机的多项单机高可用指标数据,以及集群的多项集群高可用指标数据,然后获取当前预设时间周期内的每项高可用指标对应的异动衡量函数,再分别利用对应的所述异动衡量函数,评估当前预设时间周期内的每项高可用指标数据,得到每项高可用指标数据是否需要预警的结果。由上可见,本说明书实施例中不仅获取了集群的多项集群高可用指标数据,而且获取了各单机的多项单机高可用指标数据,并且根据异动衡量函数判断每项高可用指标数据是否需要预警(即是否发生异动),其中,不同的预设本文档来自技高网
...

【技术保护点】
1.一种分布式系统的监控方法,所述分布式系统为由多个单机构成的集群,所述方法包括:获取所述分布式系统在当前预设时间周期内的多项高可用指标数据,所述多项高可用指标数据包括,各单机的多项单机高可用指标数据,以及集群的多项集群高可用指标数据;获取当前预设时间周期内的每项高可用指标对应的异动衡量函数;分别利用对应的所述异动衡量函数,评估当前预设时间周期内的每项高可用指标数据,得到每项高可用指标数据是否需要预警的结果。

【技术特征摘要】
1.一种分布式系统的监控方法,所述分布式系统为由多个单机构成的集群,所述方法包括:获取所述分布式系统在当前预设时间周期内的多项高可用指标数据,所述多项高可用指标数据包括,各单机的多项单机高可用指标数据,以及集群的多项集群高可用指标数据;获取当前预设时间周期内的每项高可用指标对应的异动衡量函数;分别利用对应的所述异动衡量函数,评估当前预设时间周期内的每项高可用指标数据,得到每项高可用指标数据是否需要预警的结果。2.如权利要求1所述的方法,其中,所述获取所述分布式系统在当前预设时间周期内的多项高可用指标数据,包括:获取所述分布式系统在当前预设时间周期内的日志;针对同一来源地址的所述日志按照预设模型进行解析,得到所述各单机的多项单机高可用指标数据。3.如权利要求2所述的方法,其中,所述获取所述分布式系统在当前预设时间周期内的多项高可用指标数据,还包括:对所述各单机的多项单机高可用指标数据按照预设算法进行运算,确定所述集群的多项集群高可用指标数据。4.如权利要求2所述的方法,其中,所述日志包括运行性能日志和/或基础服务日志。5.如权利要求4所述的方法,其中,所述运行性能日志包括中央处理器CPU的使用情况数据、负荷情况数据、内存使用情况数据和垃圾回收GC次数数据中的至少一项;所述高可用指标包括中央处理器CPU的使用情况参数、负荷情况参数、内存使用情况参数和垃圾回收GC参数中的至少一项。6.如权利要求4所述的方法,其中,所述基础服务日志包括接口方法调用耗时、接口方法调用结果、数据库操作的接口方法耗时和数据库操作的接口方法结果中的至少一项;所述高可用指标包括接口方法调用耗时参数、接口方法调用结果参数、数据库操作的接口方法耗时参数和数据库操作的接口方法结果参数中的至少一项。7.如权利要求1所述的方法,其中,所述异动衡量函数通过以下方式确定:对所述当前预设时间周期之前的至少一个预设时间周期内获取的所述多项高可用指标数据分别进行统计分析,确定所述当前预设时间周期的每项高可用指标对应的指标基线公式;根据所述当前预设时间周期的每项高可用指标对应的指标基线公式,确定所述当前预设时间周期的每项高可用指标对应的异动衡量函数。8.如权利要求7所述的方法,其中,所述对所述当前预设时间周期之前的至少一个预设时间周期内获取的所述多项高可用指标数据分别进行统计分析,确定所述当前预设时间周期的每项高可用指标对应的指标基线公式,包括:假定所述当前预设时间周期之前的至少一个预设时间周期内获取的所述多项高可用指标数据按照正态分布,根据数值分布的概率确定所述当前预设时间周期的每项高可用指标对应的指标基线公式。9.如权利要求7所述的方法,其中,所述根据所述当前预设时间周期的每项高可用指标对应的指标基线公式,确定所述当前预设时间周期的每项高可用指标对应的异动衡量函数,包括:根据所述当前预设时间周期的每项高可用指标对应的指标基线公式,以及所述当前预设时间周期的每项高可用指标与上一个预设时间周期的每项高可用指标的环比比值,和/或同比比值,确定所述当前预设时间周期的每项高可用指标对应的异动衡量函数。10.如权利要求1至9中任一项所述的方法,其中,所述方法还包括:对所述多项高可用指标数据以及每项高可用指标数据是否需要预警的结果分别按照集群维度和单机维度进行信息聚合,组装成预警信息报文;根据所述预警信息报文对应的单机或集群,将所述预警信息报文以预设方式发送给与该单机或集群对应的预设终端。11.如权利要求10所述的方法,其中,所述预设方式包括以下一种或多种方式:即时通信IM通知、短信和电话。12.一种分布式系统的监控装置,所述分布式系统为由多个单机构成的集群,所述装置包括...

【专利技术属性】
技术研发人员:倪军
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1