The invention provides a method and system for automatically acquiring faults. The method comprises the following steps: collecting the general indexes of an application program, collecting them once every interval of acquisition time, forming a general index sequence of an application program; judging whether the number of general indexes collected reaches the set number K; and if the number of general indexes collected reaches the set number K, acquiring them by sliding windows. At the same time, the general index sequence data in different time periods are calculated, and the stability of the general index sequence data in different time periods is judged according to the stationarity of the general index sequence data. The system includes acquisition module, index number judgment module, general index sequence data acquisition module in different time periods, stationarity calculation module of general index sequence data, fault judgment module of general index sequence and alarm module. The invention reduces the maintenance cost of the existing program and realizes the discovery of more hidden faults.
【技术实现步骤摘要】
一种自动获取故障的方法及系统
本专利技术属于互联网监控领域,具体涉及一种自动获取故障的方法及系统。
技术介绍
在互联网时代,我们有大量的后台程序在持续地运行,及时发现这些程序的故障并自动化处理,是互联网业务持续稳定提供服务的前提,这就是“故障发现”的重要之处。然而,现在的服务越来越多,越来越复杂,要做到自动化处理故障,首先现故障,这就为广大互联网企业提出了挑战。为了监控到服务故障,最低端的“故障发现”,是依赖于相关技术人员对业务和程序的了解,把他们的相关知识写成程序,通过监控一些特殊的指标来达到“故障发现”的目的,例如针对MySQL数据库服务,有MySQL的监控程序,针对Oracle数据库服务,则有另一套监控程序。这种做法有一个明显的优点,那就是针对性强。因为这个程序就是为了这个事情而写的。相应地,以上做法也有明显的缺点:监控的质量,取决于写程序的人的专业程度,越高级的工程师,写出来的程序效果越好;这也就说,如果对相应的程序或服务了解不深刻,写出的监控程序可能需要不断进化才能达到期望的效果,这期间可能会有“漏报”;不可复制性,增加一个新的程序或业务,都需要有专门的 ...
【技术保护点】
1.一种自动获取故障的方法,其特征在于,包括如下步骤:采集应用程序的通用指标,每间隔采集时间段采集一次,形成应用程序的通用指标序列;判断采集的通用指标数量是否达到设定数量K;若采集的通用指标数量达到设定数量K,则采用滑动窗口获取不同时间段的通用指标序列数据;计算不同时间段的通用指标序列数据的平稳性;根据通用指标序列数据的平稳性判断是否有通用指标序列故障。
【技术特征摘要】
1.一种自动获取故障的方法,其特征在于,包括如下步骤:采集应用程序的通用指标,每间隔采集时间段采集一次,形成应用程序的通用指标序列;判断采集的通用指标数量是否达到设定数量K;若采集的通用指标数量达到设定数量K,则采用滑动窗口获取不同时间段的通用指标序列数据;计算不同时间段的通用指标序列数据的平稳性;根据通用指标序列数据的平稳性判断是否有通用指标序列故障。2.如权利要求1所述的一种自动获取故障的方法,其特征在于,判断采集的通用指标数量是否达到设定数量K;当采集的通用指标数量小于等于设定数量K时,返回采集应用程序的通用指标步骤。3.如权利要求1所述的一种自动获取故障的方法,其特征在于,根据不同时间段的通用指标序列数据的平稳性,判断是否有通用指标序列故障之后还包括如下步骤:当某个通用指标序列故障时,发出报警,输出故障的应用程序及故障的应用程序对应的指标。4.如权利要求1所述的一种自动获取故障的方法,其特征在于,采用滑动窗口获取不同时间段的通用指标序列数据,具体步骤如下:采用滑动窗口获取通用指标序列中时间段最新的m个数据,m<K,形成序列Y_new;滑动窗口沿着时间段滑动,获取Y_new之前时间段的m个数据,形成序列Y_old。5.如权利要求4所述的一种自动获取故障的方法,其特征在于,计算不同时间段的通用指标序列数据的平稳性;根据通用指标序列数据的平稳性判断是否有通用指标序列故障的具体步骤如下:计算序列Y_new和Y_old的均值,分别设置为mean(Y_new)和mean(Y_old);计算序列Y_new和Y_old的方差,分别设置为dev(Y_old)和dev(Y_new);...
【专利技术属性】
技术研发人员:孙伟,
申请(专利权)人:浪潮电子信息产业股份有限公司,
类型:发明
国别省市:山东,37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。