服务异常检测方法和装置、设备、存储介质制造方法及图纸

技术编号:33130488 阅读:17 留言:0更新日期:2022-04-17 00:46
本申请涉及智能运维技术领域,尤其涉及一种服务异常检测方法和装置、设备、存储介质。本申请实施例的服务异常检测方法,包括:确定与服务的性能指标相关的业务指标;构建所述业务指标和所述性能指标的关系模型;利用所述关系模型确定所述性能指标的异常阈值;根据与性能指标相关的业务指标在第一时刻的采集值,调用关系模型得到与业务指标相关的性能指标在第一时刻的预测值,根据性能指标在第一时刻的预测值、性能指标在第一时刻的采集值和性能指标的异常阈值,确定服务是否发生异常。本申请能够高效准确地识别服务是否发生异常,从而有效减少异常告警的误报和漏报。减少异常告警的误报和漏报。减少异常告警的误报和漏报。

【技术实现步骤摘要】
服务异常检测方法和装置、设备、存储介质


[0001]本申请涉及智能运维
,尤其涉及一种服务异常检测方法和装置、设备、存储介质。

技术介绍

[0002]近年来,随着微服务技术的快速发展,系统软件的规模变大、变更频率提高、调用关系日趋复杂,监控数据量越来越大,运维人员无法从海量监控数据中有效发现异常,传统系统运维方式受到极大挑战。基于数据驱动的智能化运维(AIOps)受到越来越多的关注,AIOps白皮书中提到了人工智能技术在应用运维领域落地实施的多个应用场景,其中通过人工智能算法准确的从监控数据中发现异常是智能运维在质量保障方向的重要应用场景。
[0003]目前,运维服务异常检测方法有很多,例如,基于固定阈值的同比法、环比法、基于统计假设的数据概率分布检验方法、基于时序数据的异常检测方法、基于数据驱动的机器学习、深度学习或人工智能检测方法对海量、高维、复杂场景进行异常检测的方法等。
[0004]目前,已有的运维服务异常检测方法主要存在如下缺陷:
[0005]1)基于时序数据预测的异常检测,不需要额外的数据作为先验知识,但是时序算法对要分析的数据有稳定性要求,短时预测相对准确,未来长时期数据预测效果差,而且异常数据的标签难以获取。
[0006]2)有监督的机器学习算法需要异常数据的标签,这些标签数据需要运维人员基于经验从大量的历史指标数据中进行标注,成本高、标注准确性也难以保证。
[0007]3)如基于参数估计的高斯模型、回归模型和混合参数分布模型等,无监督的统计模型,需预先假设数据满足某一概率分布,通过训练数据学习分布的参数从而确定数据分布以及异常,但是该假设分布与实际情况往往差别较大,并且某些实际情况难以用函数描述。
[0008]4)如聚类算法等无监督学习的非参数估计的异常检测方法,不需要假设分布和先验知识,而是直接采用数据密度和阈值,将低密度区域的数据实例检测为异常,该类方法不具有提早预测异常的能力,容易对极值等低密度区域的正常值产生误报。
[0009]此外,上述服务异常检测方法存在效率低、准确性较差、异常告警误报、异常告警漏报等问题。
[0010]因此,如何高效准确地识别运维监控指标的异常,避免异常告警的误报和漏报,是亟待解决的技术问题。

技术实现思路

[0011]鉴于现有技术的以上问题,本申请提供一种服务异常检测方法和装置、设备、存储介质,以高效准确地识别监控指标的异常,避免异常告警的误报和漏报。
[0012]为达到上述目的,本申请第一方面提供了一种服务异常检测方法,包括:
[0013]确定与服务的性能指标相关的业务指标;
[0014]构建所述业务指标和所述性能指标的关系模型;
[0015]利用所述关系模型确定所述性能指标的异常阈值;
[0016]根据与所述性能指标相关的业务指标在第一时刻的采集值,调用所述关系模型得到与所述业务指标相关的性能指标在第一时刻的预测值;
[0017]根据所述性能指标在第一时刻的预测值、所述性能指标在第一时刻的采集值和所述性能指标的异常阈值,确定服务是否发生异。
[0018]由此,可通过构建性能指标与业务指标的关系模型高效准确地识别服务的性能指标异常,有效减少异常告警的误报和漏报。
[0019]第一方面的一种可能的实现方式中,所述构建所述业务指标和所述性能指标的关系模型,包括:利用训练数据集,基于监督学习算法构建业务指标和性能指标的关系模型,所述训练数据集包括所述服务的性能指标历史数据和业务指标历史数据,所述性能指标历史数据包括所述性能指标的E个历史采集值,所述业务指标历史数据包括所述业务指标的E个历史采集值,E为大于1的整数。由此,通过服务的历史数据即可准确获得能够反映业务指标和性能指标之间直接关系的关系模型。
[0020]第一方面的一种可能的实现方式中,所述利用所述关系模型确定所述性能指标的异常阈值,包括:基于测试数据集中与所述性能指标相关的业务指标的测试数据和所述关系模型得到所述性能指标的预测数据,根据所述性能指标的预测数据与所述测试数据集中该性能指标的测试数据计算得到残差均值,以所述残差均值与预定的残差倍数的乘积作为所述性能指标的异常阈值;其中,所述测试数据集中包含业务指标的测试数据和性能指标的测试数据,所述业务指标的测试数据包括F个业务指标采集值,所述性能指标的测试数据包括F个性能指标采集值,所述性能指标的预测数据包括F个性能指标预测值,F为大于或等于1的整数。
[0021]由此,通过业务指标和性能指标的关系模型,结合残差倍数,获得更准确地异常阈值,从而进一步减少误告警
[0022]本申请第一方面的一种可能的实现方式中,根据所述性能指标在第一时刻的预测值、所述性能指标在第一时刻的采集值和所述性能指标的异常阈值,确定服务是否发生异,包括:确定所述性能指标在第一时刻的预测值与所述性能指标在第一时刻的采集值之间的残差;将所述性能指标的残差与所述性能指标的异常阈值比较,以确定所述服务发生异常还是所述服务正常。
[0023]由此,通过残差和阈值即可准确确认服务是否发生异常,计算复杂度低,计算资源的消耗也较低,可有效提高服务异常的检测效率。
[0024]本申请第二方面提供了一种服务异常检测装置,包括:
[0025]相关性确定模块,用于确定与服务的性能指标相关的业务指标;
[0026]模型构建模块,用于构建所述业务指标和所述性能指标的关系模型;
[0027]阈值确定模块,用于利用所述关系模型确定所述性能指标的异常阈值;
[0028]异常确定模块,用于根据与所述性能指标相关的业务指标在第一时刻的采集值,调用所述关系模型得到与所述业务指标相关的性能指标在第一时刻的预测值;以及,根据所述性能指标在第一时刻的预测值、所述性能指标在第一时刻的采集值和所述性能指标的异常阈值,确定服务是否发生异常。
[0029]第二方面的一种可能的实现方式中,所述模型构建模块,具体用于:利用训练数据集,基于监督学习算法构建业务指标和性能指标的关系模型,所述训练数据集包括所述服务的性能指标历史数据和业务指标历史数据,所述性能指标历史数据包括所述性能指标的E个历史采集值,所述业务指标历史数据包括所述业务指标的E个历史采集值,E为大于1的整数。
[0030]第二方面的一种可能的实现方式中,所述阈值确定模块,具体用于:
[0031]基于测试数据集中与所述性能指标相关的业务指标的测试数据和所述关系模型得到所述性能指标的预测数据,根据所述性能指标的预测数据与所述测试数据集中该性能指标的测试数据计算得到残差均值,以所述残差均值与预定的残差倍数的乘积作为所述性能指标的异常阈值;其中,所述测试数据集中包含业务指标的测试数据和性能指标的测试数据,所述业务指标的测试数据包括F个业务指标采集值,所述性能指标的测试数据包括F个性能指标采集值,所述性能指标的预测数据包括F个性能指标预测值,F为大于或等于1的整数。
[0032]第本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种服务异常检测方法,其特征在于,包括:确定与服务的性能指标相关的业务指标;构建所述业务指标和所述性能指标的关系模型;利用所述关系模型确定所述性能指标的异常阈值;根据与所述性能指标相关的业务指标在第一时刻的采集值,调用所述关系模型得到与所述业务指标相关的性能指标在第一时刻的预测值;根据所述性能指标在第一时刻的预测值、所述性能指标在第一时刻的采集值和所述性能指标的异常阈值,确定服务是否发生异常。2.根据权利要求1所述的服务异常检测方法,其特征在于,所述构建所述业务指标和所述性能指标的关系模型,包括:利用训练数据集,基于监督学习算法构建业务指标和性能指标的关系模型,所述训练数据集包括所述服务的性能指标历史数据和业务指标历史数据,所述性能指标历史数据包括所述性能指标的E个历史采集值,所述业务指标历史数据包括所述业务指标的E个历史采集值,E为大于1的整数。3.根据权利要求1所述的服务异常检测方法,其特征在于,所述利用所述关系模型确定所述性能指标的异常阈值,包括:基于测试数据集中与所述性能指标相关的业务指标的测试数据和所述关系模型得到所述性能指标的预测数据,根据所述性能指标的预测数据与所述测试数据集中该性能指标的测试数据计算得到残差均值,以所述残差均值与预定的残差倍数的乘积作为所述性能指标的异常阈值;其中,所述测试数据集中包含业务指标的测试数据和性能指标的测试数据,所述业务指标的测试数据包括所述业务指标的F个采集值,所述性能指标的测试数据包括所述性能指标的F个采集值,所述性能指标的预测数据包括所述性能指标的F个预测值,F为大于或等于1的整数。4.根据权利要求1所述的服务异常检测方法,其特征在于,根据所述性能指标在第一时刻的预测值、所述性能指标在第一时刻的采集值和所述性能指标的异常阈值,确定服务是否发生异,包括:确定所述性能指标在第一时刻的预测值与所述性能指标在第一时刻的采集值之间的残差;将所述性能指标的残差与所述性能指标的异常阈值比较,以确定所述服务发生异常还是所述服务正常。5.一种服务异常检测装置,其特征在于,包括:相关性确定模块,用于确定与服务的性能指标相关的业务指标;模型构建模块,用于构建所述业务指...

【专利技术属性】
技术研发人员:孟凡欣
申请(专利权)人:北京中体骏彩信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1