一种数据异常检测方法及装置制造方法及图纸

技术编号:22387225 阅读:30 留言:0更新日期:2019-10-29 06:28
本发明专利技术实施例涉及数据处理技术领域,尤其涉及一种数据异常检测方法及装置,用以解决告警阈值准确性较低,且需要经常调整的问题。本发明专利技术实施例包括:将历史时间段内的历史样本数据输入机器学习模型中,预测出检测时间段的预测平均值;获取所述检测时间段内的实际测量值;根据所述预测平均值与所述实际测量值,通过显著性检验模型对所述实际测量值进行检测;当确定所述实际测量值的平均数与所述预测平均值之间的差异呈现显著性水平,则确定所述检测时间段内的实际测量值出现异常。

【技术实现步骤摘要】
一种数据异常检测方法及装置
本专利技术涉及数据处理
,尤其涉及一种数据异常检测方法及装置。
技术介绍
传统的系统运维监控平台,主要是根据需求或者经验来配置相关的告警策略。运维/开发人员梳理出监控对象的监控指标,对其制定相关的告警策略条件,主要为设置告警阈值,并把对应的监控告警策略配置在监控平台中。检测异常的方式为运维监控平台针对监控指标进行数据采集,利用告警阈值对采集到的数据进行监控,一旦数据波动超过告警阈值则判断出现异常,进行异常告警。现有技术中的告警阈值为运维/开发人员按照历史的经验进行配置,准确性较低。有时系统数据出现异常波动,但由于未超过告警阈值,因此无法感知检测出。有时系统数据会出现正常的波动情况,但由于超过了告警阈值,因此仍会执行告警。此外,随着硬件的升级、业务的增长,告警阈值还需经常调整,浪费人力的同时,效率较低。
技术实现思路
本申请提供一种数据异常检测方法及装置,用以解决告警阈值准确性较低,且需要经常调整的问题。本专利技术实施例提供的一种数据异常检测方法,包括:将历史时间段内的历史样本数据输入机器学习模型中,预测出检测时间段的预测平均值;获取所述检测时间段内的实际测量值;根据所述预测平均值与所述实际测量值,通过显著性检验模型对所述实际测量值进行检测;当确定所述实际测量值的平均数与所述预测平均值之间的差异呈现显著性水平,则确定所述检测时间段内的实际测量值出现异常。一种可选的实施例中,所述机器学习模型为线性回归模型;所述将历史时间段内的历史样本数据输入机器学习模型中,预测出检测时间段内的预测平均值,包括:将所述历史样本数据输入线性回归模型中,通过最小二乘法计算出所述历史时间段的线性回归方程;根据所述线性回归方程预测所述检测时间段内的预测平均值。一种可选的实施例中,所述显著性检验模型为T检验模型;所述根据所述预测平均值与所述实际测量值,通过显著性检验模型对所述实际测量值进行检测,包括:将所述实际测量值输入T检验模型中,计算所述实际测量值的实际平均值以及标准差;根据所述预测平均值、所述实际平均值以及标准差确定所述检测时间段的T统计量;根据所述实际测量值的数量确定置信区间,利用所述置信区间检测所述检测时间段的T统计量;当确定所述实际测量值的平均数与所述预测平均值之间的差异呈现显著性水平,则确定所述检测时间段内的实际测量值出现异常,包括:当确定所述检测时间段的T统计量在所述置信区间内,则确定所述检测时间段内的实际测量值出现异常。一种可选的实施例中,所述T统计量利用以下公式进行计算:其中,t为T统计量;为所述检测时间段内的实际测量值的平均值;μ0为所述预测平均值;S为实际测量值的标准差;n为实际测量值的数量。一种可选的实施例中,所述将历史时间段内的历史样本数据输入机器学习模型中之前,还包括:确定所述历史样本数据中的异常样本数据;将所述异常样本数据从所述历史样本数据中剔除。一种数据异常检测装置,包括:预测单元,用于将历史时间段内的历史样本数据输入机器学习模型中,预测出检测时间段的预测平均值;获取单元,用于获取所述检测时间段内的实际测量值;检验单元,用于根据所述预测平均值与所述实际测量值,通过显著性检验模型对所述实际测量值进行检测;判断单元,用于当确定所述实际测量值的平均数与所述预测平均值之间的差异呈现显著性水平,则确定所述检测时间段内的实际测量值出现异常。一种可选的实施例中,所述机器学习模型为线性回归模型;所述预测单元,具体用于:将所述历史样本数据输入线性回归模型中,通过最小二乘法计算出所述历史时间段的线性回归方程;根据所述线性回归方程预测所述检测时间段内的预测平均值。一种可选的实施例中,所述显著性检验模型为T检验模型;所述检验单元,具体用于:将所述实际测量值输入T检验模型中,计算所述实际测量值的实际平均值以及标准差;根据所述预测平均值、所述实际平均值以及标准差确定所述检测时间段的T统计量;根据所述实际测量值的数量确定置信区间,利用所述置信区间检测所述检测时间段的T统计量;所述判断单元,具体用于:当确定所述检测时间段的T统计量在所述置信区间内,则确定所述检测时间段内的实际测量值出现异常。一种可选的实施例中,所述检验单元,具体用于利用以下公式计算所述T统计量:其中,t为T统计量;为所述检测时间段内的实际测量值的平均值;μ0为所述预测平均值;S为实际测量值的标准差;n为实际测量值的数量。一种可选的实施例中,所述获取单元,还用于:确定所述历史样本数据中的异常样本数据;将所述异常样本数据从所述历史样本数据中剔除。本专利技术实施例还提供一种电子设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的方法。本专利技术实施例还提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行如上所述的方法。本专利技术实施例中,针对被监控的系统,系统指标的检测数据为时间序列数据,且呈正态分布,获取历史时间段内系统指标的时间序列,作为历史样本数据。将历史样本数据输入机器学习模型中,预测出检测时间段的预测平均值。获取检测时间段内对系统进行测量得到的实际测量值,将预测平均值以及实际测量值输入显著性检验模型中,计算实际测量值的平均数,并将预测平均值与实际测量值的平均数相对比,从而对实际测量值进行检验。若实际测量值的平均数与预测平均值之间的差异呈现显著性水平,也就是与预测平均值相比,检测时间段内的实际测量值差异发生的概率较大,可以认为检测时间段内的实际测量值出现异常,需要进行告警。相反的,若实际测量值的平均数与预测平均值之间的差异未呈现显著性水平,则认为检测时间段内的实际测量值未出现异常。本专利技术实施例中,基于机器学习和T检验对系统进行异常检验,由于以历史时间段内的样本数据为依据,对检测时间段的实际测量值进行检验,可以准确捕获系统数据的异常变化,无需设定告警阈值,准确度较高,且节省了人力成本,提高了监控效率。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的一种数据异常检测方法的流程示意图;图2为本专利技术实施例提供的系统CPU使用量的统计示意图;图3为本专利技术实施例提供的系统CPU使用量的概率分布示意图;图4为本专利技术实施例提供的一种数据异常检测装置的结构示意图;图5为本专利技术实施例提供的电子设备的结构示意图。具体实施方式为了使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术作进一步地详细描述,显然,所描述的实施例仅仅是本专利技术一部份实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。为了便于理解,下面对本专利技术实施例中可能涉及的名词进行定义和解释。用户:本专利技术实施例中的用户包括业务系统开发人员、业务运维人员及所有使用监控平台进行数据检测本文档来自技高网...

【技术保护点】
1.一种数据异常检测方法,其特征在于,包括:将历史时间段内的历史样本数据输入机器学习模型中,预测出检测时间段的预测平均值;获取所述检测时间段内的实际测量值;根据所述预测平均值与所述实际测量值,通过显著性检验模型对所述实际测量值进行检测;当确定所述实际测量值的平均数与所述预测平均值之间的差异呈现显著性水平,则确定所述检测时间段内的实际测量值出现异常。

【技术特征摘要】
1.一种数据异常检测方法,其特征在于,包括:将历史时间段内的历史样本数据输入机器学习模型中,预测出检测时间段的预测平均值;获取所述检测时间段内的实际测量值;根据所述预测平均值与所述实际测量值,通过显著性检验模型对所述实际测量值进行检测;当确定所述实际测量值的平均数与所述预测平均值之间的差异呈现显著性水平,则确定所述检测时间段内的实际测量值出现异常。2.如权利要求1所述的方法,其特征在于,所述机器学习模型为线性回归模型;所述将历史时间段内的历史样本数据输入机器学习模型中,预测出检测时间段内的预测平均值,包括:将所述历史样本数据输入线性回归模型中,通过最小二乘法计算出所述历史时间段的线性回归方程;根据所述线性回归方程预测所述检测时间段内的预测平均值。3.如权利要求1所述的方法,其特征在于,所述显著性检验模型为T检验模型;所述根据所述预测平均值与所述实际测量值,通过显著性检验模型对所述实际测量值进行检测,包括:将所述实际测量值输入T检验模型中,计算所述实际测量值的实际平均值以及标准差;根据所述预测平均值、所述实际平均值以及标准差确定所述检测时间段的T统计量;根据所述实际测量值的数量确定置信区间,利用所述置信区间检测所述检测时间段的T统计量;当确定所述实际测量值的平均数与所述预测平均值之间的差异呈现显著性水平,则确定所述检测时间段内的实际测量值出现异常,包括:当确定所述检测时间段的T统计量在所述置信区间内,则确定所述检测时间段内的实际测量值出现异常。4.如权利要求3所述的方法,其特征在于,所述T统计量利用以下公式进行计算:其中,t为T统计量;为所述检测时间段内的实际测量值的平均值;μ0为所述预测平均值;S为实际测量值的标准差;n为实际测量值的数量。5.如权利要求1所述的方法,其特征在于,所述将历史时间段内的历史样本数据输入机器学习模型中之前,还包括:确定所述历史样本数据中的异常样本数据;将所述异常样本数据从所述历史样本数据中剔除。6.一种数据异常检测装置,其特征在于,包括:预测单元,用于将历史时间段内的历史样本数据输入机器学习模型中...

【专利技术属性】
技术研发人员:佟鹏李蓓璇唐云吉
申请(专利权)人:中国银联股份有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1