数据异常检测方法、装置、服务器和计算机可读存储介质制造方法及图纸

技术编号:24455420 阅读:26 留言:0更新日期:2020-06-10 15:24
本发明专利技术提供了一种数据异常检测方法、装置、服务器和计算机可读存储介质,其中,数据异常检测方法包括:响应于采集的多种实时指标数据,检测任一种实时指标数据的异常信息的步骤包括:确定任一种实时指标数据与预测指标数据之间的残差样本集合和窗宽;确定残差样本集合中第n个残差样本的一行特征值由第n个残差样本和前m个残差样本构成,并建立第n个残差样本的高维残差样本,m小于n;根据窗宽确定全部高维残差样本对应的高维残差概率密度模型,并计算第n个残差样本的异常概率。通过本发明专利技术的技术方案,能够对多种指标数据进行统一异常检测,进一步地基于对高维残差样本的分析和建模,提高了数据异常检测的连续性、抗干扰性和置信度。

Data anomaly detection method, device, server and computer readable storage medium

【技术实现步骤摘要】
数据异常检测方法、装置、服务器和计算机可读存储介质
本专利技术涉及数据异常检测
,具体而言,涉及一种数据异常检测方法、一种数据异常检测装置、一种服务器和一种计算机可读存储介质。
技术介绍
服务器在运营过程中会产生海量的实时指标数据,通过检测实时指标数据的波动,以监控运营平台的运营稳定情况。但是,绝大多数的异常检测算法是针对统一种指标数据进行检测,无法对多类型、多量纲、多场景下的实时指标数据进行统一化的检测和预警。相关技术中,大数据领域提出了VAE(VariationalAuto-Encoder,变分自编码器)算法来进行多种实时指标数据的统一异常检测,由于VAE算法基于数据窗口提取历史数据,可能会造成频域异常的漏检,无法保证数据异常检测的置信度。
技术实现思路
本专利技术旨在至少解决现有技术或相关技术中存在的技术问题之一。为此,本专利技术的一个目的在于提供一种数据异常检测方法。本专利技术的另一个目的在于提供一种数据异常检测装置。本专利技术的另一个目的在于提供一种服务器。本专利技术的另一个目的在于提供一种计算机可读存储介质。为了实现上述目的,根据本专利技术的第一方面的实施例,提供了一种数据异常检测方法,包括:响应于采集的多种实时指标数据,检测任一种实时指标数据的异常信息的步骤包括:确定任一种实时指标数据与预测指标数据之间的残差样本集合和窗宽;确定残差样本集合中第n个残差样本的一行特征值由第n个残差样本和前m个残差样本构成,并建立第n个残差样本的高维残差样本,m小于n;根据窗宽确定全部高维残差样本对应的高维残差概率密度模型,并计算第n个残差样本的异常概率。在该技术方案中,通过确定任一种实时指标数据与预测指标数据之间的残差样本集合,将指标数据与指标类型剥离,得到实时指标数据中的异常数据信息,将异常数据信息作为残差样本(通常包括异常信息、正常波动信息和噪声信息),进而能够对多种实时指标数据进行统一的异常检测,降低了维护成本和排异成本。另外,窗宽是影响密度估计准确性的主要因素之一,概率密度函数的熵反应密度函数包含的信息量,熵越大表明密度函数反应的原数据信息越多。通过计算不同窗宽h所对应的熵值,得到熵值最大值所对应的h即为最优窗宽。经验最优窗宽出现在标准差附近,密度函数的熵值具有单调性,因此,以标准差为中心,选取适当步长与学习率,通过梯度下降方法学习得到最优窗宽h值。其中,密度估计的均方误差反映的是fn(x)和f(x)之间的平均偏差程度,fn(x)表征n个离散样本,f(x)表征预估函数,则密度估计的表达式为:MSE(f(x))=E[fn(x)-f(x)]2,例如,可以通过极小化MSE(f(x))并带入概率密度函数K(u),得到窗宽表达式为:均匀核函数为正态核函数为因此,基于残差样本集合来确定适当的窗宽,一方面,能够避免窗宽太小导致残差样本数据波动太大,呈现出不规则的形态,从而忽略残差样本数据的规律性,另一方面,能够避免窗宽太大导致残差样本数据过于平稳,进而导致异常检测的灵敏度低,再一方面,通过确定合适的窗宽,获得了连续的残差概率密度模型,有效地提高了异常检测的精度和灵敏度。最后,通过确定残差样本集合中第n个残差样本的一行特征值由第n个残差样本和前m个残差样本构成,并建立第n个残差样本的高维残差样本,有利于提高样本维度,将当前残差点与相邻残差点进行组合关联,减小了单点噪声对样本的干扰,降低了残差概率模型拟合不足的缺陷,提高了计算实时指标数据异常的准确性,通过根据窗宽确定全部高维残差样本对应的高维残差概率密度模型,并计算第n个残差样本的异常概率,将实时指标数据异常程度反映为统一的异常概率,实现了对多种实时指标数据进行统一的检测和排异,而并不受实时指标数据的类型和量纲的影响。在上述任一技术方案中,优选地,在响应于采集的多种实时指标数据前,还包括:预存任一种实时指标数据对应的历史指标数据;对历史指标数据进行拟合处理,以建立拟合回归模型,其中,拟合回归模型用于计算预测指标数据。在该技术方案中,通过对历史指标数据进行拟合处理,以建立拟合回归模型,有利于提高拟合回归模型的准确性,提高了拟合回归模型计算预测指标数据的准确性,进而提高了实时指标数据异常检测的准确性。在上述任一技术方案中,优选地,采用拟合回归模型计算预设训练样本集合的均方差值最小。在该技术方案中,通过采用拟合回归模型计算预设训练样本集合的均方差值最小,使得拟合模型中中估计量与被估计量之间的差异最小,提高了拟合回归模型的准确性,有利于提高预测指标数据的准确性,进而提高了计算实时指标数据异常概率的准确性。在上述任一技术方案中,优选地,还包括:确定高维残差概率密度模型中任一残差样本的振动频率;在检测到任一残差样本的振动频率高于预设振动频率时,将残差样本对应的实时指标数据确定为异常数据。在该技术方案中,通过确定高维残差概率密度模型中任一残差样本的振动频率,并将振动频率作为判断实时指标数据的一个标准,不仅仅参考高维残差概率密度模型计算的异常概率的大小,也综合参考了相邻样本点之间的影响,例如,在任一残差样本对应的异常概率较低,但是其振动频率较高,则可以确定为样本数据为异常数据,进一步地提高了判断实时数据异常的准确性,而并未增加异常检测算法的复杂度,降低了检测实时指标数据异常过程中对于运营平台的硬件需求和维护成本。在上述任一技术方案中,优选地,还包括:判断第n个残差样本的异常概率是否大于或等于预设异常概率;在判定第n个残差样本的异常概率大于或等于预设异常概率时,将残差样本对应的实时指标数据确定为异常数据。在该技术方案中,通过判断第n个残差样本的异常概率是否大于或等于预设异常概率,有利于提高判断残差样本为异常数据的一致性,也即仅需要预存一个预设异常概率,即可用于对所有种类的实时指标数据进行异常检测,进一步地提高了对多种实时指标数据进行异常检测的准确性和灵敏度,同时,降低了排查成本和异常检测算法的复杂度。根据本专利技术的第二方面的技术方案,提供了一种数据异常检测装置,包括:检测单元,用于响应于采集的多种实时指标数据,检测任一种实时指标数据的异常信息;确定单元,用于确定任一种实时指标数据与预测指标数据之间的残差样本集合和窗宽;确定单元还用于:确定残差样本集合中第n个残差样本的一行特征值由第n个残差样本和前m个残差样本构成,并建立第n个残差样本的高维残差样本,m小于n;确定单元还用于:根据窗宽确定全部高维残差样本对应的高维残差概率密度模型,并计算第n个残差样本的异常概率。在该技术方案中,通过确定任一种实时指标数据与预测指标数据之间的残差样本集合,将指标数据与指标类型剥离,得到实时指标数据中的异常数据信息,将异常数据信息作为残差样本(通常包括异常信息、正常波动信息和噪声信息),进而能够对多种实时指标数据进行统一的异常检测,降低了维护成本和排异成本。另外,窗宽是影响密度估计准确性的主要因素之一,概率密度函数的熵反应密度函数包含的信息量本文档来自技高网...

【技术保护点】
1.一种数据异常检测方法,其特征在于,包括:/n响应于采集的多种实时指标数据,检测任一种所述实时指标数据的异常信息的步骤包括:/n确定任一种所述实时指标数据与预测指标数据之间的残差样本集合和窗宽;/n确定所述残差样本集合中第n个残差样本的一行特征值由所述第n个残差样本和前m个所述残差样本构成,并建立所述第n个残差样本的高维残差样本,所述m小于所述n;/n根据所述窗宽确定全部所述高维残差样本对应的高维残差概率密度模型,并计算所述第n个所述残差样本的异常概率。/n

【技术特征摘要】
1.一种数据异常检测方法,其特征在于,包括:
响应于采集的多种实时指标数据,检测任一种所述实时指标数据的异常信息的步骤包括:
确定任一种所述实时指标数据与预测指标数据之间的残差样本集合和窗宽;
确定所述残差样本集合中第n个残差样本的一行特征值由所述第n个残差样本和前m个所述残差样本构成,并建立所述第n个残差样本的高维残差样本,所述m小于所述n;
根据所述窗宽确定全部所述高维残差样本对应的高维残差概率密度模型,并计算所述第n个所述残差样本的异常概率。


2.根据权利要求1所述的数据异常检测方法,其特征在于,在响应于采集的多种实时指标数据前,还包括:
预存任一种所述实时指标数据对应的历史指标数据;
对所述历史指标数据进行拟合处理,以建立拟合回归模型,
其中,所述拟合回归模型用于计算所述预测指标数据。


3.根据权利要求2所述的数据异常检测方法,其特征在于,
采用所述拟合回归模型计算预设训练样本集合的均方差值最小。


4.根据权利要求1至3中任一项所述的数据异常检测方法,其特征在于,还包括:
确定所述高维残差概率密度模型中任一所述残差样本的振动频率;
在检测到任一所述残差样本的振动频率高于预设振动频率时,将所述残差样本对应的所述实时指标数据确定为异常数据。


5.根据权利要求4所述的数据异常检测方法,其特征在于,还包括:
判断所述第n个所述残差样本的异常概率是否大于或等于预设异常概率;
在判定所述第n个所述残差样本的异常概率大于或等于所述预设异常概率时,将所述残差样本对应的所述实时指标数据确定为异常数据。


6.一种数据异常检测装置,其特征在于,包括:
检测单元,用于响应于采集的多种实时指标数据,检测任一种所述实时指标数据的异常信息;
确定单元,用于确定任一种所述实时指标数据与预测指标数据之间的残差样本集合和窗宽;
所述确定单元还用于:确定残差样本集...

【专利技术属性】
技术研发人员:朱宝陈姝君
申请(专利权)人:北京嘀嘀无限科技发展有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1