数据异常检测方法及装置制造方法及图纸

技术编号:39189195 阅读:8 留言:0更新日期:2023-10-27 08:36
本申请涉及计算机领域,提供一种数据异常检测方法及装置。所述方法包括:将服务请求数据值输入线性回归模型,得到多个资源指标预测值;根据多个资源指标预测值的误差绝对值,得到多个资源指标优化值;根据多个资源指标优化值和多个资源指标的权重构建孤立树;根据多棵孤立树得到资源指标优化值的异常分数;若异常分数大于或等于分数阈值,则确定资源指标优化值对应的资源指标预测值异常。本申请实施例提供的数据异常检测方法及装置可以利用线性回归模型和资源指标预测值的误差绝对值将具有波动性的资源指标数据进行修正和优化,利用资源指标的权重构建孤立树,突出系统服务对特定资源的偏好,提高海量数据异常检测的效率和准确率。确率。确率。

【技术实现步骤摘要】
数据异常检测方法及装置


[0001]本申请涉及计算机
,具体涉及一种数据异常检测方法及装置。

技术介绍

[0002]关键性能指标是衡量系统性能的重要参考,通过关键性能指标的表象可以分析出系统在某方面是否存在异常,传统的判断关键性能指标是否异常的方法有基于固定配置的异常检测和基于统计的异常检测。
[0003]基于固定配置的异常检测需要企业安排运维人员对每个关键性能指标进行阈值配置,在关键性能指标种类多、数量多且规律复杂的情况下,这种方法检测效率和准确率都较低;基于统计的异常检测则需要假定关键性能指标服从某种分布,然而在实际的运维场景中,关键性能指标是根据不同的业务情景来服从不同的分布的,这样的假定同样会导致检测效率和准确率较低。

技术实现思路

[0004]本申请实施例提供一种数据异常检测方法及装置,用以解决传统检测方法的检测效率和准确率都较低的技术问题。
[0005]第一方面,本申请实施例提供一种数据异常检测方法,包括:
[0006]将服务请求数据值输入线性回归模型,得到多个资源指标预测值;
[0007]根据所述多个资源指标预测值的误差绝对值,得到多个资源指标优化值;
[0008]根据所述多个资源指标优化值和多个资源指标的权重构建孤立树;
[0009]根据多棵所述孤立树得到所述资源指标优化值的异常分数;
[0010]若所述异常分数大于或等于分数阈值,则确定所述资源指标优化值对应的资源指标预测值异常;
[0011]所述线性回归模型是服务请求数据值与资源指标预测值之间的线性回归模型。
[0012]在一个实施例中,所述线性回归模型,是基于以下步骤构建的:
[0013]根据多项式回归法,构建以第一时刻的服务请求数据值为自变量,以第二时刻的资源指标预测值为因变量的线性回归模型;
[0014]所述第二时刻为所述第一时刻的下一时刻。
[0015]在一个实施例中,所述将服务请求数据值输入线性回归模型,得到多个资源指标预测值,包括:
[0016]将多个时刻的服务请求数据值输入所述线性回归模型,得到多个时刻多种类型的资源指标预测值。
[0017]在一个实施例中,所述根据所述多个资源指标优化值和多个资源指标的权重构建孤立树之前,包括:
[0018]若任一类型n个时刻的资源指标预测值之和为零,则确定所述类型的资源指标预测值对应的资源指标的权重为零;
[0019]若任一类型n个时刻的资源指标预测值之和不为零,则根据所述资源指标预测值在第i个时刻与第i+5个时刻之间的变化率,以及服务请求数据值在第i个时刻与第i+5个时刻之间的变化率,得到所述类型的资源指标预测值对应的资源指标的权重;
[0020]其中,i为大于等于1且小于等于n的整数,n为所述时刻的总个数。
[0021]在一个实施例中,所述根据所述多个资源指标优化值和多个资源指标的权重构建孤立树,包括:
[0022]根据所述多个资源指标优化值构建多个数据点;其中,任一所述数据点包括至少一种类型的资源指标优化值,且任意两个所述数据点所包括的资源指标优化值的类型相同;
[0023]将所述多个数据点放入所述孤立树的根节点,将所述根节点作为当前节点;
[0024]加总所有类型的资源指标预测值对应的资源指标的权重,得到加总权重值;
[0025]随机选取零至所述加总权重值之间任一数值,得到类型判定值;
[0026]根据所述类型判定值与权重阈值之间的大小关系,确定待划分类型;所述待划分类型为所述数据点所包括的资源指标优化值的类型中的一种;
[0027]随机选取特定最大值和特定最小值之间任一数值,得到划分阈值;所述特定最大值为所述多个数据点中属于所述待划分类型的资源指标优化值的最大值,所述特定最小值为所述多个数据点中属于所述待划分类型的资源指标优化值的最小值;
[0028]根据所述待划分类型和所述划分阈值将当前节点的数据点划分为第一数据点集和第二数据点集,将所述第一数据点集放入所述孤立树的第一子节点,将所述第二数据点集放入所述孤立树的第二子节点,将所述第一子节点和所述第二子节点作为当前节点,返回随机选取零至所述加总权重值之间任一数值,得到类型判定值的步骤,直至所述孤立树的当前节点中只存在一个数据点或所述孤立树的高度达到高度阈值为止,完成所述孤立树的构建。
[0029]在一个实施例中,所述根据所述待划分类型和所述划分阈值将当前节点的数据点划分为第一数据点集和第二数据点集,包括:
[0030]若当前节点的数据点中属于所述待划分类型的资源指标优化值大于所述划分阈值,则将所述资源指标优化值对应的数据点划分为第一数据点集;
[0031]若当前节点的数据点中属于所述待划分类型的资源指标优化值小于所述划分阈值,则将所述资源指标优化值对应的数据点划分为第二数据点集。
[0032]在一个实施例中,所述根据多棵所述孤立树得到所述资源指标优化值的异常分数,包括:
[0033]根据多棵所述孤立树的平均高度和所述资源指标优化值在多棵所述孤立树中的平均路径高度,得到所述资源指标优化值的异常分数。
[0034]第二方面,本申请实施例提供一种数据异常检测装置,包括:
[0035]资源指标预测值获取模块,用于:将服务请求数据值输入线性回归模型,得到多个资源指标预测值;
[0036]资源指标优化值获取模块,用于:根据所述多个资源指标预测值的误差绝对值,得到多个资源指标优化值;
[0037]孤立树构建模块,用于:根据所述多个资源指标优化值和多个资源指标的权重构
建孤立树;
[0038]异常分数获取模块,用于:根据多棵所述孤立树得到所述资源指标优化值的异常分数;
[0039]异常判断模块,用于:若所述异常分数大于或等于分数阈值,则确定所述资源指标优化值对应的资源指标预测值异常;
[0040]所述线性回归模型是服务请求数据值与资源指标预测值之间的线性回归模型。
[0041]第三方面,本申请实施例提供一种电子设备,包括处理器和存储有计算机程序的存储器,所述处理器执行所述程序时实现第一方面所述的数据异常检测方法的步骤。
[0042]第四方面,本申请实施例提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现第一方面所述的数据异常检测方法的步骤。
[0043]本申请实施例提供的数据异常检测方法及装置,将服务请求数据值输入线性回归模型,得到多个资源指标预测值,再根据多个资源指标预测值的误差绝对值,得到多个资源指标优化值,再根据多个资源指标优化值和多个资源指标的权重构建孤立树,最后根据多棵孤立树得到资源指标优化值的异常分数,若异常分数大于或等于分数阈值,则确定资源指标优化值对应的资源指标预测值异常。本申请采用改进的孤立森林算法,利用线性回归模型表征服务请求数据值和资源指标预测值之间的关系,并利用资源指标预测值的误差绝对值,得到多个资本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据异常检测方法,其特征在于,包括:将服务请求数据值输入线性回归模型,得到多个资源指标预测值;根据所述多个资源指标预测值的误差绝对值,得到多个资源指标优化值;根据所述多个资源指标优化值和多个资源指标的权重构建孤立树;根据多棵所述孤立树得到所述资源指标优化值的异常分数;若所述异常分数大于或等于分数阈值,则确定所述资源指标优化值对应的资源指标预测值异常;所述线性回归模型是服务请求数据值与资源指标预测值之间的线性回归模型。2.根据权利要求1所述的数据异常检测方法,其特征在于,所述线性回归模型,是基于以下步骤构建的:根据多项式回归法,构建以第一时刻的服务请求数据值为自变量,以第二时刻的资源指标预测值为因变量的线性回归模型;所述第二时刻为所述第一时刻的下一时刻。3.根据权利要求2所述的数据异常检测方法,其特征在于,所述将服务请求数据值输入线性回归模型,得到多个资源指标预测值,包括:将多个时刻的服务请求数据值输入所述线性回归模型,得到多个时刻多种类型的资源指标预测值。4.根据权利要求1所述的数据异常检测方法,其特征在于,所述根据所述多个资源指标优化值和多个资源指标的权重构建孤立树之前,包括:若任一类型n个时刻的资源指标预测值之和为零,则确定所述类型的资源指标预测值对应的资源指标的权重为零;若任一类型n个时刻的资源指标预测值之和不为零,则根据所述资源指标预测值在第i个时刻与第i+5个时刻之间的变化率,以及服务请求数据值在第i个时刻与第i+5个时刻之间的变化率,得到所述类型的资源指标预测值对应的资源指标的权重;其中,i为大于等于1且小于等于n的整数,n为所述时刻的总个数。5.根据权利要求4所述的数据异常检测方法,其特征在于,所述根据所述多个资源指标优化值和多个资源指标的权重构建孤立树,包括:根据所述多个资源指标优化值构建多个数据点;其中,任一所述数据点包括至少一种类型的资源指标优化值,且任意两个所述数据点所包括的资源指标优化值的类型相同;将所述多个数据点放入所述孤立树的根节点,将所述根节点作为当前节点;加总所有类型的资源指标预测值对应的资源指标的权重,得到加总权重值;随机选取零至所述加总权重值之间任一数值,得到类型判定值;根据所述类型判定值与权重阈值之间的大小关系,确定待划分类型;所述待划分类型为所述数据点所包括的资源指标优化值的类型中的一种;随机选取特定最大值和特定最小值之间任一数值,得到划分阈值;所述特...

【专利技术属性】
技术研发人员:和军段凯凯李彭
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1