一种异常数据检测方法、装置、设备及存储介质制造方法及图纸

技术编号:33392016 阅读:16 留言:0更新日期:2022-05-11 23:09
本发明专利技术公开了一种异常数据检测方法、装置、设备及存储介质。该方法包括:对获取的待检高维数据进行数据图像化处理,得到包含特征图像的特征图像集;结合预设数量组正常样本数据的参考特征图像集,确定各所述特征图像中各像素位置的特征注意力权重,并形成特征注意力图像集;采用预先训练好的高维数据检测模型,确定所述特征注意力图像集的数据状态;当所述数据状态为异常状态时,确定所述待检高维数据为异常数据。本发明专利技术通过将高维数据转换为多个二维图像数据,并且采用注意力机制提取特征,更加贴近数据本身的分布信息,可以克服传统算法运算效率低,且对高维数据特征提取效果差,信息易丢失的问题,实现了快速准确检测高维数据中的异常数据。中的异常数据。中的异常数据。

【技术实现步骤摘要】
一种异常数据检测方法、装置、设备及存储介质


[0001]本专利技术实施例涉及数据处理
,尤其涉及一种异常数据检测方法、装置、设备及存储介质。

技术介绍

[0002]技术的进步使得数据收集变得越来越容易,导致数据库规模越来越大、复杂性越来越高,如各种类型的贸易交易数据、Web文档、基因表达数据、文档词频数据、用户评分数据、工业制造数据、WEB使用数据及多媒体数据等,这些数据的维度(属性)通常可以达到成百上千维,甚至更高。我们可以称这些数据为高维数据。
[0003]由于高维数据存在的普遍性,使得对高维数据挖掘的研究有着非常重要的意义。但由于“维灾”的影响,也使得高维数据挖掘变得异常地困难,必须采用一些特殊的手段进行处理。高维数据异常检测是二分类问题,常见的方法是将高维的数据作降低维度的处理,后针对降低维度以后的数据进行异常检测。传统分类方法在高维数据集中进行聚类时,主要遇到两个问题:一、高维数据中存在大量无关的属性使得在所有维中存在簇的可能性几乎为零;二、高维空间中数据较低维空间中数据分布要稀疏,其中数据间距离几乎相等是普遍现象,而传统聚类方法是基于距离进行聚类的,因此在高维空间中无法基于距离来构建簇。目前,一般使用两种方法解决以上问题:(1)特征转换;(2)特征选择/子空间聚类。
[0004]专利CN110826620A提出一种高维数据聚类方法,根据高维数据X建立关于系数矩阵Z的目标函数,然后根据目标函数对系数矩阵Z进行求解,根据求解得到的系数矩阵Z构造相似度矩阵A从而实现高维数据的降维,最后根据相似度矩阵A对高维数据X进行聚类,实现分类的效果。该高维数据聚类方法将矩阵块对角约束引入到聚类模型中实现聚类,相比于其他聚类方法聚类精度高,该方法属于典型的特征转化的方法。
[0005]专利CN103761426A提出一种高维数据聚类方法。该方法一方面最小化由留一法度量的交叉验证分类误差、同时最小化选择特征的个数,最后建模实现高维数据中特征组合的快速识别,为高维数据的统计分析提供了一个快速的解决办法,该方法属于特征选择方法。
[0006]以上两种方法虽然实现了筛选或转化出高维数据中的重要维度,但采用人工估计系数的方式进行检验,数据计算量较大,人工工作量大,导致高维数据分析时间长。另外,特征选择面临大量的子空间,特征选择一般使用贪心策略等搜索方法搜索不同的特征子空间,然后使用一些标准来评价这些子空间,从而找到所需的簇,在求解过程中往往会陷入局部最优解,同时面临大量且复杂度很高的计算,所求的子特征可能会造成信息损失;高维数据中不同维度的数据存在一定的相关程度,特征转换的方法虽然将多个特征转化成少数特征,但是在特征转化的过程中需要做大量相关性计算,耗时大,并且新的维度数据往往会缺失代表性。

技术实现思路

[0007]本专利技术提供一种异常数据检测方法、装置、设备及存储介质,以实现准确检测出异常高维数据。
[0008]第一方面,本专利技术实施例提供了一种异常数据检测方法,包括:
[0009]对获取的待检高维数据进行数据图像化处理,得到包含特征图像的特征图像集;
[0010]结合预设数量组正常样本数据的参考特征图像集,确定各所述特征图像中各像素位置的特征注意力权重,并形成特征注意力图像集;
[0011]采用预先训练好的高维数据检测模型,确定所述特征注意力图像集的数据状态;
[0012]当所述数据状态为异常状态时,确定所述待检高维数据为异常数据。
[0013]可选的,所述对获取的待检高维数据进行数据图像化处理,得到包含特征图像的特征图像集,包括:
[0014]提取待检高维数据不同特征维度内包含的特征值,对各所述特征值在所属特征维度内进行归一化处理,得到各所述特征值对应的归一化特征值;
[0015]基于预设灰度映射关系,对各所述归一化特征值作灰度映射,得到各所述特征值对应的特征灰度值;
[0016]分别将同一特征维度内的特征灰度值形成一个特征图像,构成特征图像集。
[0017]可选的,所述提取待检高维数据不同特征维度内包含的特征值,对各所述特征值在所属特征维度内进行归一化处理,得到各所述特征值对应的归一化特征值,包括:
[0018]获取待检高维数据,确定所述待检高维数据的特征矩阵;
[0019]对所述特征矩阵按特征维度进行划分,形成与特征维度数量相应的特征向量;
[0020]针对每个特征向量,确定所述特征向量包含的向量特征值的特征平均值,以及特征分布方差,根据所述特征平均值和所述特征分布方差,确定各所述向量特征值对应的归一化特征值。
[0021]可选的,所述基于预设灰度映射关系,对各所述归一化特征值作灰度映射,得到各所述特征值对应的特征灰度值,包括:
[0022]当所述归一化特征值大于等于第一预设特异阈值,令所述归一化特征值对应的特征灰度值等于第一灰度值;
[0023]当所述归一化特征值小于所述第一预设特异阈值且大于第二预设特异阈值,根据所述归一化特征值,结合预设函数变换关系,确定对应的特征灰度值;
[0024]当所述归一化特征值小于等于第二预设特异阈值,令所述归一化特征值对应的特征灰度值等于第二灰度值。
[0025]可选的,所述结合预设数量组正常样本数据的参考特征图像集,确定各所述特征图像中各像素位置的特征注意力权重,并形成特征注意力图像集,包括:
[0026]根据预设数量个正常样本数据的参考特征图像集,确定各所述特征图像中每个像素位置对应的特征参考平均值;
[0027]基于所述特征图像中各像素位置的特征像素值和对应特征参考平均值,确定所述特征图像中各像素位置的特征注意力权重;
[0028]根据各所述特征注意力权重,调整对应特征像素值,得到特征注意力图像集。
[0029]可选的,所述基于所述特征图像中各像素位置的特征像素值和对应特征参考平均
值,确定所述特征图像中各像素位置的特征注意力权重,包括:
[0030]针对每个像素位置,将所述像素位置与对应特征参考平均值的差值确定为特征差值,确定所述特征差值与对应特征参考平均值之比的绝对值为特征相对误差;
[0031]获取预设误差阈值,当所述特征相对误差小于所述预设误差阈值,则确定所述像素位置的特征注意力权重为第一权重;否则,确定所述像素位置的特征注意力权重为第二权重。
[0032]可选的,所述高维数据检测模型的训练过程,包括:
[0033]对训练特征图像集进行数据状态标注,得到标准数据状态;
[0034]将所述训练特征图像集输入待训练高维数据检测模型,获得输出的预测数据状态;
[0035]根据所述标准数据状态和所述预测数据状态,获得拟合损失函数;
[0036]通过所述拟合损失函数对所述待训练高维数据检测模型进行反向传播,得到所述高维数据检测模型。
[0037]第二方面,本专利技术实施例还提供了一种异常数据检测装置,该装置包括:
[0038本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种异常数据检测方法,其特征在于,包括:对获取的待检高维数据进行数据图像化处理,得到包含特征图像的特征图像集;结合预设数量组正常样本数据的参考特征图像集,确定各所述特征图像中各像素位置的特征注意力权重,并形成特征注意力图像集;采用预先训练好的高维数据检测模型,确定所述特征注意力图像集的数据状态;当所述数据状态为异常状态时,确定所述待检高维数据为异常数据。2.根据权利要求1所述的异常数据检测方法,其特征在于,所述对获取的待检高维数据进行数据图像化处理,得到包含特征图像的特征图像集,包括:提取待检高维数据不同特征维度内包含的特征值,对各所述特征值在所属特征维度内进行归一化处理,得到各所述特征值对应的归一化特征值;基于预设灰度映射关系,对各所述归一化特征值作灰度映射,得到各所述特征值对应的特征灰度值;分别将同一特征维度内的特征灰度值形成一个特征图像,构成特征图像集。3.根据权利要求2所述的异常数据检测方法,其特征在于,所述提取待检高维数据不同特征维度内包含的特征值,对各所述特征值在所属特征维度内进行归一化处理,得到各所述特征值对应的归一化特征值,包括:获取待检高维数据,确定所述待检高维数据的特征矩阵;对所述特征矩阵按特征维度进行划分,形成与特征维度数量相应的特征向量;针对每个特征向量,确定所述特征向量包含的向量特征值的特征平均值,以及特征分布方差,根据所述特征平均值和所述特征分布方差,确定各所述向量特征值对应的归一化特征值。4.根据权利要求2所述的异常数据检测方法,其特征在于,所述基于预设灰度映射关系,对各所述归一化特征值作灰度映射,得到各所述特征值对应的特征灰度值,包括:当所述归一化特征值大于等于第一预设特异阈值,令所述归一化特征值对应的特征灰度值等于第一灰度值;当所述归一化特征值小于所述第一预设特异阈值且大于第二预设特异阈值,根据所述归一化特征值,结合预设函数变换关系,确定对应的特征灰度值;当所述归一化特征值小于等于第二预设特异阈值,令所述归一化特征值对应的特征灰度值等于第二灰度值。5.根据权利要求1所述的异常数据检测方法,其特征在于,所述结合预设数量组正常样本数据的参考特征图像集,确定各所述特征图像中各像素位置的特征注意力权重,并形成特征注意力图像集,包括:根据预设数量个正常样本数据的参考...

【专利技术属性】
技术研发人员:余石龙
申请(专利权)人:中国农业银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1