高维数据异常检测方法、相关系统和设备及存储介质技术方案

技术编号:31824174 阅读:11 留言:0更新日期:2022-01-12 12:47
本发明专利技术实施例提供了一种高维数据异常检测方法,其包括步骤:步骤S1、构建用于处理高维数据的深度自动编码器;步骤S2、将输入数据输入至深度自动编码器,并通过深度自动编码器生成压缩信息;将压缩信息重构生成低维表示,输入数据为多属性的数据形成的一个数据集的高维数据,压缩信息包括编码并压缩生成的特征向量和解码生成的输出向量;步骤S3、将低维表示根据聚类算法进行运算,以识别出高维数据异常。本发明专利技术实施例还提供了一种高维数据异常检测系统、高维数据异常检测设备及计算机可读存储介质。采用本发明专利技术的技术方案可有效消除数据中的冗余信息、异常样本的识别率高、识别性能好且计算量小。好且计算量小。好且计算量小。

【技术实现步骤摘要】
高维数据异常检测方法、相关系统和设备及存储介质


[0001]本专利技术涉及大数据处理
,尤其涉及一种高维数据异常检测方法、高维数据异常检测系统、高维数据异常检测设备以及计算机可读存储介质。

技术介绍

[0002]近年大数据应用越来越广,高维数据(即多维数据)的异常检测在机器学习和工业应用领域占有非常重要的地位。网络数据为高维数据中的一种,在网络安全方面,网络数据的异常检测尤为重要。
[0003]异常检测是机器学习的一个重要分支,具有广泛的实际应用。其目的是检测数据中的特殊点。它适用于故障诊断、系统健康监测、网络安全检测、入侵和欺诈检测测量等领域。正常情况下的例外被称为异常,因此异常也被称为新奇、噪声和偏差。异常检测的关键是密度估计。对高维数据采用降维方法实现异常检测。
[0004]目前,现有技术中。对高维数据采用降维方法一般采用线性判别分析(LDA)、最小绝对收缩和选择算子(LASSO)、局部线性嵌入(LLE)、主成分分析(PCA)、线性主成分分析,非线性主成分分析等。LDA也称为Fisher线性鉴别(FLD),因为它是由Ronald Fisher于1936年专利技术的。该方法的基本思想是将高维空间的样本投影到最佳鉴别向量的空间,以达到提取关键信息和压缩特征向量空间维数的目的。投影后,保证原始样本在新的子空间中具有最大的类间距离和最小的类间距离,即原始样本具有最佳的可分性。LASSO,这是一种压缩估计方法。该方法通过构造罚函数得到更精细的模型,并通过压缩一些系数达到降维的目的。在降维时,LLE侧重于保持样本的局部线性特征。由于LLE在降维过程中保持了样本的局部特征,因此被广泛应用于图像识别、高维数据可视化等领域。主成分分析的主要思想是将n维数据投影到k维数据上,对数据进行压缩和去噪。将高维空间数据的主要特征投影到低维空间方向,在低维空间方向上重建误差最小化,并尽可能保留大部分变量,从而将原始数据中区分正常样本和异常样本的关键信息存储在低维空间中。独立分量分析是将独立信号从混合观测信号中分离出来,或尽可能用独立信号来表示其他信号。独立分量分析的思想最早是由Heranlt和Jutten于1986年提出的,它是近年来一种强大的数据分析方法。它是一种从高维数据中寻找隐藏成分的方法,被认为是PCA的一种扩展。MDS的主要思想是将高维空间中的坐标点映射到低维空间,并尽可能保持数据之间的相似性。它所解决的主要问题是给出m个对象之间的相似度,并确定对象的低维表示,以便最大程度地匹配原始相似度。在高维空间中,一个点代表一个对象,因此对象之间的相似性与点之间的距离有关。两点之间的距离越近,相似度越高。除降维方法外,基于子空间的方法也是另一种解决方案。此外,最近基于深度自动编码的降维和重建错误取得了新的进展。然而,该过程需要数据降维、重建误差和密度估计的联合训练,这更为复杂,需要大量的时间和计算资源。
[0005]然而,上述降维方法实现异常检测的高维数据的数据集的误报率仍然很高。由于现实世界中的数据庞大而复杂,由于现实场景的复杂性,生成高维数据的数据量大、数据维数高的特点,采用上述降维方法实现异常检测的结果中数据中的冗余信息较多,异常样本
识别性能低,而且需要大量运算资源进行计算,相关硬件的计算量较大。
[0006]因此,实有必要提供一种新的方法、相关系统和设备来解决上述技术问题。

技术实现思路

[0007]本专利技术的目的是克服上述技术问题,提供一种可有效消除数据中的冗余信息、异常样本的识别率高、识别性能好且计算量小的高维数据异常检测方法、高维数据异常检测设备以及计算机可读存储介质。
[0008]第一方面,本专利技术实施例提供了一种高维数据异常检测方法,该方法包括如下步骤:
[0009]步骤S1、构建用于处理高维数据的深度自动编码器;
[0010]步骤S2、将输入数据输入至所述深度自动编码器,并通过所述深度自动编码器生成压缩信息,将所述压缩信息重构生成低维表示;所述输入数据为多属性的数据形成的一个数据集的高维数据,所述压缩信息包括编码并压缩生成的特征向量和解码生成的输出向量;所述输入数据为输入数据样本X,所述特征向量为第一潜在表示Z1所述输出向量为输出向量X',满足以下公式:
[0011]Z1=σ(WX+b)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1);
[0012]X

=σ

(W

Z1+b

)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2);
[0013]其中,W为所述输入数据的权重,b为所述输入数据的偏差,σ为所述输入数据的激活函数;W'为所述输出向量的权重,b'为所述输出向量的偏差,σ'为所述输出向量的激活函数;
[0014]步骤S3、将所述低维表示根据聚类算法进行运算,以识别出高维数据是否异常。
[0015]优选的,所述步骤S1中,所述深度自动编码器为两个对称的前馈多层神经网络组成的编码器和解码器共同构成。
[0016]优选的,所述步骤S2中,所述输入数据输入至所述编码器进行编码并压缩生成所述特征向量,所述特征向量输入至所述解码器进行解码并生成所述输出向量,所述输入数据的数据输入维度与所述输出向量的数据输出维度一致。
[0017]优选的,所述步骤S2包括如下具体步骤:
[0018]步骤S21、将所述输入数据样本X输入至所述编码器进行编码并生成所述第一潜在表示Z1;
[0019]步骤S22、计算重构误差并生成第二潜在表示Z2,所述重构误差为所述输入数据样本X与所述输出向量X'之间的误差,满足以下公式:
[0020]Z2=f(X,X

)
ꢀꢀꢀꢀ
(3);
[0021]其中,f为所述重构误差的计算函数;
[0022]步骤S23、将所述第一潜在表示Z1和所述第二潜在表示Z2组合形成所述低维表示Z,满足以下公式:
[0023]Z=[Z1,Z2]ꢀꢀꢀꢀꢀꢀꢀ
(4)。
[0024]优选的,所述第二潜在表示Z2的维数与距离度量获得的误差正相关。
[0025]优选的,所述第二潜在表示Z2为绝对欧几里德距离、相对欧几里德距离以及余弦相似性中任意一种或多种组合。
[0026]优选的,所述步骤S3中,所述聚类算法为K

Means算法、DBSCAN算法以及MeanShift算法中任意一种。
[0027]第二方面,本专利技术实施例还提供了一种高维数据异常检测系统,所述高维数据异常检测系统包括深度自动编码器、处理器模块以及运算模块;
[0028]所述深度自动编码器用于将输入数据生成压缩信息,将所述压缩信息重构生成低维表示;所述输入数据为多属性的数据形成的一个数据集的高维数据,所述压缩信息包括编码并压缩生成的特征向量和解码生成的输出向量;所述输入数据为输入数据样本X,所述特征向本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种高维数据异常检测方法,其特征在于,该方法包括如下步骤:步骤S1、构建用于处理高维数据的深度自动编码器;步骤S2、将输入数据输入至所述深度自动编码器,并通过所述深度自动编码器生成压缩信息,将所述压缩信息重构生成低维表示;所述输入数据为多属性的数据形成的一个数据集的高维数据,所述压缩信息包括编码并压缩生成的特征向量和解码生成的输出向量;所述输入数据为输入数据样本X,所述特征向量为第一潜在表示Z1所述输出向量为输出向量X',满足以下公式:Z1=σ(WX+b)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1);X

=σ

(W

Z1+b

)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2);其中,W为所述输入数据的权重,b为所述输入数据的偏差,σ为所述输入数据的激活函数;W'为所述输出向量的权重,b'为所述输出向量的偏差,σ'为所述输出向量的激活函数;步骤S3、将所述低维表示根据聚类算法进行运算,以识别出高维数据是否异常。2.根据权利要求1所述的高维数据异常检测方法,其特征在于,所述步骤S1中,所述深度自动编码器为两个对称的前馈多层神经网络组成的编码器和解码器共同构成。3.根据权利要求2所述的高维数据异常检测方法,其特征在于,所述步骤S2中,所述输入数据输入至所述编码器进行编码并压缩生成所述特征向量,所述特征向量输入至所述解码器进行解码并生成所述输出向量,所述输入数据的数据输入维度与所述输出向量的数据输出维度一致。4.根据权利要求1所述的高维数据异常检测方法,其特征在于,所述步骤S2包括如下具体步骤:步骤S21、将所述输入数据样本X输入至所述编码器进行编码并生成所述第一潜在表示Z1;步骤S22、计算重构误差并生成第二潜在表示Z2,所述重构误差为所述输入数据样本X与所述输出向量X'之间的误差,满足以下公式:Z2=f(X,X

)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3);其中,f为所述重构误差的计算函数;步骤S23、将所述第一潜在表示Z1和所述第二潜在表示Z2组合形成所述低维表示Z,满足以下公式:Z=[Z1,Z2]
ꢀꢀꢀꢀꢀꢀꢀꢀ...

【专利技术属性】
技术研发人员:张传雷刘江涛闫潇宁许能华李建荣
申请(专利权)人:深圳市安软科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1