基于自编码器和数据增强的高维稀疏数据离群点检测方法及系统技术方案

技术编号:38524339 阅读:9 留言:0更新日期:2023-08-19 17:01
本发明专利技术公开了一种基于自编码器和数据增强的高维稀疏数据离群点检测方法及系统,属于数据挖掘技术领域,其中,该方法包括:获取异常检测样本数据集作为试验数据集,并对其进行预处理,得到训练集和测试集;构建数据增强模型,以对训练集进行上下采集处理,得到类异常样本与正常样本相等的增强数据;将训练集输入注意力机制模块中,以计算特征关联度;将增强数据输入注意力机制模型中,根据特征关联度计算相关特征数,根据相关特征数计算重构数据;利用离群点检测基准器对重构数据进行异常检测。该方法基于自编码器对数据进行降维操作,将稀疏的高维数据映射到低维空间中进行离群点检测,解决了维度过高对检测结果准确率的影响。解决了维度过高对检测结果准确率的影响。解决了维度过高对检测结果准确率的影响。

【技术实现步骤摘要】
基于自编码器和数据增强的高维稀疏数据离群点检测方法及系统


[0001]本专利技术涉及数据挖掘
,特别涉及一种基于自编码器和数据增强的高维稀疏数据离群点检测方法及系统。

技术介绍

[0002]离群点检测又称异常检测,是从数据集中识别出少量与其他数据有明显偏差的数据特征,或由不同机制产生的异常数据点。现实生活中广泛应用信用卡欺诈、故障检测、网络入侵、生物分析、工业与医疗诊断等领域。我国制造业发展迅速,制造过程中存在产品质量缺陷、设备故障、外部环境变化等异常问题,异常工况检测、故障监测、设备健康状态分析是工业数据异常检测的关键问题。
[0003]离群点检测的方法可以按照不同分类标准进行分类,根据对离群点与其余数据做出的假定,将离群点检测方法分为统计学方法、基于邻近性的方法和基于聚类的方法。传统的离群点检测算法依赖欧式距离衡量数据对象之间的位置关系,离群点与正常数据对象间的差异较小,检测的准确性不高,如He等人提出了基于聚类的局部离群因子算法,将数据聚类为大簇和小簇,利用距离被测样本最近的大簇计算异常得分;近年来,基于深度学习的离群点检测方法也得到了广泛的关注和研究,如基于自编码器的离群点检测算法,利用神经网络强大学习能力,确定输出层中难以重建的对象为离群点,但是,在中小型数据集上,神经网络层容易出现过拟合和不确定性,从而导致离群点检测算法的准确性下降,因此Zong等人提出了一种基于深度自动编码器的无监督离群点检测模型,该模型使用深度自动编码器对输入数据进行低维表示和重构误差,并联合进行端到端优化,以获得更好的性能。
[0004]但后续研究认为,为了解决异常检测算法在高维数据中遭受“维数灾难”等问题,可以使用降维方法。高维数据降维的两种主要方法是特征选择和特征融合,特征选择基于数据相关性分析,获得高维数据的子集以保留原始特征,并增强特征子集与异常样本之间的关联性。但是,特征信息在处理过程中容易缺失;特征融合旨在寻找数据分布的最优子空间,并通过变换和组合数据形成新特征。然而,工业环境下传感器采集数据规模庞大,特征融合难以区分人为操作和噪声引起的异常点,而且异常检测过程还受到数据样本不平衡的影响。因此,不平衡数据和高维稀疏数据的异常检测是工业大数据分析的热点研究方向,Guan等人提出了一个顺序集成噪声滤波器(SENF),在SENF中选择相关特征并用于为每个实例生成噪声分数;还为了解决不平衡IBD中维数缩减和特征保留之间的矛盾,Zhou等人提出了一种基于重构特征表示的变分长短时记忆(VLSTM)学习模型,用于实现智能异常检测,该模型设计了一个编解码神经网络,与变分重参数化方案相结合,以从高维原始数据中学习低维特征表示。然而,仅仅考虑将高维数据映射到低维空间中,忽略了数据特征之间的相关性,数据特征之间的相关性包含重要的信息,可提高离群点检测算法的准确率。在使用神经网络进行训练时,还需要考虑超参数的设置,手动不断调整可能无法达到最佳的降维效果,甚至会导致模型过拟合。

技术实现思路

[0005]本专利技术提供一种基于自编码器和数据增强的高维稀疏数据离群点检测方法及系统,以用于解决现有技术仅考虑将高维数据映射到低维空间中,忽略了数据特征之间的相关性,数据特征之间的相关性包含重要的信息,造成离群点检测算法低的技术问题。
[0006]本专利技术一方面实施例提供一种基于自编码器和数据增强的高维稀疏数据离群点检测方法,包括:
[0007]步骤S1,获取异常检测样本数据集作为试验数据集,并对所述试验数据集进行预处理,得到训练集和测试集;
[0008]步骤S2,构建数据增强模型,以对所述训练集进行上下采集处理,得到类异常样本与正常样本相等的增强数据;
[0009]步骤S3,将所述训练集输入注意力机制模块中,以计算特征关联度;
[0010]步骤S4,将所述类异常样本与正常样本相等的增强数据输入所述注意力机制模型中,根据所述特征关联度计算相关特征数,根据所述相关特征数计算重构数据;
[0011]步骤S5,利用离群点检测基准器对所述重构数据进行异常检测。
[0012]本专利技术另一方面实施例提供一种基于自编码器和数据增强的高维稀疏数据离群点检测系统,包括:
[0013]采集模块,用于获取异常检测样本数据集作为试验数据集,并对所述试验数据集进行预处理,得到训练集和测试集;
[0014]上下采样模块,用于构建数据增强模型,以对所述训练集进行上下采集处理,得到类异常样本与正常样本相等的增强数据;
[0015]计算模块,用于将所述训练集输入注意力机制模块中,以计算特征关联度;
[0016]重构模块,用于将所述类异常样本与正常样本相等的增强数据输入所述注意力机制模型中,根据所述特征关联度计算相关特征数,根据所述相关特征数计算重构数据;
[0017]检测模块,用于利用离群点检测基准器对所述重构数据进行异常检测。
[0018]本专利技术又一方面实施例提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如上述实施例所述的基于自编码器和数据增强的高维稀疏数据离群点检测方法。
[0019]本专利技术还一方面实施例提供一种非临时性计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述实施例所述的基于自编码器和数据增强的高维稀疏数据离群点检测方法。
[0020]本专利技术的技术方案,至少实现了如下有益的技术效果:
[0021](1)在应对数据样本不平衡问题方面,本专利技术将计算机视觉领域中的数据增强算法引入到异常检测领域中,通过增加少数类样本的数量来弥补样本不平衡问题,生成更优质的训练数据,显著提高了方法在异常检测中的表现;
[0022](2)在训练网络不断参数调优问题方面,本专利技术使用了注意力机制来计算特征权重从而确定神经网络层数,以防止神经网络的过拟合并提高泛化能力,还可以更加准确地确定神经网络的结构,使得神经网络在训练过程中能够更好地学习数据的特征,提高了模型的效率和准确性;
[0023](3)在高维稀疏数据离群点检测问题方面,本专利技术基于自编码器对数据进行降维
操作,将稀疏的高维数据映射到低维空间中进行离群点检测,解决了维度过高对检测结果准确率的影响。
[0024]本专利技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。
附图说明
[0025]本专利技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
[0026]图1是本专利技术一个实施例的基于自编码器和数据增强的高维稀疏数据离群点检测方法的流程图;
[0027]图2是本专利技术一个实施例的数据增强加权加权SMOTE算法过采样的示意图;
[0028]图3是本专利技术一个实施例的基于自编码器和数据增强的高维稀疏数据离群点检测方法的示意图;
[0029]图4是本专利技术一个实施例的加权KNN本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于自编码器和数据增强的高维稀疏数据离群点检测方法,其特征在于,包括以下步骤:步骤S1,获取异常检测样本数据集作为试验数据集,并对所述试验数据集进行预处理,得到训练集和测试集;步骤S2,构建数据增强模型,以对所述训练集进行上下采集处理,得到类异常样本与正常样本相等的增强数据;步骤S3,将所述训练集输入注意力机制模块中,以计算特征关联度;步骤S4,将所述类异常样本与正常样本相等的增强数据输入所述注意力机制模型中,根据所述特征关联度计算相关特征数,根据所述相关特征数计算重构数据;步骤S5,利用离群点检测基准器对所述重构数据进行异常检测。2.根据权利要求1所述的基于自编码器和数据增强的高维稀疏数据离群点检测方法,其特征在于,所述异常检测样本数据集包括异常检测领域数据集和工业数据集。3.根据权利要求1所述的基于自编码器和数据增强的高维稀疏数据离群点检测方法,其特征在于,所述步骤S2具体包括:步骤S201,采用数据增强算法、加权SMOTE算法和ENN算法构建所述数据增强模型;步骤S202,将所述训练集输入所述数据增强模型中,利用所述加权SMOTE算法对所述训练集进行过采样处理,利用所述ENN算法对过采样处理的训练集进行降采样处理,得到所述类异常样本与正常样本相等的增强数据。4.根据权利要求2所述的基于自编码器和数据增强的高维稀疏数据离群点检测方法,其特征在于,所述加权SMOTE算法进行过采样处理时,根据每个少数类样本与剩余少数类样本之间的欧氏距离为每个样本分配不同的权重。5.根据权利要求1所述的基于自编码器和数据增强的高维稀疏数据离群点检测方法,其特征在于,所述步骤S3具体包括:步骤S301,计算所述训练集中每个特征的平均数,利用所述平均数构建相似矩阵;步骤S302,将所述相似矩阵输入所述注意力机制模型中,以计算所述特征关联度。6.根据权利要求1所述的基于自编码器和数据增强的高维稀疏数据离群点检测方法,其特征在于,所述步骤S4具体包括:步骤S401,将...

【专利技术属性】
技术研发人员:张海涛马文海韩启龙宋洪涛刘鹏
申请(专利权)人:哈尔滨龙明科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1