基于能量和镜像生成对抗网络的异常检测方法技术

技术编号:32549770 阅读:12 留言:0更新日期:2022-03-05 11:49
本发明专利技术公开了一种基于能量和镜像生成对抗网络的异常检测方法。所提出的方法包括三部分,第一部分是利用聚类算法将原始数据分成多簇,分别进行后续处理以排除簇间空隙的影响。第二部分用神经网络构建镜像生成对抗网络并引入能量的思想,利用正常的数据进行迭代训练,生成位于边缘的关键异常点,加入到原始数据集中,达到类别平衡的目的。第三部分是构建异常检测器,利用生成异常点及数据集的正常点,进行迭代训练,异常点所处的关键边缘位置,可以使异常检测器学习到正异常的分界信息,从而对未知异常具备良好的检测能力。本发明专利技术实现了更高效率的关键异常点生成,在解决类别不平衡问题的同时,也提高了异常检测器对未知异常的检测能力。的检测能力。的检测能力。

【技术实现步骤摘要】
基于能量和镜像生成对抗网络的异常检测方法


[0001]本专利技术涉及机器学习和异常检测
,特别是涉及一种基于镜像生成对抗网络结合能量思想的异常检测方法。

技术介绍

[0002]异常检测是人工智能领域中的一个非常活跃的研究课题,其目的是识别不属于正态数据分布的异常实例,即与大多数其他数据具有显着不同特征的观察值。这些观察结果是如此独特,以至于引起人们怀疑它们是由非法行为或未被发现的错误产生的。在数据集中,正例样本是比较容易获取的,并且正例样本的“模式”往往固定或者不多变的。异常则与之相反,数量很少、区域相对多变、甚至未知,此时异常检测就面临样本不均衡的情况。
[0003]一般来说,根据数据标签的可用性,现有的异常检测方法可以分为三类:无监督、半监督和有监督异常检测。无监督算法是研究最广泛的算法之一,因为它们不需要额外的标签或先验信息。包括基于统计、基于聚类、基于回归、基于近邻的方法。这类方法明确或隐含地假设异常值不像正常数据那样集中。因此,可以有效地检测离散异常。但是,在许多情况下,同一机制可能会产生多个异常(例如DoS攻击)。它们变得越来越集中,以至于无监督的异常值检测错误地将这些组异常检测为正常数据。此外,模型和参数的选择对于没有先验知识帮助的无监督方法来说是一个相当大的挑战。而监督算法通常可以获得较高的检测率和较优参数,因为标签在训练过程中是完整和校正的。但在绝大多数情况下,完整标签的获取成本都是巨大的且无法承受的,由于完全基于监督式的方法对数据集的要求太高,故其的实施局限性较大。而半监督算法处于二者之间,只需要正常数据即可得到稳健的模型,而正常数据的获取相对更加容易,且占据了数据集中的绝大部分,基于此,本专利技术将异常检测视为一个半监督的问题。
[0004]生成对抗网络(Generative Adversarial Networks,GAN)是一种对抗性表示学习模型,在许多应用场景中都取得了先进的性能。在GAN和异常检测领域结合的相关工作中,对于仅使用正常示例的无监督离群点检测和半监督离群点检测,已经研究了基于GAN的重建模型和生成模型。基于GAN的重建模型通常通过训练常规GAN或GAN和自动编码器的组合来学习正常数据的生成机制,然后基于重建损失或鉴别器损失。基于GAN的生成模型通常使用GAN生成信息性潜在异常值或不常见的正常样本,以便后续检测器可以描述正确的边界。对于有监督的异常值检测,GAN常用于合成少数类示例以平衡两个类之间的相对比例。
[0005]本专利技术的目的在于针对异常检测领域内常见的数据集不平衡的问题,结合镜像生成对抗网络和能量的思想,生成关键异常点,补充数据集达到类别平衡的目的,生成的异常点所处的关键位置,也可以是异常检测器学习到正异常的分界信息,从而对未知异常具备良好的检测能力。

技术实现思路

[0006]由于数据大多以多簇形式存在,簇内为正常空间,而广阔的簇间及簇外空间都是
异常点可能出现的位置,故本专利技术首先对数据进行预处理后,将其进行分簇,每一簇单独处理。改进生成对抗网络的单生成器单判别器结构,加入新的镜像判别器,并结合能量的思想,用于生成位于正常点外围的关键异常点,并加入原始数据集中,使数据集达到类别平衡。加入的异常点所处于关键的边缘位置,可以使得异常检测器学习到完整的正异常分界信息,提高其对于未知异常的识别能力。
[0007]本专利技术通过下述技术方案实现:一种基于能量和镜像生成对抗网络的异常检测方法,具体包括如下步骤:
[0008]步骤1:对正常数据进行预处理,将其标准化,以消除量纲对结果的影响。划分数据集得到训练样本和测试样本,分别用于模型的训练和测试,并将训练样本使用聚类算法进行分簇,消除簇间空隙对边缘异常点生成的影响;
[0009]步骤2:用神经网络构建镜像生成对抗网络,并引入能量的思想,使用步骤1所得的单簇训练数据,对模型进行迭代训练,以得到最优参数,并将训练完成后的边缘异常点加入到原始数据集中;
[0010]步骤3:用神经网络另外搭建异常检测器,使用步骤2对所有簇训练所得的边缘异常点及正常点,对其进行迭代训练,并使用测试集对其进行测试。
[0011]进一步的,所述步骤1对数据的预处理包括以下步骤:
[0012]步骤11:对数据集中所有数据进行标准化处理,以消除量纲对结果的影响。
[0013]步骤12:对数据集进行划分,将其中的全部异常数据划分到测试集中。对于正常数据,将80%的数据分割出来作为训练集,剩下的20%数据于异常数据合并成为测试集,分别记为X
train
,X
test

[0014]步骤13:使用聚类算法,将训练数据X
train
进行分簇,其中m为数据簇的个数。取每一簇数据单独执行后续的步骤2和步骤3,以消除簇间空隙对异常点生成的影响。
[0015]进一步的,所述步骤2训练镜像生成网络并结合能量思想包括以下步骤:
[0016]步骤21:构建镜像生成对抗网络,不同于传统的单生成器单判别器结构,我们加入镜像判别器,并将其各组件记为G(生成器),D(判别器),D
mirror
(镜像判别器),其中D和D
mirror
结构相同,但目标输出相反。
[0017]步骤22:引入能量的思想,更改D和D
mirror
为编码器

解码器的结构,经过编码解码计算得到原始数据x
i
的重构数据y
i
。x
i
与y
i
维度一致,以x
i
和y
i
的均方误差作为能量值,直接用于与生成器G的对抗训练。
[0018]步骤23:取预处理后的训练集中的一簇数据,记为其中n为该簇训练样本的个数。
[0019]步骤24:随机采样k维的均匀噪声z作为生成器G的输入,输出最初的生成样本,记为X
g
={x
g1
,x
g2
,...,x
gn
},其中n为生成样本的个数。
[0020]步骤25:将步骤23,24所得的生成样本X
g
及一簇训练样本作为D的输入,通过编解码操作,希望D对中的样本输出能量较低,对X
g
中样本的输出能量高。D的目标函数如公式2

1所示:
[0021]L
D
=D(x)+[m

D(G(z))]+
ꢀꢀꢀꢀꢀꢀꢀ
公式2
‑1[0022]步骤26:D
mirror
和D结构相同,但训练目标函数与之相反。将步骤23所得的生成样本
X
g
及步骤24中的作为D
mirror
的输入,通过编解码操作,希望D
mirror
对X
g
中的样本输出能量较低,对中样本的输出能量高。D...

【技术保护点】

【技术特征摘要】
1.一种基于能量和镜像生成对抗网络的异常检测方法,其特征在于:具体包括如下步骤:步骤1:对正常数据进行预处理,将其标准化,以消除量纲对结果的影响。划分数据集得到训练样本和测试样本,分别用于模型的训练和测试,并将训练样本使用聚类算法进行分簇,消除簇间空隙对边缘异常点生成的影响;步骤2:用神经网络构建镜像生成对抗网络,并引入能量的思想,使用步骤1所得的单簇训练数据,对模型进行迭代训练,以得到最优参数,并将训练完成后的边缘异常点加入到原始数据集中;步骤3:用神经网络另外搭建异常检测器,使用步骤2对所有簇训练所得的边缘异常点及正常点,对其进行迭代训练,并使用测试集对其进行测试。2.根据权利1要求所述的数据预处理,其特征在于:所述步骤1对数据的预处理包括以下步骤:步骤11:对数据集中所有数据进行标准化处理,以消除量纲对结果的影响。步骤12:对数据集进行划分,将其中的全部异常数据划分到测试集中。对于正常数据,将80%的数据分割出来作为训练集,剩下的20%数据于异常数据合并成为测试集,分别记为X
train
,X
test
。步骤13:使用聚类算法,将训练数据X
train
进行分簇,其中m为数据簇的个数。取每一簇数据单独执行后续的步骤2和步骤3,以消除簇间空隙对异常点生成的影响。3.根据权利1所述的训练镜像生成对抗网络,其特征在于:所述步骤2训练镜像生成网络并结合能量思想包括以下步骤:步骤21:构建镜像生成对抗网络,不同于传统的单生成器单判别器结构,我们加入镜像判别器,并将其各组件记为G(生成器),D(判别器),D
mirror
(镜像判别器),其中D和D
mirror
结构相同,但目标输出相反。步骤22:引入能量的思想,更改D和D
mirror
为编码器

解码器的结构,经过编码解码计算得到原始数据x
i
的重构数据y
i
。x
i
与y
i
维度一致,以x
i
和y
i
的均方误差作为能量值,直接用于与生成器G的对抗训练。步骤23:取预处理后的训练集中的一簇数据,记为其中n为该簇训练样本的个数。步骤24:随机采样k维的均匀噪声z作为生成器G的输入,输出最初的生成样本,记为X
g
={x
g1
,x
g2


,x
gn
},其中n为生成样本的个数。步骤25:将步骤23,24所得的生成样本X
g
及一簇训练样本作为D的输入,通过编...

【专利技术属性】
技术研发人员:梁启亮张吉关东海李博涵
申请(专利权)人:南京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1