基于潜在空间对抗式聚类的用户伪装攻击检测方法及系统技术方案

技术编号:23088261 阅读:52 留言:0更新日期:2020-01-11 02:16
本发明专利技术公开了一种基于潜在空间对抗式聚类的用户伪装攻击检测方法及系统,方法包括如下步骤:(1)用户行为序列获取;(2)用户行为序列预处理;(3)网络模型训练,选用ClusterGAN网络模型;(4)待测样本预处理;(5)编码输出;(6)判断。本发明专利技术克服现有用户伪装攻击检测方法的不足,有效地提高伪装攻击检测的准确性和效果,使用生成对抗网络来学习用户行为序列背后的数据特征,并且加入编码器来提高训练效果和判断用户行为是否合法,理论证明该方法优于传统方法在对抗的过程中学习检测用户伪装攻击,与现有的检测方法相比,更能够挖掘数据背后的特征,用户伪装攻击检测的准确度更高。

Detection method and system of user camouflage attack based on potential space adversary clustering

【技术实现步骤摘要】
基于潜在空间对抗式聚类的用户伪装攻击检测方法及系统
本专利技术涉及人工智能及控制
,具体涉及一种基于潜在空间对抗式聚类的用户伪装攻击检测方法及系统。
技术介绍
用户伪装攻击是指当前用户的行为未经授权,伪装已授权用户访问重要数据或者执行要求权限高的行为。用户伪装攻击危害着网络的安全,常常会造成敏感信息的泄露和严重降低网络的服务质量,甚至引起整个网络的瘫痪,严重危害社交网络的安全性和隐私性。因此,如何检测到用户伪装攻击是当前计算机信息安全亟待解决的问题。人们提出了多种解决方案来检测用户伪装攻击。常见的方法包括使用基于传统机器学习的检测方法和基于模式挖掘的检测方法。基于传统机器学习的检测方法实现起来简单,准确率高,但需要大量的人工标记的数据并且模型训练开销大,无法满足大规模实例部署要求。基于模式挖掘的检测方法,通过关联分析,使用序列挖掘技术对用户伪装攻击的行为模型进行挖掘,这种方法可操作性强,但算法检测的准确率不足。因此,需要提出一种新的方法,结合上述两类方法的优势,弥补二者不足,以获取更佳的用户伪装攻击检测效果。
技术实现思路
本专利技术的目的是提供一种基于潜在空间对抗式聚类的用户伪装攻击检测方法及系统,利用生成对抗网络解决用户伪装攻击潜在空间的聚类问题,从而检测用户伪装攻击。为实现上述专利技术目的,本专利技术提供以下的技术方案:一种基于潜在空间对抗式聚类的用户伪装攻击检测方法,包括如下步骤:(1)用户行为序列获取,在真实环境下,记录用户的行为序列,选择其中一部分用户为合法用户,其余用户为伪装用户,伪装用户的行为序列中随机插入命令块;(2)用户行为序列预处理,使用独热编码技术对合法用户的行为序列进行特征离散化处理后映射到二进制向量,得到合法样本,使用独热编码技术对伪装用户的行为序列进行特征离散化处理后映射到二进制向量,得到伪装样本;(3)网络模型训练,选用ClusterGAN网络模型,其包括生成器、判别器以及编码器,更新生成器参数、判别器参数以及编码器参数,对网络模型进行训练,以合法样本和伪装样本作为真实样本,以真实样本的联合噪声作为生成器的输入,生成器输出生成样本,以各个真实样本作为判别器的输入,判别器对真实样本和生成进行比较,以生成样本作为编码器的输入,编码器输出生成样本的联合噪声;(4)待测的行为序列预处理,对待检测的行为序列进行特征离散化处理,使用独热编码技术将待检测的行为序列进行特征离散化处理后映射到二进制向量,得到待测样本;(5)编码输出,将待测样本作为训练后编码器的输入,编码器输出待测样本的联合噪声;(6)判断,对待测样本的联合噪声与生成样本的联合噪声进行拟合,如待测样本的联合噪声与合法样本的联合噪声拟合度高,则待测检测的行为序列的用户为合法用户,如待测样本的联合噪声与伪装样本的联合噪声拟合度高,则待测检测的行为序列的用户为伪装用户。进一步的,步骤(1)中,在真实工作环境中,收集每位用户10000条正常命令,随机选择50名用户为合法用户,其余用户为伪装用户。进一步的,步骤(3)中,所述ClusterGAN网络模型的总目标函数如下:其中,θG表示生成器参数;θD表示判别器参数;θE表示编码器参数;x表示用户行为序列数据,作为真实样本数据;G表示生成器模型,输出生成样本数据;D表示判别器模型,用来区分真实样本和生成样本;表示真实样本分布;Ρz表示联合噪声z样本分布;q选取的是log(x),log(x)是质量函数,对于本模型中,使用对数函数作为质量函数;βn表示表示联合噪声z中离散部分数据zn的正则化参数,βc表示表示联合噪声z中连续部分数据zc的正则化参数,βn和βc可以共同调节联合噪声z中离散数据和连续数据的权重大小;ε表示编码器,用来将样本数据编码到联合噪声到过程,ε(G(zn))表示将生成样本编码到联合噪声,表示当前生成样本G(zn)到数据簇的距离;和分别表示最小化和最大化;||||2表示计算二范数;Ε表示求表达式的期望;H是计算交叉熵损失的函数。进一步的,编码器的网络结构由全连接层构成,输入层有16个节点,第一层全连接层有256个节点,第二层全连接层有256个节点,输出层有两个节点,输入层输入独热编码后的向量xi,输出层最终输出伪装攻击检测的二分类结果。进一步的,使用机器学习库sklearn对待测样本的联合噪声与生成样本的联合噪声进行拟合。本专利技术还提供用于如上所述的用户伪装攻击检测方法的用户伪装攻击检测系统,包括:数据获取模块,用于获取用户的行为序列并将部分用户设为伪装用户,在其行为序列中随机插入命令块;数据预处理模块,用于采用独热编码技术对用户的行为序列和待测的行为序列进行离散化处理,得到以二进制向量表示的真实样本和待测样本;网络模型,采用ClusterGAN网络模型,用于以真实样本和真实样本的联合噪声作为输入进行训练后输出生成样本的联合噪声,再以待测样本作为输入后输出待测样本的联合噪声;判断模块,用于对待测样本的联合噪声和生成样本的联合噪声进行拟合后判断待测的行为序列的用户为合法用户还是伪装用户。由于上述技术方案运用,本专利技术与现有技术相比具有以下优点:本专利技术公开的基于潜在空间对抗式聚类的用户伪装攻击检测方法及系统,克服现有用户伪装攻击检测方法的不足,有效地提高伪装攻击检测的准确性和效果,使用生成对抗网络来学习用户行为序列背后的数据特征,并且加入编码器来提高训练效果和判断用户行为是否合法,理论证明该方法优于传统方法在对抗的过程中学习检测用户伪装攻击,与现有的检测方法相比,更能够挖掘数据背后的特征,用户伪装攻击检测的准确度更高。附图说明图1为本专利技术中用户伪装攻击检测方法的流程图;图2为本专利技术中网络模型的结构图;图3为本专利技术中编码器的结构图;图4为本专利技术中用户伪装攻击检测系统的结构图。具体实施方式下面结合本专利技术的原理、附图以及实施例对本专利技术进一步描述为克服现有用户伪装攻击检测方法的不足,有效地提高伪装攻击检测的准确性和效果,本专利技术提供一种基于潜在空间对抗式聚类的用户伪装攻击检测方法。为了解决潜在空间中的聚类问题,使用生成对抗网络(GenerativeAdversarialNetworks,简称GAN)来学习用户行为序列背后的数据特征,并且加入编码器来提高训练效果和判断用户行为是否合法,理论证明该方法优于传统方法。参见图1至图4,如其中的图例所示,一种基于潜在空间对抗式聚类的用户伪装攻击检测方法,包括如下步骤:(1)用户行为序列获取,在真实环境下,记录用户的行为序列,选择其中一部分用户为合法用户,其余用户为伪装用户,伪装用户的行为序列中随机插入命令块;(2)用户行为序列预处理,使用独热编码技术对合法用户的行为序列进行特征离散化处理后映射到二进制向量,得到合法样本,使用独热编码技术对伪装用户的行为序列进行特征离散化处理后映射到二进制向量,得到伪装样本;(3)网络模本文档来自技高网...

【技术保护点】
1.一种基于潜在空间对抗式聚类的用户伪装攻击检测方法,其特征在于,包括如下步骤:/n(1)用户行为序列获取,在真实环境下,记录用户的行为序列,选择其中一部分用户为合法用户,其余用户为伪装用户,伪装用户的行为序列中随机插入命令块;/n(2)用户行为序列预处理,使用独热编码技术对合法用户的行为序列进行特征离散化处理后映射到二进制向量,得到合法样本,使用独热编码技术对伪装用户的行为序列进行特征离散化处理后映射到二进制向量,得到伪装样本;/n(3)网络模型训练,选用ClusterGAN网络模型,其包括生成器、判别器以及编码器,更新生成器参数、判别器参数以及编码器参数,对网络模型进行训练,以合法样本和伪装样本作为真实样本,以真实样本的联合噪声作为生成器的输入,生成器输出生成样本,以各个真实样本作为判别器的输入,判别器对真实样本和生成进行比较,以生成样本作为编码器的输入,编码器输出生成样本的联合噪声;/n(4)待测的行为序列预处理,对待检测的行为序列进行特征离散化处理,使用独热编码技术将待检测的行为序列进行特征离散化处理后映射到二进制向量,得到待测样本;/n(5)编码输出,将待测样本作为训练后编码器的输入,编码器输出待测样本的联合噪声;/n(6)判断,对待测样本的联合噪声与生成样本的联合噪声进行拟合,如待测样本的联合噪声与合法样本的联合噪声拟合度高,则待测检测的行为序列的用户为合法用户,如待测样本的联合噪声与伪装样本的联合噪声拟合度高,则待测检测的行为序列的用户为伪装用户。/n...

【技术特征摘要】
1.一种基于潜在空间对抗式聚类的用户伪装攻击检测方法,其特征在于,包括如下步骤:
(1)用户行为序列获取,在真实环境下,记录用户的行为序列,选择其中一部分用户为合法用户,其余用户为伪装用户,伪装用户的行为序列中随机插入命令块;
(2)用户行为序列预处理,使用独热编码技术对合法用户的行为序列进行特征离散化处理后映射到二进制向量,得到合法样本,使用独热编码技术对伪装用户的行为序列进行特征离散化处理后映射到二进制向量,得到伪装样本;
(3)网络模型训练,选用ClusterGAN网络模型,其包括生成器、判别器以及编码器,更新生成器参数、判别器参数以及编码器参数,对网络模型进行训练,以合法样本和伪装样本作为真实样本,以真实样本的联合噪声作为生成器的输入,生成器输出生成样本,以各个真实样本作为判别器的输入,判别器对真实样本和生成进行比较,以生成样本作为编码器的输入,编码器输出生成样本的联合噪声;
(4)待测的行为序列预处理,对待检测的行为序列进行特征离散化处理,使用独热编码技术将待检测的行为序列进行特征离散化处理后映射到二进制向量,得到待测样本;
(5)编码输出,将待测样本作为训练后编码器的输入,编码器输出待测样本的联合噪声;
(6)判断,对待测样本的联合噪声与生成样本的联合噪声进行拟合,如待测样本的联合噪声与合法样本的联合噪声拟合度高,则待测检测的行为序列的用户为合法用户,如待测样本的联合噪声与伪装样本的联合噪声拟合度高,则待测检测的行为序列的用户为伪装用户。


2.如权利要求1所述的基于潜在空间对抗式聚类的用户伪装攻击检测方法,其特征在于,步骤(1)中,在真实工作环境中,收集每位用户10000条正常命令,随机选择50名用户为合法用户,其余用户为伪装用户。


3.如权利要求1所述的基于潜在空间对抗式聚类的用户伪装攻击检测方法,其特征在于,步骤(3)中,所述ClusterGAN网络模型的总目标函数如下:



其中,θG表示生成器参数;θD表示判别器参数;θE表示编码器参数;x表示用...

【专利技术属性】
技术研发人员:冯仁君薛劲松景栋盛
申请(专利权)人:国网江苏省电力有限公司苏州供电分公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1