基于对抗自编码器的无监督内部威胁检测方法技术

技术编号:39259162 阅读:10 留言:0更新日期:2023-10-30 12:10
本发明专利技术属于用户异常行为检测技术领域,公开了基于对抗自编码器的无监督内部威胁检测方法,其将用户行为原始日志数据的行为序列拆分为以会话为单位的子序列集合,并提取数值特征;将其输入至对抗自编码器中进行训练,得到训练后的正常行为模型;将待检测的用户日志进行特征提取后输入训练后的正常行为模型中,计算数值特征的重构误差的和并作为会话中用户行为的威胁得分,判断该段会话中是否存在威胁。本发明专利技术使用无监督学习的方法训练正常用户行为序列,不需要预定义的标签或其他先验知识,使用对抗学习约束了编码器输出的不确定性,提高了模型对多维时序行为序列的重构准确度。度。度。

【技术实现步骤摘要】
基于对抗自编码器的无监督内部威胁检测方法


[0001]本专利技术属于用户异常行为检测
,具体是涉及基于对抗自编码器的无监督内部威胁检测方法。

技术介绍

[0002]随着各行业对信息系统的采用逐步增加,其业务运作的信息化程度和工作运作的效率迅速提高。然而,入侵和破坏对信息系统造成的危害也越来越严重。安全保护的边界变得模糊,系统的安全需求逐渐演变,内部人员不再值得信任。来自内部人员的威胁和攻击已经成为一个值得关注的安全风险。与传统的外部人员入侵不同,内部人员往往是企业安全保护的盲点,攻击行为会更具破坏性,因为他们更熟悉组织结构和有价值的关键属性或内容。因此,内部威胁检测是当前需要解决的重要问题之一。
[0003]当前,目前的内部威胁检测方法主要分为两类:一是基于规则的方法:利用专家知识生成先验规则,通过判断是否存在预定义的危险行为模式来检测内部威胁行为;随着攻击方法的逐步升级和渗透隐蔽性的提高,基于规则的方法逐渐无法胜任威胁检测;另一种是数据驱动方法,利用机器学习发现系统历史日志数据中用户行为正常或异常的特征,从而实现对当前用户行为的异常检测。然而,由于在真实场景下用户行为数据为不平衡数据集,其中的威胁行为存在数据量少、正负样本数量不均地问题,异常行为与正常行为的比例约为0.1%,甚至更低。由于缺乏足够的可用异常标签信息,传统的监督学习难以满足多分类或二分类问题的需要;同时内部威胁行为往往潜伏周期长、且尽可能模仿正常行为,这导致包含隐马尔可夫、支持向量机等传统机器学习方法难以在内部用户行为检测领域展现出有效结果,其检测准确率较低。
[0004]如专利申请CN113407425A公开了基于BiGAN与OTSU的内部用户行为检测方法,其提取用户行为原始日志数据的频率特征,利用BiGAN网络作为构建用户正常行为模式的模型并计算用户待检测数据的重构误差与判别器误差得到异常得分,获得检测结果,以此提高异常检测方法在内部用户行为检测中的准确率,并降低误报率;但其面对相同的数据集CERT,基于BiGAN与OTSU的内部用户行为检测方法在数据处理和特征提取上只提取指定的时间单位长度计算其频率特征,并未对事件频率特征和时间特征进行分开处理。
[0005]专利申请CN111726350A公开了基于VAE和BPNN的内部威胁检测方法,利用生成模型VAE训练用户行为数据,充分考虑非恶意的异常用户行为,构建正常用户行为模型并得到最优VAE模型,进而结合BP神经网络检测用户行为数据的异常状态,从而实现异常用户行为的检测;但是BP神经网络在识别前后有关联的数据时,无法挖掘到数据产生的模式,而时间序列是反映内部威胁的一个重要特征,挖掘基于时间序列数据内部威胁BP神经网络具有较高的误报率,准确率低的问题,且存在局部收敛的问题。

技术实现思路

[0006]为解决上述技术问题,本专利技术提供了一种基于对抗自编码器的无监督内部威胁检
测方法,可以对复杂的日志数据进行特征提取,在特征选择方面,增加了对时间信息的关注,通过多种角度分析用户行为,该模型具有较强的泛化性和鲁棒性。
[0007]本专利技术所述的基于对抗自编码器的无监督内部威胁检测方法,包括以下步骤:S1、获取用户行为原始日志数据,并将所述用户行为原始日志数据的行为序列拆分为以会话为单位的子序列集合,对子序列中的行为信息进行聚合和提取,生成固定长度的数字向量表示用户在这一会话内的操作;并将会话内的用户行为信息提取为数值特征;S2、将提取的数值特征分别输入至LSTM自编码器模型及TL

AAE编码器模型中进行训练,得到训练后的正常行为模型;S3、将待检测的用户日志进行特征提取后输入训练后的正常行为模型中,计算用户待检测数据的数值特征的重构误差的和,将其作为会话中用户行为的威胁得分,并判断该段会话中是否存在威胁。
[0008]进一步的,S1中,对于采集到的原始多源用户日志,统一用户行为的描述形式,将用户行为分为不同类型并进行编号,将其聚合为一条用户行为序列,其中表示用户在系统上执行的某一种类型操作;将聚合的用户行为序列会话为单位拆分为多个子序列,将每个用户登录系统到退出系统期间设置为一个会话,即令用户行为序列转变为多个子序列集合。
[0009]进一步的,提取的数值特征为事件频率特征和时间特征;对于每个子序列,统计其中不同类型行为的发生次数,构成此子行为序列的事件频率特征矩阵,,其中,,,m表示子序列会话的长度,d表示设定的特征维数,即设置的行为类型数量;表示第i个员工的会话,表示第i个事件频率特征,表示全部会话的事件频率特征;每个子序列的时间信息,统计其起始时间、终止时间、子序列持续时间,并与事件频率特征矩阵对应构成时间特征矩阵。
[0010]进一步的,所述TL

AAE自编码器模型包括编码器模块E、解码器模块G、判别器模块D和先验分布生成器模块;编码器模块E对输入进行处理后输出当前时刻的状态信息;解码器模块G将编码器模块E输出的结果重构为原始序列;采用均方差误差作为损失函数,定义如下:,其中,为输入序列长度,为编码器函数,表示由输入得到
潜在特征,为解码器函数,表示由潜在特征重构输入;判别器模块D及先验分布生成器约束解码器输出,通过对抗训练以迫使解码器生成的潜在分布特征迫近假设先验分布,对抗损失被定义为:,其中D是辨别器,表示先验的概率分布,表示用户行为特征即解码器输入的分布,表示解码器输出,即潜在特征,表示先验分布生成器产生的服从的随机变量,与潜在特征维度一致;
[0011]在训练过程中,编码器函数目标生成符合先验分布的潜在特征,而辨别器D则负责尽可能区分与,通过与D间的博弈过程,的输出结果将被先验分布约束;整个融合TL

AAE自编码器模型的损失函数为自编码器的重构损失与对抗损失之和,定义如下:,为了平衡重建损失与对抗损失,为对抗损失乘以权重,整个训练过程的目标为:。
[0012]进一步的,所述编码器模块E由TCN网络和LSTM模块组成,每一层TCN网络包括2个因果卷积单元,每个因果卷积单元进行权重归一化并使用Relu作为激活函数;对于每层TCN网络,采用膨胀因果卷积增加卷积感受野,每层的膨胀系数为,n为当前层数;同时为了避免梯度消失问题,为每层TCN添加了残差块结构;输入经过TCN处理后的输出被送入LSTM模块,最终输出当前时刻的状态信息。
[0013]进一步的,对于时间特征,采用LSTM自编码器进行训练,损失函数定义如下:,其中为输入序列长度,为第t个时间特征,为完整的时间特征;整个训练过程的目标为:。
[0014]进一步的,对于待检测用户行为日志,将原始用户日志转为可输入模型的事件频率特征矩阵与时间特征矩阵,并分别输入到训练完毕的TL

AAE自编码器模型与LSTM自编码器模型中输出重构特征,,通过计算重构特征间输入特征的重构误差来判断是否存在威胁行为;重构误差定义为:
,整个会话内用户行为特征的重构误差被定位为:,将重构误差看作该会话用本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于对抗自编码器的无监督内部威胁检测方法,其特征在于,包括以下步骤:S1、获取用户行为原始日志数据,并将所述用户行为原始日志数据的行为序列拆分为以会话为单位的子序列集合,对子序列中的行为信息进行聚合和提取,生成固定长度的数字向量表示用户在这一会话内的操作;并将会话内的用户行为信息提取为数值特征;S2、将提取的数值特征分别输入至LSTM自编码器模型及TL

AAE自编码器模型中进行训练,得到训练后的正常行为模型;S3、将待检测的用户日志进行特征提取后输入训练后的正常行为模型中,计算用户待检测数据的数值特征的重构误差的和,将其作为会话中用户行为的威胁得分,并判断该段会话中是否存在威胁。2.根据权利要求1所述的基于对抗自编码器的无监督内部威胁检测方法,其特征在于,S1中,对于采集到的原始多源用户日志,统一用户行为的描述形式,将用户行为分为不同类型并进行编号,将其聚合为一条用户行为序列,其中表示用户在系统上执行的某一种类型操作;将聚合的用户行为序列会话为单位拆分为多个子序列,将每个用户登录系统到退出系统期间设置为一个会话,即令用户行为序列转变为多个子序列集合。3.根据权利要求2所述的基于对抗自编码器的无监督内部威胁检测方法,其特征在于,提取的数值特征为事件频率特征和时间特征;对于每个子序列,统计其中不同类型行为的发生次数,构成此子行为序列的事件频率特征矩阵,,其中,,,m表示子序列会话的长度,d表示设定的特征维数,即设置的行为类型数量;表示第i个员工的会话,表示第i个事件频率特征,表示全部会话的事件频率特征;每个子序列的时间信息,统计其起始时间、终止时间、子序列持续时间,并与事件频率特征矩阵对应构成时间特征矩阵。4.根据权利要求1所述的基于对抗自编码器的无监督内部威胁检测方法,其特征在于,所述TL

AAE自编码器模型包括编码器模块E、解码器模块G、判别器模块D和先验分布生成器模块;编码器模块E对输入进行处理后输出当前时刻的状态信息;解码器模块G将编码器模块E输出的结果重构为原始序列;采用均方差误差作为损失函数,定义如下:,其中,为输入序列长度,为编码器函数,表示由输入得到潜在特
征,为解码器函数,...

【专利技术属性】
技术研发人员:孙雁飞周振国朱行健董建阔亓晋董振江
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1