一种基于对抗掩码的网络流量异常检测系统与方法技术方案

技术编号:36299957 阅读:57 留言:0更新日期:2023-01-13 10:15
本发明专利技术公开了一种基于对抗掩码的网络流量异常检测系统与方法,涉及网络流量异常检测领域,所述系统包括上游的前置模型和下游的分类检测模型;前置模型包括对抗掩码生成模块、编码器网络、特征向量评估模块和掩码向量评估模块;分类检测模型包括训练过的编码器网络,以及分类器。所述方法包括:步骤1、对原始数据集进行数据预处理;步骤2、构建对抗掩码生成模块;步骤3、应用预先设计的对抗攻击算法,对训练数据集中的每一个原始样本生成一个相应的对抗样本;步骤4、完成编码器网络以及特征向量评估模块和掩码向量评估模块的训练;步骤5、将分类器连接在编码器网络后面,且仅对分类器进行训练,得到最终的分类模型。得到最终的分类模型。得到最终的分类模型。

【技术实现步骤摘要】
一种基于对抗掩码的网络流量异常检测系统与方法


[0001]本专利技术涉及网络流量异常检测领域,尤其涉及一种基于对抗掩码的网络流量异常检测系统与方法。

技术介绍

[0002]随着机器学习的深入发展,基于机器学习的网络异常检测模型已经成为主流方案。它通过从流量中提取特征,用检测器进行分类,极大提高了网络异常检测系统的检测性能,克服了传统网络流量异常检测系统识别检测不稳定,处理效率不高、自适应能力差等缺点。最近有研究已经发现机器学习模型具有脆弱性,容易被精心设计的样本所欺骗。因此为了有效应对对抗样本的威胁,已经有不少工作研究如何提升网络异常检测模型的鲁棒性。
[0003]但是,目前有关利用对抗样本提升网络异常检测模型精度的研究依然比较稀缺。由于在该领域,很难收集到大量有标签的数据样本,所以有研究工作选择使用随机掩码模型作为前置任务去更好地学习样本特征。虽然随机掩码模型充当着数据增强功能,但是生成的假样本处于哪一类真实样本的数据流形之上却是未知的,而这可能会导致前置模型的无效学习。尽管最近在图像识别领域有研究者开始利用对抗目标去提升图像编码器的表征学习能力,关于网络流量异常检测领域的对抗样本特性的使用还尚未研究,并且网络流量特征与图像特征不同,它并非每个特征都是连续的,因此设计一种属于网络安全领域独特的对抗样本生成算法也尤为关键。
[0004]陈振宇等人在中国专利技术专利申请“一种基于数据防御的深度学习模型优化方法”(申请号:CN202010712774.2)中为了针对对抗样本攻击方法优化模型,数据层面的防御策略主要通过在训练阶段将对抗样本注入训练数据集后重新训练模型,或预测阶段对样本进行修改,进行重建并将转换后的对抗样本输入到原模型来进行预测。利用开源对抗样本生成工具对待测模型以及目标数据集生成对抗样本,比较生成对抗样本前后模型在指定数据集上的成功率,但该专利技术属于在图像识别领域借助对抗样本对训练模型或预测阶段进行优化。
[0005]因此,本领域的技术人员致力于开发一种新的网络流量异常检测方法,提供一种属于网络安全领域独特的对抗样本生成算法,克服上述随机掩码模型可能会生成无效数据的问题。

技术实现思路

[0006]有鉴于现有技术的上述缺陷,本专利技术所要解决的技术问题是如何克服随机掩码模型可能会生成无效数据的问题,通过设计针对网络流量特征的对抗攻击算法,并将该对抗攻击引入到掩码生成模型之中,进而生成对模型更具有挑战性的假样本,从而帮助前置模型学习到更为丰富的潜在信息,从而提升模型训练的效率与检测精度。
[0007]为实现上述目的,本专利技术提供了一种基于对抗掩码的网络流量异常检测系统,所述系统包括上游的前置模型和下游的分类检测模型;
[0008]其中,所述前置模型包括对抗掩码生成模块、编码器网络、特征向量评估模块和掩码向量评估模块;在上游的所述前置模型中,将对所述编码器网络进行训练;
[0009]所述分类检测模型包括训练过的所述编码器网络,以及分类器;在保证所述编码器网络的权重不变的情况下仅对所述分类器进行训练,得到最终的分类模型;所述分类模型对测试数据集进行分类预测。
[0010]进一步地,所述对抗掩码生成模块接收由原始样本组成的原始数据集,生成远离输入的所述原始样本的流形的对抗样本;
[0011]所述编码器网络接收所述对抗掩码生成模块生成的所述对抗样本,借助于深层神经网络的非线性特征提取能力,从人为设置的代理任务中提取所述对抗样本中的隐含特征;
[0012]所述特征向量评估模块连接所述编码器网络,将所述隐含特征还原成与所述原始样本一样维度的特征形式,并利用重构误差来衡量所述对抗样本与所述原始样本之间的距离;
[0013]所述掩码向量评估模块同样连接所述编码器网络,预测所述潜在特征的位置。
[0014]进一步地,所述对抗掩码生成模块包括一个自动编码器,所述自动编码器又包括一个编码器和一个解码器,将输入的所述原始样本通过所述编码器得到潜在特征,再利用所述解码器将所述潜在特征还原为和所述原始样本的维度一样的重构样本,所述重构样本即所述对抗样本。
[0015]进一步地,所述特征向量评估模块和所述掩码向量评估模块是并行搭建。
[0016]本专利技术还提供了一种基于对抗掩码的网络流量异常检测方法,所述方法包括以下步骤:
[0017]步骤1、对原始数据集进行数据预处理;所述原始数据集为包括连续特征和离散特征的网络数据,由原始样本组成;对于所述连续特征,利用min

max方式转换到0到1的区间之中;对于所述离散特征,使用独热编码转换为数值形式;取所述原始数据集的10%数据作为训练数据集,剩余90%数据作为测试数据集;将经过预处理后的所述原始数据集记为其中其中,表示维度大小为d的实数集;
[0018]步骤2、构建对抗掩码生成模块,所述对抗掩码生成模块包括一个自动编码器;将所述训练数据集中的所述原始样本取出,作为所述自动编码器的训练集,并利用重构误差作为所述自动编码器的损失函数;
[0019]将所述自动编码器记为I,所述训练数据集记为x,则相应的所述损失函数为:
[0020][0021]其中,I相当于一个函数表达式,I(x)表示当函数表达式的输入为x时的输出结果;在中,右侧底下的2表示求向量x

I(x)的第二范数的值,上面的2表示对第二范数求平方值;
[0022]在所述自动编码器的训练完毕后,将所述损失函数作为判断样本是否异常的衡量标准;如果所述原始样本的重构误差高于预先设定的阈值,则判定为异常样本,否则为正常样本;
[0023]步骤3、应用预先设计的对抗攻击算法,对所述训练数据集中的每一个所述原始样
本生成一个相应的对抗样本;
[0024]步骤4、完成编码器网络以及特征向量评估模块和掩码向量评估模块的训练和构建;
[0025]步骤5、将分类器连接在已经训练好的所述编码器网络后面,在保证所述编码器网络的权重不变的情况下仅对所述分类器进行训练,得到最终的分类模型;所述分类模型对所述测试数据集进行分类预测。
[0026]进一步地,在所述步骤3中,所述对抗攻击算法为:
[0027]假设所述原始数据集为x=(x
c
,x
s
),其中x
c
=(x1,x2,

,x
k
),代表着k个元素组成的所述连续特征,而x
s
=(x
k+1
,x
k+2
,

,x
d
),表示由d

k个元素所组成的所述离散特征;设扰动范围为ε,迭代次数为N,针对所述训练数据集的所述对抗攻击算法可表示为:
[0028][0029][0030][0031]其中,在x上有*的符号,代表该数据特征经过人为扰动;上面的c
*
表示所述原始数据集中被人为修改过的所述连续特征;底下的数值本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于对抗掩码的网络流量异常检测系统,其特征在于,所述系统包括上游的前置模型和下游的分类检测模型;其中,所述前置模型包括对抗掩码生成模块、编码器网络、特征向量评估模块和掩码向量评估模块;在上游的所述前置模型中,将对所述编码器网络进行训练;所述分类检测模型包括训练过的所述编码器网络,以及分类器;在保证所述编码器网络的权重不变的情况下仅对所述分类器进行训练,得到最终的分类模型;所述分类模型对测试数据集进行分类预测。2.如权利要求1所述的基于对抗掩码的网络流量异常检测系统,其特征在于,所述对抗掩码生成模块接收由原始样本组成的原始数据集,生成远离输入的所述原始样本的流形的对抗样本;所述编码器网络接收所述对抗掩码生成模块生成的所述对抗样本,借助于深层神经网络的非线性特征提取能力,从人为设置的代理任务中提取所述对抗样本中的隐含特征;所述特征向量评估模块连接所述编码器网络,将所述隐含特征还原成与所述原始样本一样维度的特征形式,并利用重构误差来衡量所述对抗样本与所述原始样本之间的距离;所述掩码向量评估模块同样连接所述编码器网络,预测所述潜在特征的位置。3.如权利要求2所述的基于对抗掩码的网络流量异常检测系统,其特征在于,所述对抗掩码生成模块包括一个自动编码器,所述自动编码器又包括一个编码器和一个解码器,将输入的所述原始样本通过所述编码器得到潜在特征,再利用所述解码器将所述潜在特征还原为和所述原始样本的维度一样的重构样本,所述重构样本即所述对抗样本。4.如权利要求1所述的基于对抗掩码的网络流量异常检测系统,其特征在于,所述特征向量评估模块和所述掩码向量评估模块是并行搭建。5.一种基于对抗掩码的网络流量异常检测方法,其特征在于,所述方法包括以下步骤:步骤1、对原始数据集进行数据预处理;所述原始数据集为包括连续特征和离散特征的网络数据,由原始样本组成;对于所述连续特征,利用min

max方式转换到0到1的区间之中;对于所述离散特征,使用独热编码转换为数值形式;取所述原始数据集的10%数据作为训练数据集,剩余90%数据作为测试数据集;将经过预处理后的所述原始数据集记为其中其中,表示维度大小为d的实数集;步骤2、构建对抗掩码生成模块,所述对抗掩码生成模块包括一个自动编码器;将所述训练数据集中的所述原始样本取出,作为所述自动编码器的训练集,并利用重构误差作为所述自动编码器的损失函数;将所述自动编码器记为I,所述训练数据集记为x,则相应的所述损失函数为:其中,I相当于一个函数表达式,I(x)表示当函数表达式的输入为x时的输出结果;在中,右侧底下的2表示求向量x

I(x)的第二范数的值,上面的2表示对第二范数求平方值;在所述自动编码器的训练完毕后,将所述损失函数作为判断样本是否异常的衡量标准;如果所述原始样本的重构误差高于预先设定的阈值,则判定为异常样本,否则为正常样本;
步骤3、应用预先设计的对抗攻击算法,对所述训练数据集中的每一个所述原始样本生成一个相应的对抗样本;步骤4、完成编码器网络以及特征向量评估模块和掩码向量评估模块的训练和构建;步骤5、将分类器连接在已经训练好的所述编码器网络后面,在保证所述编码器网络的权重不变的情况下仅对所述分类器进行训练,得到最终的分类模型;所述分类模型对所述测试数据集进行分类预测。6.如权利要求5所述的基于对抗掩码的网络流量异常检测方法,其特征在于,在所述步骤3中,所述对抗攻击算法为:假设所述原始数据集为x=(x
c
,x
s
),其中x
c
=(x1,x2,...,x
k
),代表着k个元素组成的所述连续特征,而x
s
=(x
k+1
,x
k+2
,...,x
d
),表示由d

k个元素所组成的所述离散特征;设扰动范围...

【专利技术属性】
技术研发人员:张一航黄晓霖杨根科褚健
申请(专利权)人:上海交通大学宁波人工智能研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1