一种基于对抗掩码的网络流量异常检测系统与方法技术方案

技术编号：36299957 阅读：57 留言：0更新日期：2023-01-13 10:15

本发明专利技术公开了一种基于对抗掩码的网络流量异常检测系统与方法，涉及网络流量异常检测领域，所述系统包括上游的前置模型和下游的分类检测模型；前置模型包括对抗掩码生成模块、编码器网络、特征向量评估模块和掩码向量评估模块；分类检测模型包括训练过的编码器网络，以及分类器。所述方法包括：步骤1、对原始数据集进行数据预处理；步骤2、构建对抗掩码生成模块；步骤3、应用预先设计的对抗攻击算法，对训练数据集中的每一个原始样本生成一个相应的对抗样本；步骤4、完成编码器网络以及特征向量评估模块和掩码向量评估模块的训练；步骤5、将分类器连接在编码器网络后面，且仅对分类器进行训练，得到最终的分类模型。得到最终的分类模型。得到最终的分类模型。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于对抗掩码的网络流量异常检测系统与方法

[0001]本专利技术涉及网络流量异常检测领域，尤其涉及一种基于对抗掩码的网络流量异常检测系统与方法。

技术介绍

[0002]随着机器学习的深入发展，基于机器学习的网络异常检测模型已经成为主流方案。它通过从流量中提取特征，用检测器进行分类，极大提高了网络异常检测系统的检测性能，克服了传统网络流量异常检测系统识别检测不稳定，处理效率不高、自适应能力差等缺点。最近有研究已经发现机器学习模型具有脆弱性，容易被精心设计的样本所欺骗。因此为了有效应对对抗样本的威胁，已经有不少工作研究如何提升网络异常检测模型的鲁棒性。
[0003]但是，目前有关利用对抗样本提升网络异常检测模型精度的研究依然比较稀缺。由于在该领域，很难收集到大量有标签的数据样本，所以有研究工作选择使用随机掩码模型作为前置任务去更好地学习样本特征。虽然随机掩码模型充当着数据增强功能，但是生成的假样本处于哪一类真实样本的数据流形之上却是未知的，而这可能会导致前置模型的无效学习。尽管最近在图像识别领域有研究者开始利用对抗目标去提升图像编码器的表征学习能力，关于网络流量异常检测领域的对抗样本特性的使用还尚未研究，并且网络流量特征与图像特征不同，它并非每个特征都是连续的，因此设计一种属于网络安全领域独特的对抗样本生成算法也尤为关键。
[0004]陈振宇等人在中国专利技术专利申请“一种基于数据防御的深度学习模型优化方法”(申请号：CN202010712774.2)中为了针对对抗样本攻击方法优化模型，数据层面的防御...

【技术保护点】

【技术特征摘要】
1.一种基于对抗掩码的网络流量异常检测系统，其特征在于，所述系统包括上游的前置模型和下游的分类检测模型；其中，所述前置模型包括对抗掩码生成模块、编码器网络、特征向量评估模块和掩码向量评估模块；在上游的所述前置模型中，将对所述编码器网络进行训练；所述分类检测模型包括训练过的所述编码器网络，以及分类器；在保证所述编码器网络的权重不变的情况下仅对所述分类器进行训练，得到最终的分类模型；所述分类模型对测试数据集进行分类预测。2.如权利要求1所述的基于对抗掩码的网络流量异常检测系统，其特征在于，所述对抗掩码生成模块接收由原始样本组成的原始数据集，生成远离输入的所述原始样本的流形的对抗样本；所述编码器网络接收所述对抗掩码生成模块生成的所述对抗样本，借助于深层神经网络的非线性特征提取能力，从人为设置的代理任务中提取所述对抗样本中的隐含特征；所述特征向量评估模块连接所述编码器网络，将所述隐含特征还原成与所述原始样本一样维度的特征形式，并利用重构误差来衡量所述对抗样本与所述原始样本之间的距离；所述掩码向量评估模块同样连接所述编码器网络，预测所述潜在特征的位置。3.如权利要求2所述的基于对抗掩码的网络流量异常检测系统，其特征在于，所述对抗掩码生成模块包括一个自动编码器，所述自动编码器又包括一个编码器和一个解码器，将输入的所述原始样本通过所述编码器得到潜在特征，再利用所述解码器将所述潜在特征还原为和所述原始样本的维度一样的重构样本，所述重构样本即所述对抗样本。4.如权利要求1所述的基于对抗掩码的网络流量异常检测系统，其特征在于，所述特征向量评估模块和所述掩码向量评估模块是并行搭建。5.一种基于对抗掩码的网络流量异常检测方法，其特征在于，所述方法包括以下步骤：步骤1、对原始数据集进行数据预处理；所述原始数据集为包括连续特征和离散特征的网络数据，由原始样本组成；对于所述连续特征，利用min
‑
max方式转换到0到1的区间之中；对于所述离散特征，使用独热编码转换为数值形式；取所述原始数据集的10％数据作为训练数据集，剩余90％数据作为测试数据集；将经过预处理后的所述原始数据集记为其中其中，表示维度大小为d的实数集；步骤2、构建对抗掩码生成模块，所述对抗掩码生成模块包括一个自动编码器；将所述训练数据集中的所述原始样本取出，作为所述自动编码器的训练集，并利用重构误差作为所述自动编码器的损失函数；将所述自动编码器记为I，所述训练数据集记为x，则相应的所述损失函数为：其中，I相当于一个函数表达式，I(x)表示当函数表达式的输入为x时的输出结果；在中，右侧底下的2表示求向量x
‑
I(x)的第二范数的值，上面的2表示对第二范数求平方值；在所述自动编码器的训练完毕后，将所述损失函数作为判断样本是否异常的衡量标准；如果所述原始样本的重构误差高于预先设定的阈值，则判定为异常样本，否则为正常样本；
步骤3、应用预先设计的对抗攻击算法，对所述训练数据集中的每一个所述原始样本生成一个相应的对抗样本；步骤4、完成编码器网络以及特征向量评估模块和掩码向量评估模块的训练和构建；步骤5、将分类器连接在已经训练好的所述编码器网络后面，在保证所述编码器网络的权重不变的情况下仅对所述分类器进行训练，得到最终的分类模型；所述分类模型对所述测试数据集进行分类预测。6.如权利要求5所述的基于对抗掩码的网络流量异常检测方法，其特征在于，在所述步骤3中，所述对抗攻击算法为：假设所述原始数据集为x＝(x
c
，x
s
)，其中x
c
＝(x1，x2，...，x
k
)，代表着k个元素组成的所述连续特征，而x
s
＝(x
k+1
，x
k+2
，...，x
d
)，表示由d
‑
k个元素所组成的所述离散特征；设扰动范围...

【专利技术属性】
技术研发人员：张一航，黄晓霖，杨根科，褚健，
申请(专利权)人：上海交通大学宁波人工智能研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人