一种针对少样本恶意流量的检测系统及方法技术方案

技术编号:37548836 阅读:21 留言:0更新日期:2023-05-12 16:26
本发明专利技术公开了一种针对少样本恶意流量的检测系统及方法,属于恶意流量检测技术领域,主旨在于解决恶意流量检测系统在处理少样本时缺乏足够的先验样本难以构建合适的特征空间及决策超平面的问题。主要方案包括流量数据处理模块将流量数据的Pcap包提取成特征向量,然后进行特征筛选、独热编码和归一化处理;处理好的特征向量通过数据增强模块完成对少样本数据的特征向量扩充;扩充后的特征向量传入到任务集构造模块,得到多样本的元测试集和元训练集;通过多样本的元训练集训练得到模型参数后,将其作为元测试集分类器模型的初始参数,并且用元测试集对模型进行微调,得到最后的分类器模型。的分类器模型。的分类器模型。

【技术实现步骤摘要】
一种针对少样本恶意流量的检测系统及方法


[0001]本专利技术涉及恶意流量检测
,提供了一种针对少样本恶意流量的检测系统及方法。

技术介绍

[0002]网络流量是在网络空间中进行信息交互和传递的主要载体,基于网络流量的异常检测技术在恶意流量检测领域作为一项有效的主动防御技术,它通过对网络流量模式进行识别,及时发现网络流量中异常的流量模式和攻击行为,对于维护网络空间的安全具有重要意义。
[0003]然而,传统基于规则的网络流量异常检测技术极其依赖于已有规则库,难以适应当今日新月异的网络流量环境,也无法有效对一些不常见的网络流量攻击进行检测。随着大数据时代的到来,基于人工智能与神经网络的智能系统能够基于海量网络流量数据来实现流量异常检测,也被越来越多的机构与企业应用,基于传统迁移学习也能够一定程度上实现对少样本的检测。然而,这些智能系统往往由于网络数据包表征体系建立不完善、粒度过粗等原因,导致在实际网络流量的检测中表现较差。同时,传统迁移学习依旧依赖于少样本的训练数据来为智能系统提供先验知识,然而这些先验知识往往难以有效地构建针对该种少样本攻击标签合适的特征空间范围及决策超平面,导致系统最终检测与泛化能力不佳。
[0004]为了减小少样本对模型训练的影响,研究人员提出了一些方法。
[0005]在文献《GAN

based imbalanced data intrusion detection system》、《PWG

IDS:An Intrusion Detection Model for Solving Class Imbalance in IIoT NetworksUsing Generative Adversarial Networks》和《SMOTE for learning from imbalanced data:progress and challenges,marking the 15

year anniversary》中通过生成对抗网络和SMOTE来增强数据的方法去扩充对应的攻击标签。然而,这些方法仍然基于原始少量数据进行数据增强算法的训练,这种矛盾会导致数据增强算法的不稳定。文献《A novel wide&deep transfer learning stacked GRU framework for network intrusion detection》和《Leveraging siamese networks for one

shot intrusion detection model》通过基于传统的迁移学习、孪生网络等方法实现少样本检测,但实际少样本攻击标签难以反映该攻击实例真实的高维数据分布,最后导致异常检测系统的泛化性仍有不足。
[0006]文献《A method of few

shot network intrusion detection based on meta

learning framework》实现一种基于元学习的FC

Net框架去检测少样本可视化网络数据流量,并在作者自行构建的子数据集上表现出色。然而作者自行定义的少样本是将多样本攻击流量进行少采样,真正的少样本攻击标签诸如SQL注入则未计入实验。
[0007]文献《Variational few

shot learning for microservice

oriented intrusion detection in distributed industrial IoT》实现了一种基于类内/类间结构
的变分少样本优化模型以克服不平衡数据集的特定数据分布越界问题从而实现少样本检测。不过他们的实验将CICIDS2017数据集的四种DoS攻击视为一类,并只对NSL

KDD数据集的四个主要类别进行检测。这种少样本标签组合成大类的行为逃避了真正针对少样本攻击标签的检测。

技术实现思路

[0008]针对上述现有技术问题,本专利技术的目的在于提供针对少样本恶意流量的检测系统,该系统能够解决恶意流量检测系统在处理少样本时缺乏足够的先验样本难以构建合适的特征空间及决策超平面的问题。从流量数据Pcap包提取出特征向量,并进行特征筛选、独热编码、归一化处理。再通过生成对抗网络对少样本数据的特征向量进行扩充,并将扩充后的特征向量构造成元学习的多任务形式。最后基于元学习的思想,将多样本任务集上学到的模型参数迁移到少样本任务集上后,并进行训练微调,得到最后的检测模型。
[0009]为了达到上述目的,本专利技术采用如下技术方案:
[0010]一种针对少样本恶意流量的检测系统,其特征在于,包括以下器件:
[0011]流量数据处理模块:先通过CICflowmeter工具对流量数据的Pcap包进行特征提取,得到流量数据的初步特征向量A;接着对特征向量A的特征进行筛选、独热编码和归一化,得到特征向量B;
[0012]数据增强模块:通过梯度提升决策树来计算特征向量B的特征重要性,并根据特征重要性进行功能性和非功能性特征的划分,然后通过生成对抗网络对少样本的特征向量B的非功能性部分进行生成,实现对少样本流量数据的增强,得到扩充的特征向量C;
[0013]任务集构造模块:将扩充的特征向量C中每类恶意攻击和良性数据组成一个任务,每一个任务包含两个子集,且每个子集都包含恶意攻击和良性数据的特征向量,这样得到多个任务,再将这些任务分为元训练集和元测试集,并且使元训练集包含多样本的攻击类型,而元测试集包含所有类型的攻击。
[0014]分类器模块:采用元学习的思想,先让多样本的元训练集对分类器进行训练,从元训练集中获取到分类器模型参数后,将其迁移到元测试集上,对于元测试集训练的分类器模型直接采用迁移过来的参数作为模型初始参数进行训练,得到最后检测的分类器。
[0015]上述技术方案中,其中流量数据处理模块具体实现步骤如下:
[0016]通过CICflowmeter工具对流量数据的Pcap包进行特征提取,得到流量数据的初步特征向量A,并统计出特征向量A常用的端口号和协议号。为了进一步方便模型的训练,在读取特征向量A后,对其进一步处理。先通过特征筛选去特征向量中对分类作用不大的特征以减小维度,如:Flow ID等。再通过独热编码来解决特征值离散的问题,并且为了防止由于端口和协议特征存在大量不同的特征值而导致独热编码时数据维度爆炸。利用得到常用的端口号和协议号,将它们作为特征向量的新特征,并且将那些不常用的端口和协议号都归为另两类特征。它们的值都是0或1,1表示样本包含该特征,而0表示不包含该特征。之后,通过归一化来处理连续型的特征值,将其都映射0到1范围,以避免特征值之间数值不同级给模型带来的影响。最后得到处理过后的特征向量B。
[0017]上述技术方案中,其中数据增强模本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种针对少样本恶意流量的检测系统,其特征在于,包括以下模块:流量数据处理模块:先通过CICflowmeter工具对流量数据的Pcap包进行特征提取,得到流量数据的初步特征向量A;接着对特征向量A的特征进行筛选、独热编码和归一化,得到特征向量B;数据增强模块:通过梯度提升决策树来计算特征向量B的特征重要性,并根据特征重要性进行功能性和非功能性特征的划分,然后通过生成对抗网络对少样本的特征向量B的非功能性部分进行生成,实现对少样本流量数据的增强,得到扩充的特征向量C;任务集构造模块:将扩充的特征向量C中每类恶意攻击和良性数据组成一个任务,每一个任务包含两个子集,且每个子集都包含恶意攻击和良性数据的特征向量,这样得到多个任务,再将这些任务分为元训练集和元测试集,并且使元训练集包含多样本的攻击类型,而元测试集包含所有类型的攻击。分类器模块:采用元学习的思想,先让多样本的元训练集对分类器进行训练,从元训练集中获取到分类器模型参数后,将其迁移到元测试集上,对于元测试集训练的分类器模型直接采用迁移过来的参数作为模型初始参数进行训练,得到最后检测的分类器。2.根据权利要求1所述的一种针对少样本恶意流量的检测系统,其特征在于,其中流量数据处理模块具体实现步骤如下:通过CICflowmeter工具对流量数据的Pcap包进行特征提取,得到流量数据的初步特征向量A,并统计出特征向量A常用的端口号和协议号,为了进一步方便模型的训练,在读取特征向量A后,对其进一步处理。先通过特征筛选除去特征向量中无用的Flow ID和分类时没用到特征,以减小维度,再通过独热编码将离散的特征值转换成连续的0,1独热向量,利用得到常用的端口号和协议号,将它们作为特征向量的新特征,并且将那些不常用的端口归为一类特征,而不常用的协议号归为另一类特征,这些新加入的特征的值都是0或1,1表示样本包含该特征,而0表示不包含该特征,之后,通过归一化来处理连续型的特征值,将其都映射0到1范围,特征向量A通过上述特征筛选,独热编码和归一化处理后,得到特征向量B。3.根据权利要求1所述的一种针对少样本恶意流量的检测系统,其特征在于,其中数据增强模块具体实现步骤如下:通过梯度提升决策树计算出特征向量B中恶意攻击特征向量部分的每类恶意攻击特征重要性,然后选取特征重要性排名前五的每类恶意攻击特征的交集作为功能性特征,剩下的特征作为非功能性特征,将少样本的恶意攻击特征向量经过上述划分后,通过生成对抗网络对非功能性特征部分进行生成,再将生成的非功能性特征与交集得到的功能性特征进行结合得到生成的少样本恶意攻击特征向量,并加入特征向量B中,得到特征向量C。4.根据权利要求1所述的一种针对少样本恶意流量的检测系统,其特征在于,其中任务集构造模块具体实现步骤如下:将特征向量C构造成多任务的形式,其中每个任务包含一类攻击的特征向量和良性特征向量,每一个任务包含两个子集,且每个子集都包含恶意攻击和良性数据的特征向量,这样得到多个任务,再将这些任务分为元训练集和元测试集,使元训练集包含多样本攻击类型,而元测试集包含所有类型的攻击,在元训练集中,每一个任务的两子集为样本集和查询集,而在元测试集中,每一个任务的两子集为支持集和测试集。5.根据权利要求1所述的一种针对少样本恶意流量的检测系统,其特征在于,其中分类
器模块具体实现步骤如下:进行模型训练时,先用元训练集的样本集搜索最佳的分类器模型参数,再用元训练集的查询集验证所选分类器模型参数的合理性,通过多样本的元训练集得到模型参数后,将其作为元测试...

【专利技术属性】
技术研发人员:牛伟纳胡佳张小松姚领风何朝旭
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1