一种基于对抗生成网络流量增强的不均衡流量分类方法和系统技术方案

技术编号:32265621 阅读:57 留言:0更新日期:2022-02-12 19:28
本发明专利技术涉及一种基于对抗生成网络流量增强的不均衡流量分类方法和系统。该方法在原始的不平衡流量数据集上预训练一个经验最优的网络作为分类器的初始状态;然后对生成器、判别器和分类器进行同步训练;生成器对少数类流量进行过采样以生成流量样本,并输入判别器和分类器;判别器判断输入的流量样本是真实数据还是生成器生成的数据,并反馈给生成器以帮助其进行优化学习;分类器对网络流量进行分类并将分类结果反馈至生成器,使生成器生成更符合对应类别样本分布的流量样本;训练完成后分类器的输出结果即为不均衡流量分类结果。本发明专利技术避免了使用通用过采样算法造成的不适用于流量数据的弊端,可以在真实网络环境中实现对不均衡流量的有效分类。均衡流量的有效分类。均衡流量的有效分类。

【技术实现步骤摘要】
一种基于对抗生成网络流量增强的不均衡流量分类方法和系统


[0001]本专利技术涉及一种基于对抗生成网络流量增强的不均衡流量分类方法和系统,属于计算机软件


技术介绍

[0002]网络流量分类作为网络管理和网络安全的重要基础技术,在服务质量优化、基于流量的网络计费、网络入侵检测等任务中起着不可或缺的作用。随着加密协议的发展和人们对隐私保护要求的提高,目前的网络流量呈现全加密化的趋势,基于端口和规则匹配的流量分类技术不再适用,机器学习成为应用于流量分类研究的最主流和最有效技术。但是,互联网流量普遍呈现出天然的不均衡分布。一些高价值的流量可能发生几率小,并且所占比例非常低。这对机器学习技术的应用提出了巨大的挑战。因为大多数机器学习算法在设计的时候是以实现最高的整体精度为目标的,并未考虑类不均衡的情况。真实世界流量的不均衡分布会导致机器学习模型对多数类流量的频繁预测和对少数类流量的忽视,从而导致大多数现有的基于机器学习的流量分类方案的降级。在某些场景下,如恶意流量识别和入侵检测,少数类的性能降级所带来的危害是非常巨大的。因此,不均衡网络流量分类本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于对抗生成网络流量增强的不均衡流量分类方法,其特征在于,包括以下步骤:在原始的不平衡流量数据集上预训练一个经验最优的网络,作为分类器的初始状态;对生成器、判别器和分类器进行同步训练,其中:生成器对少数类流量进行过采样以生成流量样本,并输入判别器和分类器;判别器判断输入的流量样本是真实数据还是生成器生成的数据,并将判断结果反馈给生成器,以帮助生成器进行优化学习;分类器对网络流量进行分类,并将分类结果反馈至生成器,使生成器生成更符合对应类别样本分布的流量样本;生成器、判别器和分类器训练完成后,分类器的输出结果即为最终的不均衡流量分类结果。2.根据权利要求1所述的方法,其特征在于,在对生成器、判别器和分类器进行同步训练之前,采用以下方式准备流量数据集:假定在不均衡流量分类任务中,由n个类别、共N个样本组成的流量数据集X用作训练集,根据类别规模从小到大给n类流量样本按照升序进行重新打标,得到X={X1,X2,

,X
n
},其中|X
i
|=N
i
表示第i类的样本数量,i∈L={1,2,3,

,n},L为标签集合。3.根据权利要求1所述的方法,其特征在于,所述生成器为每个少数类样本生成一组权重,生成器由一系列权重生成单元wGU
i
组成,i∈L=[1,n

1],n为类别个数;每个wGU
i
对应一个少数类,用于学习一个条件映射g
i
,从低维潜在空间到权重向量w
i
=g
i
(z|i),其中z是随机噪声;在每个特征维度上,每个i类样本贡献相应权重的值,然后所有样本加权求和得到生成样本在该特征维度上的值。4.根据权利要求3所述的方法,其特征在于,所述生成器的优化目标函数是:其中其中其中其中,G表示生成器,V(G)表示生成器的目标函数,D表示判别器,C
i
表示第i类的分类器,L\{i}表示非第i类的标签...

【专利技术属性】
技术研发人员:熊刚李镇郭煜崔明鑫徐安林管洋洋
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1