一种基于类敏感特征提取的不均衡网络流量分类方法和系统技术方案

技术编号:32265624 阅读:39 留言:0更新日期:2022-02-12 19:28
本发明专利技术涉及一种基于类敏感特征提取的不均衡网络流量分类方法和系统。该方法的步骤包括:对原始不均衡流量数据中的每一条流进行向量化表示,得到向量化的流量数据集;采用神经网络进行类敏感特征学习,从通道层面学习得到对不同类别具有不同敏感度的特征表示;采用非局部机制将不同位置上的特征表示进行融合,得到重构后的流量特征表示;将重构后的流量特征表示输入分类器以进行网络流量分类。本发明专利技术无需任何数据预处理操作,也不需要对特征进行选择,避免了引入噪声或丢失流量信息;本发明专利技术可以针对每个类别学习最适合的特征表示,能够有针对性地提高少数类的表现,对不同任务场景所需要的不同初始特征具有鲁棒性。需要的不同初始特征具有鲁棒性。需要的不同初始特征具有鲁棒性。

【技术实现步骤摘要】
一种基于类敏感特征提取的不均衡网络流量分类方法和系统


[0001]本专利技术涉及一种基于类敏感特征提取的不均衡网络流量分类方法和系统,属于计算机软件


技术介绍

[0002]网络流量分类作为网络管理和网络空间安全的基石,引起了学术界和工业界的广泛关注。随着加密协议的普及,基于端口和深度包检测的网络流量分类技术不再有效,基于机器学习的解决方案成为主流。近年来,出现了很多这方面的研究,提出有效的流量特征和网络结构,并取得了良好的效果。但是,当这些方案应用到现实世界中时,可能会出现性能降级。
[0003]一方面,大部分机器学习算法的设计往往是以取得整体的最高精度为目标的,没有考虑类别的分布情况,也就是默认数据集中各类别的样本数量是均衡的。在真实互联网环境中,网络流量往往呈现不均衡分布。流量分类的类别可以是协议、应用、用户行为、是否为恶意等,那么不同的协议、应用或用户行为产生的流量规模必然不同,恶意流量和正常流量的规模差距则更是悬殊。然而,大多数基于机器学习的流量分类方案都没有考虑这两个因素。这导致在面对不均衡的流量分类场景时,会导致预测向多数类偏移,而使少数类的性能下降。
[0004]已有研究从三个层面提出了处理流量不均衡的方法。第一个是数据层面,主要是使用通用的数据采样技术,在训练前增加或减少某类的样本数量来重新平衡数据集。这可能会引入噪声或丢失过多的流量样本,从而导致效果不稳定。第二是算法层面,包括集成学习和代价敏感的方法。后者通过为不同类别的样本分配不同的误分类代价来弥补样本数量的差距。但代价设计依赖专家经验,效果难以控制。第三种是特征层面。通过执行变换,使处理后的特征在少数类上可区分度更高,从而缓解不均衡带来的性能下降。该层面的已有研究侧重于特征选择,通过手动设计的度量来选择最佳特征子集。然而,这样的方案通常会丢弃大量“冗余”特征,其中包含潜在的有价值的信息。随着深度学习的兴起,特征提取方法正在成为一种新的趋势,通过设计更有利于少数类特征表达的网络结构来对抗不均衡。但是这方面的研究还比较有限,而且目标场景单一。

技术实现思路

[0005]本专利技术旨在从特征层面入手,针对已有研究易丢失有效特征、特征表达不充分的问题,提出端到端的不均衡流量分类模型。借助基本的残差网络结构,本专利技术能够深入挖掘有效特征。为了缓解少数类流量的性能下降,本专利技术显式地对特征通道之间的相互依赖性进行建模,并学习通道权重。为不同类别生成的特定特征表示极大地增加了类别之间的区分度。除此之外,本专利技术还从全局角度挖掘有价值的信息,以进一步增强特征表达的鲁棒性。而且,流量向量化模块使其具备了通用性,可以适应不同格式的初始流量特征。
[0006]本专利技术采用的技术方案如下:
[0007]一种基于类敏感特征提取的不均衡网络流量分类方法,包括以下步骤:
[0008]对原始不均衡流量数据中的每一条流进行向量化表示,得到向量化的流量数据集;
[0009]采用神经网络进行类敏感特征学习,从通道层面学习得到对不同类别具有不同敏感度的特征表示;
[0010]采用非局部机制将不同位置上的特征表示进行融合,得到重构后的流量特征表示;
[0011]将重构后的流量特征表示输入分类器,通过分类器进行网络流量分类。
[0012]进一步地,所述神经网络采用ResNet网络,并在其基础上做以下改进:
[0013]最开始的卷积操作去掉利用stride和pooling进行的下采样操作,并扩充输入通道数,而空间维度的特征大小不变;
[0014]在第一个stage中不做下采样操作;在后续的stage中,将第一个ResBlock中做下采样的卷积即stride为2的卷积,用stride为1的卷积加stride为2的最大池化代替;
[0015]在每一个stage的末尾都加入一个SE块,即压缩再激活块;ResBlock通过捕捉特征之间的空间相关性来增强特征表示,SE块从通道角度改善特征表示的质量,使网络利用全局信息有选择地增强有益特征并抑制无用特征。
[0016]进一步地,设SE块的输入特征为U=[u1,u2,

,u
C
],u
c
表示将特征按照通道划分后第c个通道的特征,c∈[1,C],H
×
W表示特征的空间维度,C表示通道数;SE块首先进行压缩操作,使用全局平均池化操作将全局空间信息聚合到中的通道描述符然后进行激活操作,对压缩之后的结果做一个非线性变换,显式地建模通道之间的互相依赖关系。
[0017]进一步地,所述压缩操作中,通道描述符z的第c个元素通过以下公式计算:
[0018][0019]所述激活操作后得到的特征为:
[0020]s=σ(g(z,W))=σ(W2δ(W1z))
[0021]其中,s表示激活操作后得到的特征,σ表示Sigmoid函数,δ表示ReLU函数,W1、W2表示在激活操作过程中需要学习的权重,r是限制模型复杂度的压缩比。
[0022]进一步地,SE块的最终输出为:
[0023][0024]其中,表示在第c个通道上原本的输入特征和激活操作后得到的权重的乘积,即SE模块输出的特征,s
c
表示s中第c个通道对应的标量。
[0025]进一步地,所述采用非局部机制将不同位置上的特征表示进行融合,采用以下公式实现:
[0026]z
i
=W
z
y
i
+x
i
[0027][0028]其中,z
i
是经过非局部机制后得到的新特征表示,x
i
是第i个位置上的特征,W
z
是学习得到的权重,y
i
是x
i
和其他所有位置上的特征的运算结果,C(x)是位置的数量,f(x
i
,x
j
)是度量x
i
和x
j
之间的关联性的函数,g(x
j
)是为了减少计算量而对x
j
进行的降维操作。
[0029]一种采用上述方法的基于类敏感特征提取的不均衡网络流量分类系统,其包括:
[0030]流量向量化模块,用于对原始不均衡流量数据中的每一条流进行向量化表示,得到向量化的流量数据集;
[0031]类敏感特征学习模块,用于采用神经网络进行类敏感特征学习,从通道层面学习得到对不同类别具有不同敏感度的特征表示;
[0032]特征重构模块,用于采用非局部机制将不同位置上的特征表示进行融合,得到重构后的流量特征表示;
[0033]分类模块,用于将重构后的流量特征表示输入分类器,通过分类器进行网络流量分类。
[0034]本专利技术的关键点在于:
[0035]1、针对真实网络流量中存在的类别不均衡问题,提出了基于类敏感特征提取的不均衡流量分类解决方法,称为DeepFE。该方法是一种端到端本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于类敏感特征提取的不均衡网络流量分类方法,其特征在于,包括以下步骤:对原始不均衡流量数据中的每一条流进行向量化表示,得到向量化的流量数据集;采用神经网络进行类敏感特征学习,从通道层面学习得到对不同类别具有不同敏感度的特征表示;采用非局部机制将不同位置上的特征表示进行融合,得到重构后的流量特征表示;将重构后的流量特征表示输入分类器,通过分类器进行网络流量分类。2.根据权利要求1所述的方法,其特征在于,所述向量化的流量数据集表示为X=[X1,X2,...,X
n
],其中X
i
表示每一类的流量样本集合,i∈[1,n],共n个类别,每类的样本规模为N
i
,即其中为第i类中的第j个流量样本,j∈[1,N
i
]。3.根据权利要求1所述的方法,其特征在于,所述神经网络采用ResNet网络,并在其基础上做以下改进:最开始的卷积操作去掉利用stride和pooling进行的下采样操作,并扩充输入通道数,而空间维度的特征大小不变;在第一个stage中不做下采样操作;在后续的stage中,将第一个ResBlock中做下采样的卷积即stride为2的卷积,用stride为1的卷积加stride为2的最大池化代替;在每一个stage的末尾都加入一个SE块,即压缩再激活块;ResBlock通过捕捉特征之间的空间相关性来增强特征表示,SE块从通道角度改善特征表示的质量,使网络利用全局信息有选择地增强有益特征并抑制无用特征。4.根据权利要求3所述的方法,其特征在于,设SE块的输入特征为U=[u1,u2,...,u
C
],],u
c
表示将特征按照通道划分后第c个通道的特征,c∈[1,C],H
×
W表示特征的空间维度,C表示通道数;SE块首先进行压缩操作,使用全局平均池化操作将全局空间信息聚合到中的通道描述符然后进行激活操作,对压缩之后的结果做一个非线性变换,显式地建模通道之间的互相依赖关系。5.根据权利要求4所述的方法,其特征在于,所述压缩操作中,通道描述符z的第c个元素通过以下公式计算:所述激活操作后得到的特征为:s=σ(g(z,W))=σ(W2δ(W1z))其中,s表示激活操作后得到的特征,σ表...

【专利技术属性】
技术研发人员:李镇熊刚郭煜苟高鹏石俊峥夏葳
申请(专利权)人:中国科学院信息工程研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1