一种基于类敏感特征提取的不均衡网络流量分类方法和系统技术方案

技术编号：32265624 阅读：39 留言：0更新日期：2022-02-12 19:28

本发明专利技术涉及一种基于类敏感特征提取的不均衡网络流量分类方法和系统。该方法的步骤包括：对原始不均衡流量数据中的每一条流进行向量化表示，得到向量化的流量数据集；采用神经网络进行类敏感特征学习，从通道层面学习得到对不同类别具有不同敏感度的特征表示；采用非局部机制将不同位置上的特征表示进行融合，得到重构后的流量特征表示；将重构后的流量特征表示输入分类器以进行网络流量分类。本发明专利技术无需任何数据预处理操作，也不需要对特征进行选择，避免了引入噪声或丢失流量信息；本发明专利技术可以针对每个类别学习最适合的特征表示，能够有针对性地提高少数类的表现，对不同任务场景所需要的不同初始特征具有鲁棒性。需要的不同初始特征具有鲁棒性。需要的不同初始特征具有鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于类敏感特征提取的不均衡网络流量分类方法和系统

[0001]本专利技术涉及一种基于类敏感特征提取的不均衡网络流量分类方法和系统，属于计算机软件

技术介绍

[0002]网络流量分类作为网络管理和网络空间安全的基石，引起了学术界和工业界的广泛关注。随着加密协议的普及，基于端口和深度包检测的网络流量分类技术不再有效，基于机器学习的解决方案成为主流。近年来，出现了很多这方面的研究，提出有效的流量特征和网络结构，并取得了良好的效果。但是，当这些方案应用到现实世界中时，可能会出现性能降级。
[0003]一方面，大部分机器学习算法的设计往往是以取得整体的最高精度为目标的，没有考虑类别的分布情况，也就是默认数据集中各类别的样本数量是均衡的。在真实互联网环境中，网络流量往往呈现不均衡分布。流量分类的类别可以是协议、应用、用户行为、是否为恶意等，那么不同的协议、应用或用户行为产生的流量规模必然不同，恶意流量和正常流量的规模差距则更是悬殊。然而，大多数基于机器学习的流量分类方案都没有考虑这两个因素。这导致在面对不均衡的流量分类场景时，会导致预测向多数类偏移，而使少数类的性能下降。
[0004]已有研究从三个层面提出了处理流量不均衡的方法。第一个是数据层面，主要是使用通用的数据采样技术，在训练前增加或减少某类的样本数量来重新平衡数据集。这可能会引入噪声或丢失过多的流量样本，从而导致效果不稳定。第二是算法层面，包括集成学习和代价敏感的方法。后者通过为不同类别的样本分配不同的误分类代价来弥补样本数量的差距。但代价...

【技术保护点】

【技术特征摘要】
1.一种基于类敏感特征提取的不均衡网络流量分类方法，其特征在于，包括以下步骤：对原始不均衡流量数据中的每一条流进行向量化表示，得到向量化的流量数据集；采用神经网络进行类敏感特征学习，从通道层面学习得到对不同类别具有不同敏感度的特征表示；采用非局部机制将不同位置上的特征表示进行融合，得到重构后的流量特征表示；将重构后的流量特征表示输入分类器，通过分类器进行网络流量分类。2.根据权利要求1所述的方法，其特征在于，所述向量化的流量数据集表示为X＝[X1，X2，...，X
n
]，其中X
i
表示每一类的流量样本集合，i∈[1，n]，共n个类别，每类的样本规模为N
i
，即其中为第i类中的第j个流量样本，j∈[1，N
i
]。3.根据权利要求1所述的方法，其特征在于，所述神经网络采用ResNet网络，并在其基础上做以下改进：最开始的卷积操作去掉利用stride和pooling进行的下采样操作，并扩充输入通道数，而空间维度的特征大小不变；在第一个stage中不做下采样操作；在后续的stage中，将第一个ResBlock中做下采样的卷积即stride为2的卷积，用stride为1的卷积加stride为2的最大池化代替；在每一个stage的末尾都加入一个SE块，即压缩再激活块；ResBlock通过捕捉特征之间的空间相关性来增强特征表示，SE块从通道角度改善特征表示的质量，使网络利用全局信息有选择地增强有益特征并抑制无用特征。4.根据权利要求3所述的方法，其特征在于，设SE块的输入特征为U＝[u1，u2，...，u
C
]，]，u
c
表示将特征按照通道划分后第c个通道的特征，c∈[1，C]，H
×
W表示特征的空间维度，C表示通道数；SE块首先进行压缩操作，使用全局平均池化操作将全局空间信息聚合到中的通道描述符然后进行激活操作，对压缩之后的结果做一个非线性变换，显式地建模通道之间的互相依赖关系。5.根据权利要求4所述的方法，其特征在于，所述压缩操作中，通道描述符z的第c个元素通过以下公式计算：所述激活操作后得到的特征为：s＝σ(g(z，W))＝σ(W2δ(W1z))其中，s表示激活操作后得到的特征，σ表...

【专利技术属性】
技术研发人员：李镇，熊刚，郭煜，苟高鹏，石俊峥，夏葳，
申请(专利权)人：中国科学院信息工程研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人