一种基于CNN-Transformer混合架构的网络流量分类方法技术

技术编号:37466293 阅读:9 留言:0更新日期:2023-05-06 09:40
本发明专利技术提出一种基于CNN

【技术实现步骤摘要】
一种基于CNN

Transformer混合架构的网络流量分类方法


[0001]本申请涉及一种网络流量分类方法,尤其涉及一种基于CNN

Transformer混合架构的网络流量分类方法,属于网络流量分类


技术介绍

[0002]互联网从产生到现在,无时不刻都在产生流量,尤其在超大规模集成电路计算机兴起和各种新型TCP/IP协议出现后,计算机的计算能力不断提高,协议更加完善,网络的应用更加丰富,使用互联网的人越来越多,网络的传输速率和吞吐量不断增加,流量迅猛增长。根据2016年思科可视网络指数的预测,全球互联网流量总产量将超过每年1ZB大关,并在2020达到2.3ZB。所以巨大的流量需要一项有重要意义的工程,也即流量分类。流量分类,顾名思义,也就是将流量分类成多个类。如把数据包分类成具体的应用层协议,或分成某一个大种类(如视频类,游戏类,文件传输类等)、有的也根据具体应用来分类(如QQ,Thunder等),还有一些其他的分类方式。流量分类可以应用于多个方面,如协议识别,QoS管理,恶意软件检测、优化网络布局等。
[0003]随着互联网及各种在线应用的快速增长,加密流量在网络传输中的比重越来越大,这给流量识别和分类带来了巨大的挑战。加密流量采用的端口混淆和端口跳变技术导致传统的基于端口的流量识别方法的准确率大幅下降,加密流量对传输载荷进行加密的特性也导致了基于载荷关键字的流量识别方法的准确率下降。传统机器学习方法也已不太适用加密流量的分类。基于机器学习的方法不能捕获复杂模式下互联网流量,导致准确性下降。而且基于机器学习的算法使用统计特征进行分类,需要专家手动提取特征、耗时且存在大量无标注的数据集。

技术实现思路

[0004]在下文中给出了关于本专利技术的简要概述,以便提供关于本专利技术的某些方面的基本理解。应当理解,这个概述并不是关于本专利技术的穷举性概述。它并不是意图确定本专利技术的关键或重要部分,也不是意图限定本专利技术的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
[0005]鉴于此,为解决现有技术中存在的不能捕获复杂模式下互联网流量,导致准确性下降;手动提取特征、耗时大且存在大量无标注的数据集的技术问题,本专利技术提供一种基于CNN

Transformer混合架构的网络流量分类方法。
[0006]方案一:一种基于CNN

Transformer混合架构的网络流量分类方法,包括以下步骤:
[0007]S1.获取加密流量数据,并进行预处理,得到处理后的流量数据;
[0008]S2.将处理后的流量数据按照二进制形式转化为灰度图片;
[0009]S3.将生成的灰度图片进行数据增强,获得更多的样本数据;
[0010]S4.构建基于CNN

Transformer的混合模型Next

ViT;
[0011]S5.训练混合模型Next

ViT,得到训练好的分类模型;
[0012]S6.将灰度图片作为分类模型的输入,输出加密网络流量类别。
[0013]优选的,S1具体是,包括以下步骤:
[0014]S11.将原始流量根据会话进行切分,切分为多个流量数据,将流切分成所有层;
[0015]S12.清理0B文件;
[0016]S13.处理重复文件;
[0017]S14.流量匿名化,用随机生成的新地址替换数据链路层的MAC地址和IP层的IP地址,若待分类的流量来自同一个网络环境则不需要处理。
[0018]优选的,S2具体是,包括以下步骤:
[0019]S21.取流量数据中每条流的前784个字节转换为流量图;
[0020]S22.将每个字节对应图片的一个灰度像素值,0x00对应黑色,0xff对应白色。
[0021]优选的,S3具体是,将灰度图片进行随机旋转、随机扭曲、上下翻转、左右翻转以及错切变换操作对图片进行增强,得到更多的输入数据。
[0022]优选的,混合模型Next

ViT包括:卷积模块、混合连接模块和Transformer模块,构建基于CNN

Transformer的混合模型Next

ViT,具体包括以下步骤:
[0023]S41.卷积模块包括多头卷积注意力模块和多层感知机模块;
[0024]多头卷积注意力模块将Transformer中的多头自注意力模块换成多头卷积注意力模块;
[0025]卷积注意力模块通过群卷积和逐点卷积学习局部特征,卷积注意力模块的公式如下:
[0026]CA(z)=O(W,(T
m
,T
n
)),T
{m,n}
∈z
[0027]其中,T
m
和T
n
是输入特征z相邻的tokens,W代表训练参数,O代表W和输入tokens T
{m,n}
的内积;
[0028]多头卷积注意力模块从多个并行子空间h获取信息,多头卷积注意力的公式如下:
[0029]MHCA(z)=Concat(CA1(z1),CA
22
),

,CA
h
(z
h
))W
P
[0030]其中,z=[z1,z2,

,z
h
]表示将输入特征z在多个不同的投影空间中建立的不同的投影信息;W
P
代表一个投影层,把高维特征影射到低维中;
[0031]整合多头卷积注意力模块和多层感知机模块,卷积模块的公式如下:
[0032][0033][0034]其中,z
l
‑1代表第l

1个模块的输入,z
l
代表卷积模块的输出;
[0035]S42.Transformer模块包括多头自注意力模块、多头卷积注意力模块和多层感知机模块;
[0036]多头自注意力模块,公式如下:
[0037]E

MHSA(z)=Concat(SA1(z1),SA2(z2),

,SA
h
(z
h
))W
P
[0038]其中,z=[z1,z2,

,z
h
]表示将输入特征z在多个不同的投影空间中建立的不同的投影信息;W
P
代表一个投影层,把高维特征影射到低维中;
[0039]SA是一种空间简约自注意算子,公式为:
[0040]SA(X)=Attention(X
·
W
Q
,P
S
(X
·
W
K
0,P
S...

【技术保护点】

【技术特征摘要】
1.一种基于CNN

Transformer混合架构的网络流量分类方法,其特征在于,包括以下步骤:S1.获取加密流量数据,并进行预处理,得到处理后的流量数据;S2.将处理后的流量数据按照二进制形式转化为灰度图片;S3.将生成的流量图进行数据增强,获得更多的样本数据;S4.构建基于CNN

Transformer的混合模型Next

ViT;S5.训练混合模型Next

ViT,得到训练好的分类模型;S6.将灰度图片作为分类模型的输入,输出加密网络流量类别。2.根据权利要求1所述的一种基于CNN

Transformer混合架构的网络流量分类方法,其特征在于,S1具体是,包括以下步骤:S11.将原始流量根据会话进行切分,切分为多个流量数据,将流切分成所有层;S12.清理0B文件;S13.处理重复文件;S14.流量匿名化,用随机生成的新地址替换数据链路层的MAC地址和IP层的IP地址,若待分类的流量来自同一个网络环境则不需要处理。3.根据权利要求2所述的一种基于CNN

Transformer混合架构的网络流量分类方法,其特征在于,S2具体是,包括以下步骤:S21.取流量数据中每条流的前784个字节转换为流量图;S22.将每个字节对应图片的一个灰度像素值,0x00对应黑色,0xff对应白色。4.根据权利要求3所述的一种基于CNN

Transformer混合架构的网络流量分类方法,其特征在于,S3具体是,将灰度图片进行随机旋转、随机扭曲、上下翻转、左右翻转以及错切变换操作对图片进行增强,得到更多的输入数据。5.根据权利要求4所述的一种基于CNN

Transformer混合架构的网络流量分类方法,其特征在于,混合模型Next

ViT包括:卷积模块、混合连接模块和Transformer模块,构建基于CNN

Transformer的混合模型Next

ViT,具体包括以下步骤:S41.卷积模块包括多头卷积注意力模块和多层感知机模块;多头卷积注意力模块将Transformer中的多头自注意力模块换成多头卷积注意力模块;卷积注意力模块通过群卷积和逐点卷积学习局部特征,卷积注意力模块的公式如下:其中,T
m
和T
n
是输入特征相邻的tokens,W...

【专利技术属性】
技术研发人员:孙广路何莎莎王旭辉
申请(专利权)人:哈尔滨理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1