一种基于多模块融合的加密流量分类方法技术

技术编号:34763174 阅读:16 留言:0更新日期:2022-08-31 19:06
本发明专利技术公开了一种多模块融合的加密流量分类方法,所述方法包括以下步骤:数据集采集、数据集预处理、自注意力模块设计、残差收缩模块设计、多模块融合的神经网络模型搭建、分类模型训练及评估。本发明专利技术将自注意力机制和深度残差收缩网络与深度学习模型相结合,有效提升了神经网络的特征提取和处理能力,使得部署于网络中的加密流量分类器精度得到提升。本发明专利技术方法可部署于网络出口处对进出网络的流量进行分类,以提高网络管理和安全防护能力。以提高网络管理和安全防护能力。以提高网络管理和安全防护能力。

【技术实现步骤摘要】
一种基于多模块融合的加密流量分类方法


[0001]本专利技术涉及加密流量识别领域,具体涉及一种基于多模块融合的加密流量分 类方法,所设计方法可部署于网络出口处,用于识别加密流量,为网络安全与 管理提供技术支撑。

技术介绍

[0002]现有以僵尸网络、高级持续性威胁(APT)、木马等为主要形式的网络攻击 往往采用了相关隐匿技术绕过安全设备入侵系统。因此对加密流量的识别已经 成为防御网络攻击的重点。
[0003]近年来随着网络空间安全的受到越来越多的关注,研究人员针对流量分类 的研究也逐渐深入。流量分类方法主要分为四类:基于端口的分类方法,基于 深度包检测(DPI)的方法,基于传统机器学习和基于深度学习的方法。基于端口 的方法对于具有特定端口号的应用程序(例如,具有端口21的FTP流量)的 分类性能很好,但是由于随机端口和端口伪装技术的普遍使用,该方法对加密 流量分类的精确率低,已不再适用于加密流量的分类。DPI分析整个数据包数 据,然后识别其网络协议和应用程序。因为流量负载数据通常用协议加密或封 装,包含较少的恒定特征,使得DPI在加密流量分类任务中不再可行。而基于 机器学习的方法,通过提取流量数据的行为和统计特征,并用之训练支持向量 机(SVM),随机森林(RF)等传统的机器学习模型,从而实现加密流量的高精度分 类。但该方法需要手动设计反映网络流量的特征集,耗费大量的成本并且特征 的设计和提取直接影响分类效果,其泛化性能也有待提高。而深度学习作为机 器学习的分支,可以有效避免依赖人工设计提取特征的问题。基于深度学习的 分类方法是一种端到端的流量分类方法,自动从原始数据中提取特征,学习原 始数据和目标输出之前的关系,有利于获得全局问题的最优解。
[0004]目前,卷积神经网络作为一种深度学习方法,因其优良的特征提取能力和 分类性能,在流量分类领域中得到了广泛的应用。在神经网络中,卷积层通过 卷积核和原始特征的线性结合提取特征,但是卷积核往往只能提取原始特征的 局本部信息,无法提取全局信息。为了增加感受野,通过堆叠卷积层和增大卷 积核尺寸的方式来增加可提取的信息范围,但是该做法增加了计算开销,模型 的性能也不能得到保证。除此之外,原始流量数据中往往包含噪声和冗余信息, 使得深度学习模型从中自动提取到的特征中也包含冗余特征。这些对分类无用 的冗余特征,进一步增加了模型的训练难度和分类性能。因此,设计一种具有 更强的特征提取能力和特征处理能力的深度学习模型来提升加密流量的识别精 度具有重要意义。

技术实现思路

[0005]本专利技术提供一种可部署于网络出口处的流量解决方案,该方案通过捕获原 始特征的全局信息,自适应滤除所提取特征的噪声,增强模型的特征提取和处 理能力,提高加密流量分类准确率的方法。
[0006]为实现上述目的,本专利技术采用以下技术方案:一种基于多模块融合的加密 流量分类方法。包括以下步骤:
[0007]S1数据集采集:捕获流量,生成会话,按照五元组对所采集的网络流量数 据过滤分流,获取原始实验数据集。
[0008]S2数据集预处理:读取流量数据,剔除数据链路层,统一数据长度,归一 化并转为包字节矩阵,生成灰度图像训练集和测试集。
[0009]S3自注意力模块设计:通过三个并行1*1卷积核生成三个二维特征空间 f,g,h,由特征空间f和g生成注意力特征图,并最后与特征空间h生成自注意力 特征矩阵图。
[0010]S4残差收缩模块设计:设计残差网络模块,嵌入自适应生成阈值子网络形 成残差收缩模块。
[0011]S5多模块融合的神经网络模型搭建:通过自注意力机制模块从原始流量数 据灰度图中提取特征信息,通过残差收缩模块对所提取特征自适应滤除冗余特 征并获取高维特征图,全局平均池化降维特征信息,最后通过全连接层输出分 类结果。
[0012]S6分类模型训练并评估:输入训练集训练深度学习模型,对加密流量分类; 分析指标结果,选择最优参数,优化分类器。
[0013]为优化上述技术方案,采取的具体措施还包括:
[0014]进一步地,步骤S1为数据集采集,具体包括以下步骤:
[0015]S11定义TCP流为以握手协议中的SYN标志位开始,并且以FIN标志位或 以RST标志位结尾的TCP双向流;
[0016]S12定义UDP流为以第一个数据包到达为开始,如果两个数据包到达的时 间间隔超过一分钟,则认为数据流结束,新数据流的开始;
[0017]S13捕获流量是用Wireshark抓取网络流量,生成PCAP格式文件;
[0018]S14按照五元组过滤分流流量数据,生成实验数据集。
[0019]进一步地,步骤S2为数据集预处理,处理步骤S1中获取的流量数据集, 将原始流量处理成神经网络模型可输入的格式。
[0020]进一步地,步骤S2具体包括以下步骤:
[0021]S21依次读取数据流,剔除数据链路层负载;
[0022]S22填充UDP头部,达到TCP报头长度;
[0023]S23统一数据流长度,对大于1521字节的数据流进行截断,对少于1521 字节的补零;
[0024]S24对提取的数据进行归一化处理;
[0025]S25将每条流量数据生成39*39的包字节矩阵并生成灰度图像数据集;
[0026]S26按9:1比例划分训练集和测试集。
[0027]进一步地,步骤S3为自注意力模块设计,将步骤S2中用原始流量映射出 的灰度图像作为神经网络输入,利用自注意力机制从原始流量灰度图中提取细 粒度特征,并克服传统卷积层感受野有限的局限性,提取出原始特征的全局信 息。
[0028]进一步地,步骤S3具体包括以下步骤:
[0029]S31通过3个1*1卷积核,从原始流量灰度图中提取出三个特征空间f(x), g(x),h(x);
[0030]S32将f(x),g(x)两个特征空间做矩阵乘法运算经过softmax层归一化处理后得到一个特征空间的注意力图β
ij
,即β
ij
=softmax(f(x
i
)
T
g(x
j
)),)),S
ij
=f(x
i
)
T
g(x
j
)。其中x为输入特征矩阵,β
ij
用来表示位置i对生成区域j的关系权重,N是特征位置的数目;softmax(.)为归一化指数函数。
[0031]S33将特征空间h(x)与注意力特征图β
ij
点乘得到自注意力层的输出结果即全局特征信息o
j
,计算公式为h(x
i
)=W
h
x
i
,v(x
i
)=W
v
x
i
。其中W
h
为卷积参数;W
v
为权重系数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种加密流量分类方法,其特征在于,包括以下步骤:步骤1:采集网络流量,生成会话,按照五元组对所采集的原始网络流量数据过滤分流,获取原始实验数据集;步骤2:读取原始流量数据,剔除数据链路层,统一数据长度,归一化并转为包字节矩阵,生成灰度图像训练集和测试集;步骤3:通过三个卷积核生成三个特征空间,通过其中任意两个特征空间生成注意力特征图,并与剩余的特征空间生成自注意力特征矩阵图;步骤4:构建残差收缩模块;步骤5:通过自注意力机制模块从原始流量数据灰度图中提取特征信息,通过残差收缩模块对所提取特征自适应滤除冗余特征,全局平均池化降维特征信息,输出分类结果;步骤6:将所述训练集输入深度残差收缩网络模型中训练深度学习模型,对加密流量分类。2.根据权利要求1所述的加密流量分类方法,其特征在于,所述的捕获流量是用Wireshark抓取网络流量,生成PCAP格式文件。3.根据权利要求1所述的加密流量分类方法,其特征在于,将步骤2中用原始流量映射出的灰度图像作为神经网络输入,利用自注意力机制从原始流量灰度图中提取细粒度特征,进而提取出原始特征的全局信息。4.根据权利要求1所述的加密流量分类方法,其特征在于,所述步骤3包括以下步骤:通过3个卷积核,从原始流量灰度图中提取出三个特征空间;将任意两个特征空间做矩阵乘法运算经过softmax层归一化处理后得到一个特征空间的注意力特征图;将剩下的特征空间与注意力特征图点乘得到自注意力层的输出结果即全局特征信息;全局特征信息乘以可变系数再加上原来的特征图即获得所述的注意力特征矩阵图。5.根据权利要求1所述的加密流量分类方法,其特征在于,所述的构建残差收缩模块...

【专利技术属性】
技术研发人员:翟江涛许历隆林鹏崔永富
申请(专利权)人:南京信息工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1