一种基于迁移学习的未知网络协议分类方法技术

技术编号：40975938 阅读：2 留言：0更新日期：2024-04-18 21:24

本发明专利技术涉及网络空间安全技术领域，具体涉及一种基于迁移学习的未知网络协议分类方法，包括捕获收集未知网络协议的流量数据；统计流量方向和计算流量长度，并对流量数据进行预处理操作；使用通用数据集训练VIT网络，得到包含权重的迁移神经网络模型；基于所述迁移神经网络模型提取流量数据的特征，并对特征进行降维操作；对所述降维后特征向量进行聚类，实现对未知网络协议流量的分类，提高了流量分类方法的健壮性，摆脱对先验知识和标注的依赖，减少计算复杂度的同时实现了分类准度的提升。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及网络空间安全，尤其涉及一种基于迁移学习的未知网络协议分类方法。

技术介绍

1、随着计算机网络和互联网的使用增长，传统的网络环境已经演变为一个更为复杂的系统。其中能够准确获知协议功能和规范的被称为已知协议，然而存在很多应用程序使用未知的网络协议，其没有规范公开的文档可供参考。未记录的网络协议的使用引发了各种安全和管理问题，不法分子可以利用未知网络协议入侵系统，对网络空间安全构成了重大威胁。

2、当前已知协议的分类识别技术已经逐渐趋于成熟，但未知协议分类的研究领域仍面临一些挑战。其研究方向分为以下两类：基于指令代码的协议分类分析技术和基于网络流量的协议分类分析技术。其中基于指令代码的技术方向依赖于获取程序的源代码或逆向分析程序，其通常难以实现。基于网络流量的分类分析方法研究的对象是网络中传输的数据包，其具有更高的可操作性。然而现有的方法存在对于先验知识的依赖，需要手动对收集的数据进行标记，且当前的方法并不具备泛用性，无法同时处理二进制协议和文本协议。因此，当前需要一种针对未知网络协议的无监督分类方法。

技术实现思路

1、本专利技术的目的在于提供一种基于迁移学习的未知网络协议分类方法，旨在解决现有的未知网络协议分类方法通用性差，且无法实现无监督学习的问题。

2、为实现上述目的，本专利技术提供了一种基于迁移学习的未知网络协议分类方法，该方法包括以下步骤：

3、步骤1：捕获收集未知网络协议的流量数据；

4、步骤2：统计流量方向和计

5、步骤3：使用通用数据集训练vit网络，得到包含权重的迁移神经网络模型；

6、步骤4：使用所述的迁移神经网络模型提取流量数据的特征，并对特征进行降维操作；

7、步骤5：对所述降维后特征向量进行聚类，实现对未知网络协议流量的分类。

8、进一步地，所述步骤1中，捕获收集的协议流量来自于实际网络流量交换设备和开源社区公开的数据集。

9、进一步地，所述步骤2统计流量方向和计算流量长度具体为：

10、通过将数据包的传输方向划分为上行或下行、服务器到客户端或客户端到服务器，以及广播或非广播，实现对方向的分类；

11、利用网络架构模型统计每个数据包的方向，将统计结果以特征向量的方式记录；

12、计算每个数据包的长度，将结果以特征向量的方式记录。

13、进一步地，所述步骤2中对流量数据进行预处理操作具体为：

14、用零填充长度较小的数据，实现所有数据的大小都与最大数据相同，将每个零填充后的流量数据输入至opencv的resize函数，得到对应的灰度图像。

15、进一步地，所述步骤3具体为：

16、对数据集中的图像进行分块卷积，再将卷积特征展平，通过全连接层映射到高维向量空间；

17、将上述向量连接成序列，加入位置嵌入保留位置信息，并在开头添加分类令牌；

18、对处理后的序列执行多头自注意力操作；

19、将多头自注意力操作的结果输入至前馈神经网络；

20、对前馈神经网络的输出进行残差连接和层归一化处理，再全局平均池化减少序列长度；

21、保存训练后的权重参数，固定迁移神经网络模型。

22、进一步地，所述步骤4具体为：

23、将所述的灰度图像输入至固定的迁移神经网络模型中，模型将提取每个图像对应的特征，最终预训练模型的输出是每个数据包的长度为1664的高维特征向量；

24、非线性降维算法umap将所述的高维特征向量映射到10位的低维空间，并在低维空间中保持高维空间的拓扑结构；

25、umap降维算法的损失函数如下：

26、

27、

28、l(y)＝a·l1(y)+(1-a)·l2(y)

29、其中是y是低维向量表示矩阵，l1表示局部连通性损失，l2表示全局连通性损失，a是一个用于权衡局部和全局连通性贡献的超参数，l是这个两个损失函数的加权和，n是数据点的数量，n(i)表示数据点i的最近邻居集合，wij是权重，dij表示原始空间中的距离，σi是标准差，yi和yj是数据点i和j在向量空间中的表示。

30、进一步地，所述步骤5具体为：

31、将所述的每个数据包的方向特征向量、长度特征向量同所述的低维空间特征向量合并，得到基于每个数据包的综合特征向量；

32、将所述的综合特征向量输入至hdbscan聚类算法，最终划分不同未知协议的子类别。

33、本专利技术旨在解决未知网络协议分类过程中仍然存在的依赖先验知识和标注且无法同时处理二进制协议和文本协议的问题，本专利技术提供的方法包括以下步骤：首先，捕获收集未知网络协议的流量数据；其次，统计流量方向和计算流量长度，并对流量数据进行预处理操作，以实现将数据输入至神经网络模型；然后，使用通用数据集训练vit网络，得到包含权重的迁移神经网络模型，该模型具备提取特征的功能；此外，使用所述的神经网络模型提取流量数据的特征，并对特征进行降维操作以降低计算量；最后，对于提取的特征使用聚类方法，准确划分不同未知协议的子类别。

34、本专利技术的一种基于迁移学习的未知网络协议分类方法与现有技术相比，其有益效果在于：

35、本专利技术通过对未知网络协议流量进行统一的预处理，实现了对二进制协议和文本协议的同时处理，从而提高了流量分类方法的健壮性；本专利技术通过迁移学习实现了对未知网络协议流量的无监督分类，摆脱了对先验知识和标注的依赖；本专利技术通过采用vit神经网络和umap降维算法实现了分类准度的提升，同时减少了计算复杂度，有效地降低了对计算资源的需求。

本文档来自技高网...

【技术保护点】

1.一种基于迁移学习的未知网络协议分类方法，其特征在于，包括以下步骤：

2.如权利要求1所述的基于迁移学习的未知网络协议分类方法，其特征在于，

3.如权利要求1所述的基于迁移学习的未知网络协议分类方法，其特征在于，

4.如权利要求1所述的基于迁移学习的未知网络协议分类方法，其特征在于，

5.如权利要求1所述的基于迁移学习的未知网络协议分类方法，其特征在于，

【技术特征摘要】

1.一种基于迁移学习的未知网络协议分类方法，其特征在于，包括以下步骤：

2.如权利要求1所述的基于迁移学习的未知网络协议分类方法，其特征在于，

3.如权利要求1所述的基于迁移学习的...

【专利技术属性】
技术研发人员：丁勇，舒天，杨昌松，梁海，李振宇，
申请(专利权)人：桂林电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人